일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
- hive beeline 설정
- 기업 조사 빨리 하는 법
- hive beeline
- mac hadoop
- hadoop safe mode
- Resources are low on NN
- 카카오 자물쇠와 열쇠
- 도커 교과서
- 자소서 너무 오래 걸림
- mac hive 3
- code=0)
- Failed to connect to localhost:10000
- mac hadoop 설치
- 자소서 빨리 쓰는 법
- 카카오 2020 코테
- hive beeline 실행
- Safe mode is ON
- 이더리움
- 자소서 시간 줄이기
- mac hadoop 설정
- is not allowed to impersonate hive (state=08S01
- 자소서 빨리
- hadoop safe mode leave
- 백준 18428
- 이더리움 #ethereum
- mac hive
- hive beeline 에러
- mac hadoop 3
- Could not open client transport with JDBC Uri: jdbc:hive2://localhost:10000
- 카카오 2020 코딩테스트
- Today
- Total
A seeker after truth
관심주제 유사연구 발표 본문
1. 관심 주제?
제가 관심 있는 주제라 하면 단도직입적으로, 전 네트워크 분석 기법에 제일 관심이 가서 이걸 반드시 캡스톤에서 메인으로 다루고 싶었어요. 그래서 네트워크 분석 기법이 들어간 데이터 사이언스 포트폴리오만 8개 정도 봤는데, 분석하고자 하는 목표가 이 기법에 정확하게 들어맞지 않으면 너무나 피상적인 수준의 결과만 도출되기 십상이라는 것을 알게 됐다. 그래서 다른 데이터 사이언스 포트폴리오들을 보면서 다시 고민해봤다. 그러다
17년도 파이콘(파이썬 컨퍼런스) 발표 세션 중 이런 발표 세션을 발견했고, 이 발표에서 착안해 캡스톤 주제를 정했다. 결론적으로 난 음성 데이터 분석을 하기로 했고, 주제를 비롯한 자세한 내용은 다음주 주제 발표 시간에 언급하는 걸로 하겠. 오늘은 내가 본 이 발표 세션이 어떤 내용이었는지 유사 주제 사례로 언급하겠다.
2. 특징 추출
frequency 진동수, 주파수
크로마그램은 발화를 쪼개서 피치(음높이)에 해당하는 것을 12 음계로 표시하여 만든 특징 그래프.
MFCC는 주파수 중에서도 인간의 가청 범위와 연관된 채널과 가장 비슷한 10개에서 20개 정도의 채널을 뽑아내서 만든 그래프
3. segmentation 분할
12음계를 행/열로 하는 2차원 피처 매트릭스를 만드는 과정. 2~5초 짜리 프레임이 오디오를 지나가면서 특징 벡터를 추출해낸다.
4. 클러스터링
1) k 평균 클러스터링: 별로 좋은 방법 아님
2) 가우시안: 서로 다른 두 발화자는 서로 다른 가우시안 분포, 그래프를 보임. 오디오 상에서 프레임이 지나가면서 두 가우시안 분포 그래프가 달라지는 포인트를 찾아내는데, BIC란 값을 계산하고 비교해서 찾아내는 것.
3) 마지막으로 계층 클러스터링: 유클리디안 거리로 계산된 유사도를 기반으로 계층 클러스터링이 진행되며, 비슷한 목소리를 구분하여 각 발화자를 찾아내는 마지막 단계. 덴드로그램은 클러스터링 알고리즘에서 단일 클러스터링이 진행되는 '과정'을 보여주는 지표.
'수업 필기 > 데이터분석캡스톤디자인' 카테고리의 다른 글
2. 주제 발표 flow (0) | 2020.04.01 |
---|---|
음악 데이터셋과 각 집합에서 가질 것 같은 가설 (0) | 2020.03.29 |
분석 로드맵, 주제 발표, 도메인 습득 (0) | 2020.03.29 |
PyCon 2017 세션 <대선 TV토론 쪼개기(이홍주 님)> 필기(음성 데이터 추출, 분석) (0) | 2020.03.24 |
아이데이션 (0) | 2020.03.20 |