3. 진척 상황 1
기술 통계의 '상관 분석' 쓸만할듯!
MDS: Multi Dimensional Scaling(다차원 척도법)
주성분분석
로지스틱 회귀 분석
하지만 가장 중요한 군집분석은 아직 결정 안났다...
[가사의 감정 분석과 구조 분석을 이용한 노래 간 유사도 측정]
추천 시스템은 추천에 사용하는 데이터의 종류에 따 라 두 가지로 분류된다. 사용자간 취향의 유사도를 이용 하는 추천 시스템은 협업 필터링(Collaborative Filtering) 기법으로 분류되고, 추천 대상인 아이템의 유사도를 이 용하는 추천 시스템은 내용 기반 필터링(Content-based Filtering)기법으로 분류된다. 내용 기반 필터링 기법을 사용한 대표적 음악 추천 시스템으로 판도라의 추천 시 스템이 있다. Last.fm의 추천 시스템은 협업 필터링 기법을 사용한다. 국내 주요 음악 서비스의 경우도 대부분 협업 필터링 기법을 사용하는 것으로 알려져 있다.
음악 추천 시스템의 경우에는 협업 필터링 기법과 내 용 기반추천기법방식이외에 맥락을반영한맥락기 반(Context-aware) 추천 기법을 활용하기도
[3]에서는 가장 중요한 맥락 정보로 감정을 꼽았다. 본 연구에서는 맥락에 맞는 음악 추천을 위해서 노래에 드러난 감정을 추출하였으며 감정 추출하기 위해 노래 의 가사에서 나타나는 감정과 노래의 음악적 구조를 분 석하여 유사도 계산에 사용한다.
춤 출수 있는 정도(Danceability)나 에너지 등의 오디오 요소 <- 이런게 있구나.
빠르기(tempo, BPM)와 높낮이 (key), 음계(mode)를 활용
빠르기는 일반적으로 0에서 250까지의 정수값이 사용된다. 따라서 BPM간의 차이로 유사도를 계산할 수 있다. 높낮이는 음악 전문가 의 도움을 받아 화성학에 기초한 유사도를 사용하였는 데, 예를 들어 C코드와 G코드는 화성학적으로 매우 유 사하므로 동일한 코드와 함께 가장 높은 유사도로 계산 된다. 음계는 장조와 단조의 두 가지 값을 가지므로 일 치하면 1점, 일치하지 않으면 0점을 부여하였다.
유사도를 계산한 방법에 대해선 8페이지부터 논문 직접 참고: 빠르기(tempo, BPM)와 높낮이 (key), 음계(mode)를 활용하였다. 빠르기는 일반적으로 0에서 250까지의 정수값이 사용된다. 따라서 BPM간의 차이로 유사도를 계산할 수 있다. 높낮이는 음악 전문가 의 도움을 받아 화성학에 기초한 유사도를 사용하였는 데, 예를 들어 C코드와 G코드는 화성학적으로 매우 유 사하므로 동일한 코드와 함께 가장 높은 유사도로 계산 된다. 음계는 장조와 단조의 두 가지 값을 가지므로 일 치하면 1점, 일치하지 않으면 0점을 부여하였다.
[대표 구간의 음악 특징에 기반한 음악 장르 분류]
일반적으로 우리 일상에서 접하고 있는 디지털 음악 의 경우 아날로그 음성 신호를 직접적으로 디지털로 변 환하여 사용하고있다. 간혹신호보다상위정보인,악 기, 음고(Pitch), 박자(Beat)등의 심볼릭(Symbolic) 데이 타를 기반으로 한 MIDI와 같은 형태로도 사용되나, 새 로운음악이나올때마다이를 심볼릭데이타형태로 제공하는 것은 극히 드물다.
일반적인 음악 신호 정보, 즉 오디오 샘플을 사용한 내용 기반 장르 판정에 관한 연구들은 대부분 장르 판정 에 적합한 특징들을 추출하는데 초점이 맞추어져 왔다
10개의 장르를 대상으로 하였으며 다양한 특징점의 조합에 대하여 다양한 학습 알고리즘을 사용 하여 비교 하였다. 이 연구에서 사용한 대표적인 특징점 으로는 기존 음성인식 및 음향판별 분야에서 널리 쓰인 특징들인 음색적 특징(Timbral Features)인 Centroid, Rolloff, Flux, ZCR(Zero Crossing Rate), MFCC(Mel- Frequency Cepstrum Coefficient)와 음악을 표현하는 특징으로 비트(Beat)와 하모니(Harmony)를 표현하기 위한 특징인 비트 히스토그램(Beat Histogram)과 피치 히스토그램(Pitch Histogram)을 사용하였다.
음성인식 분야에서 시작된 멜 주파수 밴드 (Mel-Frequency Band)기반의 MFCC보다 음악의 분류 를 위해 옥타브 밴드(Octave Band) 기반의 특징인 Spectral Contrast라는 새로운 특징을 제안하여 바로크 (Baroque), 로맨틱(Romantic), 팝(Pop), 재즈(Jazz) 그 리고 락(Rock)의 5개의 장르에서 MFCC와 비교하여 더 좋은 성능을 나타내는 것을 보여주었다.
[4]에서는 DWCHs(Daubechies Wavelet Coefficient Histograms)라 불리는 웨이블릿 히스토그램에 기초한 새로운 음악 특징 추출 방법을 제안. WCHs는 기존특징추출에많이사용된푸리에변환과달리주 파수 대역에 따른 다해상도(Multi-resolution) 특징을 나타내는 다우비치 웨이블릿 계수를 히스토그램 함으로 써 국부적이고 전역적인 정보를 모두 표현하게 된다
2.1 절이 이런 알고리즘 등을 설명하고 있음. 꼭 봐라!
2.2: 내용기반 음악 분류 연구 말고 구조 분석 관한 연구도 ㅇ.
악 구조 분석 연구에서는 가사부 탐색, 악기의 변화 구간 탐색과 같은 음색의 변화 구간탐색 방법[8,9], 음악 온셋(Onset)추출을 한 뒤 음표 리듬 패턴을 통한 구조 분석 방법[10], 특징 벡터간의 유사도 클러스터링 을 통한 방법[11,12] 그리고 유사 멜로디의 반복적인 구 조 탐색을 통한 방법[13]등을 사용하고 있다. 음악의 구조 분석을 통한 썸네일 추출의 경우, 대개 멜로디(Melody)가 반복되는 구간의 추출이나 음악 내 특징점들의 유사도를 통한 방법을 사용하고 있다.
크로마그램은 리듬과 하모니를 표현한다. 크로마그램간 유사 도를 통하여 연속적이고 대칭적인 멜로디 구간 즉, 반복 구간 탐색하고 이 반복구간 중에 전주, 간주, 후렴부에 해당되는 부분은 제외하였다. 전주, 간주, 후렴부는 보통 사람의 음성 없이 악기 연주로만 구성되기 때문에 이를 탐지하기 위하여 ZCR과 에너지, 음고, 세 가지 정보를 통하여 사람의 음성이 들어간 부분을 탐지하였다. 최종 적으로, 사람의 음성이 들어간 반복구간을 다중 썸네일 로 추출하고 다시 사용자의 피드백을 기반으로 단일 썸 네일을 추출하였다.
음색특징에는 여러가지가있으나 본논문에서는 주 파수 스펙트럼의 여러 분산학적 특징을 나타내는 Spe- ctral Shape, 사람의 청각 모델에 기반 한 MFCC 그리 고 옥타브 밴드 기반의 음색의 대비를 표현하는 Spe- ctral Contrast를 사용하였다