관리 메뉴

A seeker after truth

논문 리서치 본문

수업 필기/데이터분석캡스톤디자인

논문 리서치

dr.meteor 2020. 5. 1. 00:07

1. 음악 특징점간 유사도 측정 -> 동일 음원 인식 방법

음악 간 유사도는 DTW(dynamic time warping) 기법 활용해 측정

특징 벡터 형태의 데이터로 변형된 후 유사도 측정 과정 거침

유사도 측정은 입력 음악 & 서버 소 ㄱ음악 간 추출된 특지 ㅇ데이터들 간 절대 거리 차이 계산

 

MFCC는 인간 발성 모델이 아닌 청각 모델 기반으로 만들어져 음성 뿐 아니라 여러 사운드가 복합된 디지털 음악에서도 특징 벡터 추출 가능

디지털 시그널 프로세싱은 미디를 통한 방법과 다르게 음악 자체로부터 정보를 추출하므로 모든 파일 규격에 적용 가능. 여기서 음의 고저, 음색, 화음 등의 특징을 추출한다.

 

자른 음원을 20ms 길이로 frame화(10ms길이씩 중복되는 부분이 생기도록 20ms 크기 프레임으로)하여 simplifiedMFCC이용해 특징 데이터 추출하고 DTW = 유사도 지표이용해 유사도 측정. 그 식은 5페이지에 나옴

파형 데이터는 순간 순간 소리의 크기 값을 연속으로 나열한 것이다. 그래서 시간에 따른 소리의 절대값을 의미를 가질 수 있는 형태로 변환해야 함. 그게 지금 여기선 simplifiedMFCC 인 것.

 

 

<파형 데이터에서 특징 데이터를 추출하는 다양한 계수>

STFT: 값의 스펙트럼 중심.

스펙트럼 형태를 측정하는 방법 중 하나 = spectral centroid

스펙트럼 형태와 낮은 주파수 영역에 신호 에너지가 얼마나 집중되어 있는지 보여줌 = spectral rolloff

연속된 스펙트럼 분포에서 정규화된 절대값들 간의 차이를 제곱해 구할 수 있으며 스펙트럼 변화의 양을 계산할 수 있 = spectral flux

오디오 신호의 리듬 정보를 수치적으로 산출하는 계수로서 wavelet 변환 후 대역별 상관도를 구해 비트 히스토그램을 만들고 그에 대한 정보를 추출 = 비트 히스토그램

인간 청각 특성을 고려해 이를 모델링하는 방법으로 오디오 신호의 절대값 스펙트럼을 로그스케일한 후 FFT bin을 그룹화해 인간의 청각 특성에 맞는 mel-frequency scale => MFCC.

 

MFCC의 정확한, 세세한, 자세한 과정이 문서 4쪽 오른쪽 문단에 나와있음

 

 

[대표구간의 음악 특징에 기반한 음악 장르 분류]

이 연구에서는 하위 장르 판별 및 실제 장르를 찾기 위하여 베이지안 집합(Bayesian Aggregation)을 통한 계층형 장르 트리의 탐색 및 판별 방법을 사용하고 있다.

음악 구조 분석 연구에서는

가사부 탐색, 악기의 변화 구간 탐색과 같은 음색의 변화 구간탐색 방법[8,9],

음악 온셋(Onset)추출을 한 뒤 음표 리듬 패턴을 통한 구조 분석 방법[10],

특징 벡터간의 유사도 클러스터링 을 통한 방법[11,12]

그리고 유사 멜로디의 반복적인 구조 탐색을 통한 방법[13]

특이점 검출은 기본 특징들을 사용한 주요 멜로디의 반복 빈도 가중치, 구간별 에너지의 세기, 구간의 위치에 따른 가중치 이 세 가지의 가중치를 통하여 각 프레임의 특이점들을 파악하게 된다. 각 특이점은 가중치로 표현되는데 이를 특이점 가중치라 한다.

사람 음향이 연속되는 부분은 사람의 음향 주파수 대역인 125~1000Hz의 에너지만을 추출 하여 에너지의 최저점(Valley) 지점을 기반으로 파악하게 된다. 최종적으로, 특이점 검출 단계에서 파악된 특이점 중 가중치가 가장 높은 특이점을 선택하고 이를 포함하는 소악절을 식별함으로써 스니핏을 얻게 된다

크로마그램간 유사 도를 통하여 연속적이고 대칭적인 멜로디 구간 즉, 반복 구간 탐색<- 크로마그램으론 겨우 이런거... 눈대중으로...

 

<6쪽에 나오는 크로마 유사도 공식 반드시 볼 것>

이렇게 그룹화된 크로마그램 그룹(20개의 크로마그 램으로 구성)을 사용하여 그룹간의 유사도를 계산하게 된다. 그룹간의 유사도는 거리에 반비례하는데, 그룹 의 크로마그램 그룹을 라 하고 그룹 의 크로마그램 그룹을 라 하면, 의 거리는 표준 유클리디안 거리 는 각 유클리

디안 거리의 합으로 계산하게 된다((5) 참고).   (5)

 

1 실험에 사용한 특징

대표구간의 음악 특징에 기반한 음악 장르 분류 697

특징군

특징

설명

음 색 특 징

Spectral Shape

Centroid

주파수의 무게 중심

Spread

무계중심으로부터 분산 범위

Roll-off

파워 스펙트럼의 Rolloff 지점

Flux

인접 프레임간의 파워스펙트럼의 분산량

Spectral Contrast

Valley

주파수 밴드별 낮은 에너지의 합

Contrast

주파수 밴드별 에너지의 대비정도

MFCC

0~12 order

사람 청각 모델에 기반한 특징

DWCHs

7 Level coefficients

밴드별 웨이블릿 히스토그램 계

 

곡 전체에 푸리에 변환을 적용하여 음색 특징들을 추출하게 되면 푸리에 변환의 특성상 시간 정보가 사라지게 되고 전역적인 주파수의 정보만 남게 되어 변화량이 많은 음악의 특색을 추출하기가 어렵게 된다. 따라서 음향신호부분마다 차이가많이나는 음색특징들을 추출하기 위해서 먼저 작은 윈도우를 사용한 단구간 푸리에변환(STFT)을 적용하여 국부적인 음색특징을 추출한후 다시 이들의전역적인표준분산의특징(평균,표준편차)을 추출하게 된다. 이러한 방법을 사용하게 되어도 음향신호의변화량이많은특징에따라 전체적 프레임들의 특징 계수의 분산의 차이가 심하게 나타나 표준 분산으로 모델링하기에 무리가 있다. 이를 위해 [2] 에서는 Texture Window와 Analysis Window를 제안 하여 음색 특징의 추출에 사용하였다. 일반적으로 고속 푸리에 변환을 사용하기 위하여 각 신호에 적용시키는 작은 윈도우로 Analysis Window를 사용하고 음향 신호의 변화량에 따른 국지적인 표준 분산의 특징을 적용시키기 위해 Texture Window를 적용시켜 국지적인 음 색특징의 표준 분산적 특징(평균, 표준편차)을 표현하게 하였다(그림 4 참고).

 

본 논문에서도 이 Texture Window를 적용시켜 음색 특징을 추출하였다.

음색 특징을 추출하기 위한 파라메터 값으로는 23msAnalysis Window20ms씩 이동시키며 음색 특징을 추출하였으며, 0.6sTexture Window0.5s씩 이동시키며 국부적 Timbral Texture의 분산 특징으로 Texture 내의 평균과 표준편차를 추출하였다.

음색 특징에는 여러가지가있으나 본논문에서는 주파수 스펙트럼의 여러 분산학적 특징을 나타내는 Spectral Shape, 사람의 청각 모델에 기반 한 MFCC 그리고 옥타브 밴드 기반의 음색의 대비를 표현하는 Spectral Contrast를 사용하였다. MFCC 특징 추출 시 본 논문에서는 이산 코사인 변환(DCT)의 상위 13차 계수까지를 사용하였다. 그리고 Spectral Contrast 특징 추출 시 [3]의연구에서와동일하게 각6옥타브밴드- 0~500, 500~1000, 1000~2000, 2000~4000, 4000~ 8000, 8000~16000(Hz) - 별로 통과한 파워 스펙트럼의 하위 % 에너지합인   , 그리고 이   값과 상위 % 에너지합인   의 차이인  로 구성된 12차의 특징벡터를 추출하여 사용하였다. 이때 값으로 0.9를 사용하였다. [3]에서는 12차 원의 특징벡터를 추출한 뒤 차원 축소를 위해 K-L변환 을 사용하였으나 본 연구에서는 K-L변환을 사용하지 않고 12차의 특징벡터 모두를 사용하였다.

 

[4]에서는 DWCHs(Daubechies Wavelet Coefficient Histograms)라 불리는 웨이블릿 히스토그램에 기초한 새로운 음악 특징 추출 방법을 제안하였다. DWCHs는 기존특징추출에많이사용된 푸리에변환과달리 주파수 대역에 따른 다해상도(Multi-resolution) 특징을 나타내는 다우비치 웨이블릿 계수를 히스토그램 함으로써 국부적이고 전역적인 정보를 모두 표현하게 된다. [4]의 실험의 결과를 보면 [2]에 사용한 특징 중 음색적 특징과함께 DWCHs를함께사용하였을시, 장르판정에 있어 두 개의 장르분류에서는 최대 99%의 성능을 보였고 [2]에서 사용한 10개의 장르 분류에 적용하였을 때에도 78.5%의 높은 성능을 보여주었다.

DWCHs 특징을 추출하기 위하여 음원을 다 우비치 웨이블릿 필터(Db8)을 사용하여 7레벨 변환 후 각 주파수 밴드별로 웨이블릿 계수를 히스토그램화하여 각기 첫 세개의 모멘트(평균, 분산, 왜도)와 밴드별 에너 지(웨이블릿 계수 제곱의 합)를 추출하여 사용하였다.

참고용::<내용 기반 분류를 위한 학습 알고리즘>으론 일반적으로 학습에 있어 분류율이 좋기로 알려진 Support Vector Machine (SVM)4), 인공신경망 (ANN) 그리고 k값이 1 Nearest-Neighbor(k-NN(1))k값이 5Nearest- Neighbor(k-NN(5)) 알고리즘을 사용하였고, 각 학습 알 고리즘의 성능을 평가하기 위해 n-Fold Cross Valida- tion5)을 사용하였다. 각 학습 알고리즘에 대한 평가는 데 이타마이닝 라이브러리인 Weka6)를 사용하였다.

안중요, 참고용:: (([4]의 결과에 의하면 DWCHs의 특징이 장르 판정에 있어좋은성능을보여주는것으로되어있으나본실 험 결과에 의하면 음색 특징(SS_SC_MFCC)만을 사용 하였을 때와 크게 차이가 없는 것으로 나타났다. 또한, 옥타브 밴드 기반의 Spectral Contrast을 다른 음색적 특징과 같이 사용한 경우가 사용하지 않은 경우보다 (SS_MFCC vs. SS_SC_MFCC) SVM 알고리즘을 기 준으로약10%정도의높은성능향상을보여주는것 으로 나타났다.))