基于多核学习支持向量机的音乐流派分类
学习方法问题,将多核学习支持向量机(MKSVM)应用于音乐流派自动分类中,提出了将最优核函数进行加权组合构成合成核函数进行流派分类的方法。多核分类学习能够针对不同的声学特征采用不同的最优核函数,并通过学习得到各个核函数在分类中的权重,从而明确各声学特征在流派分类中的权重,为音乐流派分类中特征向量的分析和选择提供了一个清晰、明确的结果。在ISMIR 2011竞赛数据集上验证了提出的基于多核学习支持向量机(MKLSVM)的分类方法,并与传统的基于单核支持向量机的方法进行了比较分析。实验结果表明基于MKLSVM的音乐流派自动分类准确率比传统单核支持向量机的分类准确率提高了6.58%,且该方法与传统的特征选择结果比较,更清楚地解释了所选择的特征向量对流派分类的影响大小,通过选择影响较大的特征组合进行分类,分类结果也有了明显的提升。
关键词:音乐流派分类;多核学习;支持向量机;特征选择;模式识别
中图分类号: 中图分类号是否有误,请核实?是否应为TP391.4对,应该为TP391.4TP391.4
文献标志码:A
英文摘要
Abstract:Multiple Kernel Learning and Support Vector Machine (MKLSVM) was applied to automatic music gee classification to choose the optimal kernel functions for different features, a method of conducting the optimal kernel function combination into the synthetic kernel function by weighting for music gee classification was proposed.
Different optimal kernel functions were chosen for different acoustic features by multiple kernel classification learning, the weight of each kernel function in classification was obtained, and the weight of each acoustic feature in the classification of the gee was clarified, which provided a clear and definite result for the analysis and selection of the feature vector in the classification of music gee. The experiments on the dataset of ISMIR 2011 show that, compared with the traditional single kernel support vector machine classification, the accuracy of the proposed music gee automatic classification method based on MKLSVM is greatly improved by 6.58%. And the proposed method can more clearly reveal the the different features impacts on music gee classification results, the classification results has also been significantly improved by selecting features with larger effects on classification.
英文关键词
Key words:
music gee classification; multiple kernel learning; Support Vector Machine (SVM); feature selection; pattern recognition
0 引言
音乐流派分类是音乐信息检索领域一项应用前景广阔同时又非常具有挑战性的研究工作,而多核学习是目前机器学习领域一个新的热点,它是非线性模式分析中解决数据异构、数据不平坦分布等一系列问题的一种有效方法。本文研究将多核学习支持向量机(Multiple Kernel LearningSupport Vector Machine, MKLSVM)应用于音乐流派自动分类,研究音乐流派分类中的特征选择及自动分类。最具开创性的自动音乐流派分类研究当属Tzanetakis等[1]在2002年给出了基于声学特征的流派分类的三个阶段:1) 基于短时音频帧的特征提取过程,在这个过程中一些描述音乐音色、节奏和音高的底层声学特征将被计算出来;2) 特征选择过程,使用特征选择算法降低特征向量的维数同时去除无关和冗余特征;3) 分类过程,使用模式识别及分类算法对特征向量进行处理,从而对音乐进行自动的流派分类。由于音乐感知的各维声学特征之间具有一定的相关性和冗余度,不同声学特征对流派分类的重要程度也各不相同,需要使用特征选择算法进行特征降维;但是传统的特征选择结果并没有明确各维感知特征在流派中的权重,对得到的结果无法给出明确的解释。
2004年, BachFrancit不是文献2作者,现改为Bach,核实修改是否恰当答:没问题!但注意参考文献的时间是2004年等[2]提出了多核学习(Multiple Kernal Learning,MKL)的思想。目前,多核学习已经成为机器学习领域的一个新的热点研究。传统的单核学习将所有的特征归于一个核,因此无法区分不同特征在分类中的不同效果。多核学习对不同的特征采用不同的最优核函数,通过学习得到各个核函数在分类中的权重,这样可以在特征选择的同时得到不同特征在分类中的不同作用。2012年,Lukashevich[3]将多核学习技术应用于音乐流派分类领域,取得了一定的成果。Lukashevich对16、32、64、128、256、512、1024及2048维特征进行了多核特征组合研究,在6大类音乐流派数据的实验结果上,验证了64维多核特征组合后的分类性能优于单核分类性能。
本文将多核支持向量机(Support Vector Machine,SVM)应用于音乐流派分类中,在组合核函数中,明确不同的特征权重,研究基于多核学习的特征选择和流派分类。
1 相关知识
1.1 支持向量机
支持向量机是从线性可分情况下的最优分类发展而来的,其本质就是在于寻找一个把训练空间Rd分成两部分的最优线性分类面w·x+b=0(Vapnik 1999)[4],使得不仅能够把两类分开,而且两类的分类间隔最大,最终得到一个决策函数。
1.2 多核学习
文献[2]最早提出了多核学习(Multiple Kernal Learning,MKL)的思想。Sonnenburg等[5]对Lukashevich等[3]提出的多核思想进行了推广和应用, 将最初的MKL扩展到更大规模,可以同时结合几十个甚至几百个核,极大地提升了多核学习在模式选择领域的应用。2012年,Lukashevich等[3]第一次将多核学习技术应用于音乐分类领域,证明了其在特征分析和流派分类上的有效性。
本文研究基于MKLSVM的音乐流派分类,研究流派分类问题中的特征选择和各特征的权重,分析音乐流派中不同特征的作用。MKLSVM模型如图1所示。
从图1中可以看到,MKLSVM在传统的SVM和输入数据之间加入了多核学习的过程,用多个核函数的线性组合作为最终的核函数(称为合成核)。多核学习分类较之单核的情况,能够更细粒度地照顾到各个不同特征的特性,针对不同特征可以选取各自最适合的核函数。
2 音乐流派分类
2.1 数据集
音乐数据集的收集和整理是整个流派分类的基础。本文研究中选用的音乐数据集为ISMIS 2011比赛中采用的数据集[6]。ISMIS 2011数据集中包含了60个艺术家6大类流派的音乐,分别是:Classical、Jazz、Blues、Rock、Heavy metal、Pop。对每个表演者搜集了15~20个音乐片段,数据分布情况如表1所示。
从表1可以看出,ISMIS并不是一个平衡的数据集,最多的Classical数量甚至达到最少的Heavy metal的三倍以上。实验中,每个音乐片段都被分成20小段。
2.2 声学特征向量
ISMIS 2011比赛中使用的特征向量包括主要包括三类:1)127维的多媒体内容描述接口(Multimedia Content Description Interface,MPEG7)已查,对应Multimedia Content Description Interface描述符;2)40维表征音色的梅尔频率倒谱系数(Mel Frequency Cepstral Coefficient,MFCC);3)24维时域相关特征。同时,将各个特征按照MPEG7标准进行了分组,191维特征向量共分成10个组,具体向量的描述见表2。
2.3 MKLSVM特征选择
前文提到,通常的特征选择算法只能给出最终的特征选择结果,而对于为什么会有这种结果却无法给出合理的解释。基于多核学习的特征选择,在选取最优特征组合的同时还可以得出不同核的权重,可以清楚地得到不同特征对分类的影响。
利用MKLSVM进行流派分类中的特征选择的算法步骤如下:
1)对于每一组特征,分别用单核SVM选出其对应的最优核参数,确定10个核函数;
2)顺序添加各个子核及其对应训练数据、测试数据,开始多核训练;
3)初始化权向量W,利用利用牛顿下降等优化算法对W进行更新直到多核目标函数收敛;
4)输出结果权向量W,按照权重值对各组特征进行排序、选择;
5)选择前K组特征进行分类,并与未作特征选择的结果进行比较,循环操作直至选择出最佳的K值。
3 实验及结果分析
3.1 SVM最优参数选择
SVM具有非常完备的数学理论基础,使得它具有非常好的稳定性。对于不平衡的数据集,通过设置正例、负例不同的惩罚系数,很容易避免不平衡对于训练结果的影响。训练具有独立性,即分类器的训练可以在测试样本特征到达之前完成,实时性比较好。但是,SVM核函数的参数对于SVM性能的影响非常大。
在流派分类中最常用的SVM为RBF核函数的SVM,而影响RBF核函数SVM性能的参数有误差惩罚系数c、参数σ(参见式(4))。考虑到SVM对c值并不是特别敏感,只要c不是特别小,分类效果都比较不错[7]。为此,实验中只训练集分类效果对参数σ进行选择,该算法的前提是:对于满足特定条件的c值,总能找到一个参数σ使得分类的效果达到最佳。
实验中,SVM的核函数选择RBF核函数,固定核函数的参数c=1.0,参数σ由20取到28。通过训练集的学习,确定10个最优核函数,并在测试集上进行验证。在全部特征集合上的参数选择结果如图2所示,当σ=25,此时的分类准确率达到75.78%。
3.2 基于MKL的特征选择
实验中,根据基于MPEG7标准的分组结果[8],利用3.1节的方法,给每组特征一个单独的核进行学习,选取每组特征的最优参数核函数;然后通过对权向量的不断优化学习,在分类过程中得到图3多核学习中的权值分布。
从图3中可以明显看出,在流派分类过程中对分类结果影响权重最大的四个特征组分别为特征组2,3,6,7,而影响最小的三个特征组分别为特征组5,4,1;清楚地给出了什么特征对于流派分类影响最大,什么特征对流派分类的影响较小。
3.3 MKLSVM分类
如图1所示,在每组最优分类器结果上,将多核学习得到权重进行组合后送到SVM分类器中进行分类学习,得到最终的分类结果。表3和图4给出了选择权重最大的前3组、前4组、前5组、前6组特征及全部特征下的最优分类参数分布和分类结果分布。
从表3和图4中可以看出:在参数σ=24时前4组特征组合得到最优分类结果,分类准确率为76.58%。而前3组、5组和6组组合特征下的分类最优参数和最优准确率分别为: σ=23下的75.72%、 σ=24下的76.48%和σ=25下的75.97%。全部特征下的分类最优参数和最优准确率为σ=25下75.78%,略差于权重最大的前4组特征组合的分类准确率。
前面提到,特征选择可以看作为流派分类的过程之一。特征选择在降低特征向量维度、减少特征向量冗余度、提高分类学习效率的同时,也提高了分类的准确率[9]。本文中,将多核学习的特征选择结果同交互前向特征选择算法[10]的结果进行了比较。交互前向特征选择(Interaction Based Forward Feature Selection,IBFFS)是Wrapper特征选择算法的一种,其基本思想是以SVM分类器为最终评价标准,利用多次迭代,选取最佳的特征组合。在10大类音乐流派分类中[11],IBFFS特征选择算法给出了分类效果最优的特征组合和分类结果[10]。但对于为什么会有这种结果却无法给出合理的解释,更无法说明其中的每一个特征到底起多大作用。
实验结果发现:IBFFS特征选择得到的4组特征组合分别为ASE均值、ASE方差、SFM均值和SFM方差,从前面表2中可以看到其结果与MKL的结果完全相同。这一结果证明了MKLSVM进行特征选择的有效性。
3.4 分类实验结果比较
实验中还将MKLSVM与单核SVM进行了比较,不同分类方法下总的分类准确率比较如表4所示。
从表4中可以看出,MKLSVM的分类准确率比单核SVM提高了6.58%,与IBFFS特征选择后的结果一致,比传统的特征选择方法如前向特征选择算法(Forward Feature Selection,FFS)、Relief特征选择算法以及Fisher特征选择算法的结果都要好[12]。
从表5的混淆情况可以看出:MKLSVM分类错误主要表现在两个方面: 1)Blues类、Rock类、Pop类三类之间的混淆;2)Classical类与Jazz类的混淆。认为这两方面的错误主要源自音乐类别之间的相似性。R&B音乐被称为“黑人的流行音乐”,源于黑人的Blues音乐,是现今西方流行乐(Pop类)和摇滚乐(Rock类)的基础[13],由此可见Blues类、Rock类、Pop类三者之间的关系千丝万缕;同理,Classical音乐与 Jazz音乐也存在着很大的相似性,要想更好地区分这些音乐类别,还需要从基本的特征层面出发,找出反映音乐类别特点的关键特征。
4 结语
音乐流派自动分类中使用了很多不同类的声学特征,不同特征的对于流派分类的贡献不同。本文研究了不同特征向量下选择最优核函数的学习方法,并将得到各个最优核函数进行加权组合构成一个合成核进行音乐流派分类的方法,有效地解决了音乐流派分类中特征向量分析和选择的问题,更
清楚地解释了不同特征向量对流派分类的影响大小。
由于多核学习支持向量机中只研究了SVM作为分类器的分类效果,其分类结果受到了分类器的影响。因此,下一步的工作将考虑引入多核多分类器,并对特征进行稀疏表示后进行组合研究。
参考文献:
[1]TZANETAKIS G, COOK P. Musical gee classification of audio signals [J]. IEEE Transactions on Speech and Audio Processing, 2002,10(5): 293-302.
[2]BACH F R, LANCKRIET G R G, JORDAN M I. Multiple kernel learning, conic duality, and the SMO algorithm [EB/OL].[2014-12-02]. http://www.cs.berkeley.edu/~jordan/papers/skm_icml.pdf.
[3]LUKASHEVICH H. Applying multiple kernel learning to automatic gee classification [C]// Proceedings of the 34th Annual Conference of Challenges at the Interface of Data Analysis, Computer Science, and OptimizationStudies in Classification, Data Analysis, and Knowledge Organization
.Berlin: Springer, 2012: 393-400.
[4]VAPNIK V N. An overview of statistical learning theory [J]. IEEE Transactions on Neural Network, 1999, 10(5): 988-999.
[5]
SONNENBURG S, RTSCH G, SCHFER C, et al. Large scale multiple kernel learning [J]. Journal of Machine Learning Research, 2006, 7: 1531-1565.
[6]KOSTEK B, KUPRYJANOW A, ZWAN P, et al. Report of the ISMIS 2011 contest: music information retrieval [C]// ISMIS 2011: Proceedings of the 19th International Symposium on Foundations of Intelligent Systems, LNCS 6804. Berlin: Springer, 2011: 715-724.
[7]DING Y, YAN Z, GAO Z. A method for selecting parameter of SVM with RBF kernel [EB/OL]. Beijing:Chinese Sciencepaper Online
. [2014-12-05]. http:///view/157245.htm.(音乐类型[EB/OL].[2014-12-03].http://baike.baidu.com/view/157245.htm.)
上一篇:学习科学技术史的意义
下一篇:普通物理实验课的学习探讨