iVocaloid论坛
标题:
【水】对元音的PLPCC作(三维)PCA分析
[打印本页]
作者:
Zleepwalking
时间:
2015/1/2 15:36
标题:
【水】对元音的PLPCC作(三维)PCA分析
很久没发过帖子了,于是写点水物。另外最近很忙,所以一直没更新Rocaloid,对此表示抱歉。
PCA分析在这里的主要目的是研究选取的参数是否能够有效地代表和明确地区分不同元音的听觉特性。通过线性变换把高维度的参数销减到二维或三维,从而能够绘制到易于观察的图像上:
feature -= mean(feature);
C = cov(feature);
U = svd(C);
V = U(:, 1:3);
feature3d = feature * V;
复制代码
PLPCC - 感知线性预测倒谱系数在这里的获得方式:把20个Bark Band的能量按照Equal-loudness Curve加权后求立方根获得的功率频谱通过IFFT获得自相关函数,计算5阶线性预测系数,并求得倒谱系数。(Hermansky-1990 & Makhoul-1975)
你可能会想起2013年10月的那个SOFM聚类(准确来说不能算Clustering):
http://bbs.ivocaloid.com/thread-119693-1-1.html
。PCA产生的结果的确看上去和SOFM类似,但是PCA的结果能够重新投影回高维空间(另外如果没记错SOFM是一种非线性的网络?)。
从不同角度观察,效果如下,其中音素用Arpabet标注,使用的语音来自cmu_arctic_slt语料库的五句话(待有空应该扩充一下样本数量):
2015/1/2 15:35 上传
下载附件
(84.76 KB)
2015/1/2 15:35 上传
下载附件
(67.93 KB)
2015/1/2 15:35 上传
下载附件
(71.96 KB)
2015/1/2 15:35 上传
下载附件
(81.68 KB)
EOF
图片附件:
4.png
(2015/1/2 15:35, 81.68 KB) / 下载次数 25
http://bbs.ivocaloid.com/forum.php?mod=attachment&aid=NzYzMDV8MDNjNTI1Yzl8MTc1MzMwNjY4N3wwfDA%3D
图片附件:
3.png
(2015/1/2 15:35, 71.96 KB) / 下载次数 23
http://bbs.ivocaloid.com/forum.php?mod=attachment&aid=NzYzMDR8NzQ2NzVhZDV8MTc1MzMwNjY4N3wwfDA%3D
图片附件:
2.png
(2015/1/2 15:35, 67.93 KB) / 下载次数 23
http://bbs.ivocaloid.com/forum.php?mod=attachment&aid=NzYzMDN8MzFkMDE4ZDF8MTc1MzMwNjY4N3wwfDA%3D
图片附件:
1.png
(2015/1/2 15:35, 84.76 KB) / 下载次数 23
http://bbs.ivocaloid.com/forum.php?mod=attachment&aid=NzYzMDJ8NTUzNjcxYmN8MTc1MzMwNjY4N3wwfDA%3D
作者:
m13253
时间:
2015/1/2 16:23
图表不错。虽然不太明白三个轴代表了什么。
请 Sw 再接再厉喵。 (´・ω・`)
作者:
Zleepwalking
时间:
2015/1/4 20:09
不过,倒谱系数本来就有比较好的正交性。
进行PCA后看上去更好了一些。
此外,PLPCC比单纯的PLP或PLPC要好;5阶PLPCC+3D PCA比3阶PLPCC要好。
欢迎光临 iVocaloid论坛 (http://bbs.ivocaloid.com/)
Powered by Discuz! X2