搜索

iVocaloid论坛

查看: 1768|回复: 2
打印 上一主题 下一主题

【水】对元音的PLPCC作(三维)PCA分析 [复制链接]

Sleepwalking

我不是技术宅!

Lv.5-章鱼须

Rank: 5Rank: 5Rank: 5

0
9
0


UID: 111156
权限: 40
属性: 宇宙人
发帖: 201 (1精)
积分: 540
章鱼: 3
大葱: 14
茄子: 2688
注册:2012/8/18
存在感:476
跳转到指定楼层
[1L]楼主
Zleepwalking 发表于 2015/1/2 15:36:56 |只看该作者 |倒序浏览
很久没发过帖子了,于是写点水物。另外最近很忙,所以一直没更新Rocaloid,对此表示抱歉。

PCA分析在这里的主要目的是研究选取的参数是否能够有效地代表和明确地区分不同元音的听觉特性。通过线性变换把高维度的参数销减到二维或三维,从而能够绘制到易于观察的图像上:
  1. feature -= mean(feature);
  2. C = cov(feature);
  3. U = svd(C);
  4. V = U(:, 1:3);
  5. feature3d = feature * V;
复制代码

PLPCC - 感知线性预测倒谱系数在这里的获得方式:把20个Bark Band的能量按照Equal-loudness Curve加权后求立方根获得的功率频谱通过IFFT获得自相关函数,计算5阶线性预测系数,并求得倒谱系数。(Hermansky-1990 & Makhoul-1975)

你可能会想起2013年10月的那个SOFM聚类(准确来说不能算Clustering):http://bbs.ivocaloid.com/thread-119693-1-1.html。PCA产生的结果的确看上去和SOFM类似,但是PCA的结果能够重新投影回高维空间(另外如果没记错SOFM是一种非线性的网络?)。

从不同角度观察,效果如下,其中音素用Arpabet标注,使用的语音来自cmu_arctic_slt语料库的五句话(待有空应该扩充一下样本数量):
1.png
2.png
3.png
4.png

EOF




知识共享许可协议 除非另有声明,本帖内容采用 署名-非商业-相同方式共享 3.0 许可协议 授权,且需注明出处,所有权利归发帖人。

使用道具 举报

StarBrilliant

Lv.2-鱼仔酱

Rank: 2Rank: 2

0
0
0


UID: 129091
权限: 10
属性: 両性
发帖: 25 (0精)
积分: 24
章鱼: 0
大葱: 1
茄子: 470
注册:2014/2/7
存在感:97
[2L]沙发
m13253 发表于 2015/1/2 16:23:39 |只看该作者
图表不错。虽然不太明白三个轴代表了什么。

请 Sw 再接再厉喵。 (´・ω・`)

使用道具 举报

Sleepwalking

我不是技术宅!

Lv.5-章鱼须

Rank: 5Rank: 5Rank: 5

0
9
0


UID: 111156
权限: 40
属性: 宇宙人
发帖: 201 (1精)
积分: 540
章鱼: 3
大葱: 14
茄子: 2688
注册:2012/8/18
存在感:476
[3L]板凳
Zleepwalking 发表于 2015/1/4 20:09:45 |只看该作者
不过,倒谱系数本来就有比较好的正交性。
进行PCA后看上去更好了一些。
此外,PLPCC比单纯的PLP或PLPC要好;5阶PLPCC+3D PCA比3阶PLPCC要好。

使用道具 举报

您需要登录后才可以回帖 登录 | 注册/sign up

申请友链|Archiver|iVocaloid - 自由,开放,合作,共享    | 版权持有者点击这里进行举报

GMT+8, 2025/6/7 00:56

Powered by Discuz! X2

© 2001-2011 Comsenz Inc.

回顶部