iVocaloid论坛

标题: 【Rocaloid经验总述】【七】关于语音学研究 [打印本页]

作者: Zleepwalking    时间: 2013/5/31 12:08     标题: 【Rocaloid经验总述】【七】关于语音学研究

本帖最后由 Zleepwalking 于 2015/3/22 18:26 编辑

2015.3
本贴所包含信息时间过于久远,已废弃。出于保留项目历史原因在此搁置。


好吧……这章写出来基本是废的。本人对语音学没什么研究。只是为了取到最好的发音词典参数而已做了一些实验。


音节发音提前量的实验


这个实验的作用是优化音节与音节间的衔接。

Vocaloid合成时会把发音提前0 - 0.05秒左右的时间,这段提前主要是把辅音前置了。通过分析Vocaloid合成各种辅音的波形,取得这些提前量的数据,用于CDT发音词典,可以优化Rocaloid初音的合成自然度。



于是我设计了一个实验:

exp.png


用洛天依合成如上……然后用Goldwave打开wav,一个一个测量时间长度……这是个漫长的过程


好在,我写了个job批量生成这种vsqx:


http://pan.baidu.com/share/link?shareid=550006&uk=3423845838


VSQX里把相邻两个音节的分界正好卡在整秒上。然后我用OD改了Goldwave按CTRL + SHIFT + →的相应,让选择区域也卡在整秒上……一番整顿以后这个功能终于实现了。因为Goldwave的版权保护,在这里不便放出修改后的版本。


一个小时就把这一堆数据做出来了:



上个音节提前结束的时间当前音节提前时间当前音节的辅音长度
ba

0.03800.011
0.0310.0010.01
0.0230.0020.01
0.0240.0040.01
0.01900.01
0.0210.0010.01
0.008-0.0010.006
0.01100.007
0.004-0.0040.007
000.007



ca

0.0850.0540.067
0.0880.0560.067
0.0770.050.062
0.0730.0460.057
0.0590.0360.05
0.0520.0310.049
0.0360.0220.033
0.0270.0170.027
0.0160.0080.022
0.0060.0040.015



cha

0.1260.0990.101
0.1150.090.093
0.0990.080.084
0.0910.0680.073
0.0670.0530.061
0.0630.0490.056
0.0520.0390.045
0.030.0230.027
0.0210.0140.021
0.0060.0040.01



da

0.051-0.0040.01
0.0480.0030.01
0.050.0020.01
0.04700.01
0.037-0.0040.01
0.033-0.0030.01
0.029-0.0010.01
0.01400.009
0.011-0.0040.01
0.002-0.0030.009



fa

0.0730.0870.09
0.0650.0780.086
0.0680.0780.081
0.0640.0730.078
0.0470.0580.067
0.0380.0470.053
0.0350.0440.048
0.0230.0280.03
0.0140.0170.026
0.0150.0170.01



ga

0.0660.0080.018
0.0690.0090.017
0.0720.010.017
0.0720.0110.017
0.0590.0070.017
0.050.0030.011
0.0420.0050.011
0.02400.005
0.015-0.0040.006
0-0.0040.005



ha

0.0910.0850.098
0.0890.0920.099
0.0760.0750.081
0.0750.0680.077
0.060.0580.071
0.0460.0430.052
0.0410.0380.047
0.0260.0260.03
0.0160.0260.025
0.00100.01



ji

0.0910.0560.068
0.0870.0510.061
0.0760.0460.055
0.0670.0420.048
0.0530.0320.043
0.0450.0280.037
0.0340.0180.026
0.0240.0130.019
0.010.0030.014
0.0030.0020.011



ka

0.0710.0380.083
0.0650.0390.079
0.0590.0410.079
0.0580.0420.079
0.0520.0380.079
0.0450.0280.068
0.0340.0180.056
0.020.0080.045
0.01-0.0030.038
0-0.0020.03



la

0.0210.021/
0.0210.021/
0.0230.023/
0.0230.023/
0.0190.019/
0.0190.019/
0.0150.015/
0.010.01/
00/



ma

-0.016-0.016/
-0.015-0.015/
-0.015-0.015/
-0.013-0.013/
-0.017-0.017/
-0.015-0.015/
-0.013-0.013/
-0.01-0.01/
-0.016-0.016/
-0.013-0.013/



na

-0.012-0.012/
-0.011-0.011/
-0.007-0.007/
-0.006-0.006/
-0.012-0.012/
-0.008-0.008/
-0.009-0.009/
-0.006-0.006/
-0.008-0.008/
-0.009-0.009/



pa

0.1440.0540.062
0.1380.0560.061
0.120.0460.054
0.1120.0420.044
0.0930.0320.039
0.0690.0270.032
0.0580.0230.027
0.0370.0130.019
0.0180.0020.013
0.006-0.0020.002



qi

0.1320.0940.11
0.1220.0890.103
0.1050.0780.091
0.0910.0680.079
0.0730.0530.068
0.0640.0490.062
0.050.0390.051
0.0330.0290.039
0.0260.0190.033
0.010.010.023



sa

0.0830.0830.097
0.0770.0770.09
0.0810.0810.093
0.0720.0720.082
0.0560.0560.07
0.0460.0460.059
0.0380.0380.049
0.0260.0260.036
0.0150.0150.029
0.0020.0020.014



sha

0.0820.0820.097
0.0760.0760.089
0.0670.0670.078
0.0560.0560.066
0.0460.0460.06
0.0420.0420.055
0.0320.0320.044
0.0280.0280.037
0.0120.0120.026
0.0030.0030.015



ta

0.0930.0260.048
0.0810.0220.047
0.0760.0230.043
0.0660.0190.041
0.0550.0150.037
0.0460.0110.032
0.0320.0060.025
0.0260.0080.025
0.014-0.0020.023
0.0090.0010.024



wa

0.0580.058/
0.0550.055/
0.0640.064/
0.0610.061/
0.0590.059/
0.0560.056/
0.0420.042/
0.0240.024/
0.0110.011/
00/



xi

0.0820.0820.098
0.0780.0780.092
0.080.080.092
0.0690.0690.08
0.060.060.075
0.0490.0490.063
0.0380.0380.05
0.0290.0290.039
0.0190.0190.033
0.0070.0070.02



za

0.0650.0560.071
0.0580.0580.07
0.060.060.071
0.0550.0550.065
0.0460.0460.06
0.0420.0420.054
0.0310.0310.042
0.0210.0210.031
0.0120.0120.025
000.012



zha

0.0670.040.058
0.0670.0420.059
0.0590.0330.048
0.0540.0340.047
0.0380.020.038
0.0360.0190.035
0.0250.0140.029
0.0210.0090.022
0.0110.0070.025
0.0010.0010.017






音节中各音素所占时长







研究这个的作用是写出更好的参数生成器:过渡时间计算。



探究不同时长相同发音的音节中个音素过渡时长的变化关系。


这个实验也是用洛天依做的,我们测试过真人但是发音长度太难控制了。


数据是Enigma语音学小组分析的,Enigma是我在学校开的社团……


我们只做了ch打头的几个拼音的实验,后来farter说这东西的控制变量太多了根本没法定量研究出来,实验就停止了。






C3

CH

A





DURATION(s)

CH

A





0.255

0.134

0.121





0.381

0.134

0.247





0.499

0.134

0.365





0.630

0.134

0.496





0.752

0.134

0.618





0.879

0.134

0.745





1.004

0.134

0.870





1.124

0.134

0.990





1.250

0.134

1.116





1.378

0.134

1.244












C3


CHAN




DURATION(s)

CH

A->N

N

CH + A



0.216

0.109

0.024

0.083

0.133

0.341

0.109

0.085

0.147

0.194

0.463

0.109

0.159

0.195

0.268

0.594

0.109

0.277

0.208

0.386

0.712

0.109

0.387

0.216

0.496

0.840

0.109

0.520

0.211

0.629

0.963

0.109

0.645

0.209

0.754

1.085

0.109

0.766

0.210

0.875

1.212

0.109

0.878

0.225

0.987

1.343

0.109

1.012

0.222

1.121








C3


CHUA




DURATION(s)

CH

U->A

A

CH+U



0.214

0.094

0.028

0.092

0.122

0.338

0.094

0.040

0.204

0.134

0.460

0.094

0.044

0.322

0.138

0.594

0.094

0.040

0.460

0.134

0.717

0.094

0.040

0.583

0.134

0.843

0.094

0.040

0.709

0.134

0.968

0.094

0.040

0.834

0.134

1.095

0.094

0.040

0.961

0.134

1.216

0.094

0.040

1.082

0.134

1.346

0.094

0.040

1.212

0.134








C3


CH
UAN


DURATION(s)

CH

U-A

A->N

N

CH+U

CH+U+A

0.248

0.126

0.049

0.000

0.073

0.175 0.175

0.373

0.126

0.061

0.062

0.124

0.187 0.249

0.500

0.126

0.061

0.188

0.125

0.187 0.375

0.626

0.126

0.061

0.312

0.127

0.187 0.499

0.749

0.126

0.061

0.435

0.127

0.187 0.622

0.877

0.126

0.061

0.563

0.127

0.187 0.750

0.999

0.126

0.061

0.685

0.127

0.187 0.872

1.129

0.126

0.061

0.815

0.127

0.187 1.002

1.251

0.126

0.061

0.937

0.127

0.187 1.124

1.377

0.126

0.061

1.063

0.127

0.187 1.250







C3


CH
UAI


DURATION(s)

CH

U->A

A->I

I

CH+U

CH+U+A

0.247

0.109

0.052

0.012

0.074

0.161 0.173

0.379

0.109

0.064

0.077

0.129

0.173 0.250

0.499

0.109

0.066

0.134

0.190

0.175 0.309

0.627

0.109

0.068

0.186

0.264

0.177 0.363

0.750

0.109

0.067

0.322

0.252

0.176 0.498

0.878

0.109

0.069

0.441

0.259

0.178 0.619

0.987

0.109

0.068

0.551

0.259

0.177 0.728

1.130

0.109

0.070

0.691

0.260

0.179 0.870

1.246

0.109

0.069

0.807

0.261

0.178 0.985

1.376

0.109

0.068

0.942

0.257

0.177 1.119




图片附件: exp.png (2013/5/31 10:46, 3.22 KB) / 下载次数 1
http://bbs.ivocaloid.com/forum.php?mod=attachment&aid=NzE5NDV8YTdjY2ZjN2R8MTc0OTM2MDY0OHwwfDA%3D


作者: rgwan    时间: 2013/5/31 15:58

这个数据的测量实在是比较纠结的事情啊……我在学校几乎是啥事都干不了。
作者: 疾风月影    时间: 2013/6/1 15:41

其实说这个测量有一点没意义…在台湾科技大学古鸿炎,王如江先生04年的论文《基于国语表情分析之歌声合成》中就明确指出,母音(即元音)是音节中的重音点,也就是说节奏上拍子会打在元音起始的地方,辅音的提前只是此原因产生的一种现象而已。
作者: Zleepwalking    时间: 2013/6/1 18:53

疾风月影 发表于 2013/6/1 15:41
其实说这个测量有一点没意义…在台湾科技大学古鸿炎,王如江先生04年的论文《基于国语表情分析之歌声合成》 ...

我试过把元音和拍子对齐,但效果非常糟糕。使用这上面的数据以后效果有明显改善。
作者: 疾风月影    时间: 2013/6/1 21:14

恩....回去试了一下...我承认我错了tat...
但是洛天依本身也被吐槽过发音对拍问题,所以说拿来测试是不是有点不妥?
作者: 疾风月影    时间: 2013/6/1 21:27

而且说后一个实验,多元音共振峰渐变速度....这个问题其实在歌声合成上并不是太为严重,我印象中演唱长音时一般会在其中的一个元音做延长。比如说chang里面a就被延长了。ng略有延长...语音合成领域一般使用构建大规模语料库的方式解决...就是苦了录音人。在下想快慢两种差不多够用。
作者: 疾风月影    时间: 2013/6/1 21:30

另外优化音阶实验有没有考虑到后面的元音可能对录音带来的影响(ka与ke不同这样的)?音与音之间连接的影响?(a ka 和e ka这样的)考虑到连续音库这个特性,这两点应该是很有必要的.....
作者: Zleepwalking    时间: 2013/6/1 21:48

疾风月影 发表于 2013/6/1 21:30
另外优化音阶实验有没有考虑到后面的元音可能对录音带来的影响(ka与ke不同这样的)?音与音之间连接的影响 ...

可变参数太多了,暂时的想法是写个CVS Editor,专门对CVS进行微调。




欢迎光临 iVocaloid论坛 (http://bbs.ivocaloid.com/) Powered by Discuz! X2