搜索

iVocaloid论坛

查看: 1979|回复: 7
打印 上一主题 下一主题

【Rocaloid经验总述】【七】关于语音学研究 [复制链接]

Sleepwalking

我不是技术宅!

Lv.5-章鱼须

Rank: 5Rank: 5Rank: 5

0
9
0


UID: 111156
权限: 40
属性: 宇宙人
发帖: 201 (1精)
积分: 540
章鱼: 3
大葱: 14
茄子: 2688
注册:2012/8/18
存在感:476
跳转到指定楼层
[1L]楼主
Zleepwalking 发表于 2013/5/31 12:08:50 |只看该作者 |倒序浏览
本帖最后由 Zleepwalking 于 2015/3/22 18:26 编辑

2015.3
本贴所包含信息时间过于久远,已废弃。出于保留项目历史原因在此搁置。


好吧……这章写出来基本是废的。本人对语音学没什么研究。只是为了取到最好的发音词典参数而已做了一些实验。


音节发音提前量的实验


这个实验的作用是优化音节与音节间的衔接。

Vocaloid合成时会把发音提前0 - 0.05秒左右的时间,这段提前主要是把辅音前置了。通过分析Vocaloid合成各种辅音的波形,取得这些提前量的数据,用于CDT发音词典,可以优化Rocaloid初音的合成自然度。

  • 首先提前量受辅音本身影响。如果是比较长的擦音就提前比较多;有些爆破音甚至不会提前反而会延迟几毫秒。半元音(这里指l、r、w、m、n)的提前也很多,而且会跟上一个音尾接起来。
  • 数值上这个提前量主要受上个音节长度影响,准确来说是当前音节其实位置 - 上个音节起始位置的时长。这个差值越大,提前量就越大。
  • 提前量受音节本身时长的影响小到可以忽略不计。除非当前音节特别短否则提前量基本没变化。


于是我设计了一个实验:

exp.png


用洛天依合成如上……然后用Goldwave打开wav,一个一个测量时间长度……这是个漫长的过程


好在,我写了个job批量生成这种vsqx:


http://pan.baidu.com/share/link?shareid=550006&uk=3423845838


VSQX里把相邻两个音节的分界正好卡在整秒上。然后我用OD改了Goldwave按CTRL + SHIFT + →的相应,让选择区域也卡在整秒上……一番整顿以后这个功能终于实现了。因为Goldwave的版权保护,在这里不便放出修改后的版本。


一个小时就把这一堆数据做出来了:



上个音节提前结束的时间当前音节提前时间当前音节的辅音长度
ba

0.03800.011
0.0310.0010.01
0.0230.0020.01
0.0240.0040.01
0.01900.01
0.0210.0010.01
0.008-0.0010.006
0.01100.007
0.004-0.0040.007
000.007



ca

0.0850.0540.067
0.0880.0560.067
0.0770.050.062
0.0730.0460.057
0.0590.0360.05
0.0520.0310.049
0.0360.0220.033
0.0270.0170.027
0.0160.0080.022
0.0060.0040.015



cha

0.1260.0990.101
0.1150.090.093
0.0990.080.084
0.0910.0680.073
0.0670.0530.061
0.0630.0490.056
0.0520.0390.045
0.030.0230.027
0.0210.0140.021
0.0060.0040.01



da

0.051-0.0040.01
0.0480.0030.01
0.050.0020.01
0.04700.01
0.037-0.0040.01
0.033-0.0030.01
0.029-0.0010.01
0.01400.009
0.011-0.0040.01
0.002-0.0030.009



fa

0.0730.0870.09
0.0650.0780.086
0.0680.0780.081
0.0640.0730.078
0.0470.0580.067
0.0380.0470.053
0.0350.0440.048
0.0230.0280.03
0.0140.0170.026
0.0150.0170.01



ga

0.0660.0080.018
0.0690.0090.017
0.0720.010.017
0.0720.0110.017
0.0590.0070.017
0.050.0030.011
0.0420.0050.011
0.02400.005
0.015-0.0040.006
0-0.0040.005



ha

0.0910.0850.098
0.0890.0920.099
0.0760.0750.081
0.0750.0680.077
0.060.0580.071
0.0460.0430.052
0.0410.0380.047
0.0260.0260.03
0.0160.0260.025
0.00100.01



ji

0.0910.0560.068
0.0870.0510.061
0.0760.0460.055
0.0670.0420.048
0.0530.0320.043
0.0450.0280.037
0.0340.0180.026
0.0240.0130.019
0.010.0030.014
0.0030.0020.011



ka

0.0710.0380.083
0.0650.0390.079
0.0590.0410.079
0.0580.0420.079
0.0520.0380.079
0.0450.0280.068
0.0340.0180.056
0.020.0080.045
0.01-0.0030.038
0-0.0020.03



la

0.0210.021/
0.0210.021/
0.0230.023/
0.0230.023/
0.0190.019/
0.0190.019/
0.0150.015/
0.010.01/
00/



ma

-0.016-0.016/
-0.015-0.015/
-0.015-0.015/
-0.013-0.013/
-0.017-0.017/
-0.015-0.015/
-0.013-0.013/
-0.01-0.01/
-0.016-0.016/
-0.013-0.013/



na

-0.012-0.012/
-0.011-0.011/
-0.007-0.007/
-0.006-0.006/
-0.012-0.012/
-0.008-0.008/
-0.009-0.009/
-0.006-0.006/
-0.008-0.008/
-0.009-0.009/



pa

0.1440.0540.062
0.1380.0560.061
0.120.0460.054
0.1120.0420.044
0.0930.0320.039
0.0690.0270.032
0.0580.0230.027
0.0370.0130.019
0.0180.0020.013
0.006-0.0020.002



qi

0.1320.0940.11
0.1220.0890.103
0.1050.0780.091
0.0910.0680.079
0.0730.0530.068
0.0640.0490.062
0.050.0390.051
0.0330.0290.039
0.0260.0190.033
0.010.010.023



sa

0.0830.0830.097
0.0770.0770.09
0.0810.0810.093
0.0720.0720.082
0.0560.0560.07
0.0460.0460.059
0.0380.0380.049
0.0260.0260.036
0.0150.0150.029
0.0020.0020.014



sha

0.0820.0820.097
0.0760.0760.089
0.0670.0670.078
0.0560.0560.066
0.0460.0460.06
0.0420.0420.055
0.0320.0320.044
0.0280.0280.037
0.0120.0120.026
0.0030.0030.015



ta

0.0930.0260.048
0.0810.0220.047
0.0760.0230.043
0.0660.0190.041
0.0550.0150.037
0.0460.0110.032
0.0320.0060.025
0.0260.0080.025
0.014-0.0020.023
0.0090.0010.024



wa

0.0580.058/
0.0550.055/
0.0640.064/
0.0610.061/
0.0590.059/
0.0560.056/
0.0420.042/
0.0240.024/
0.0110.011/
00/



xi

0.0820.0820.098
0.0780.0780.092
0.080.080.092
0.0690.0690.08
0.060.060.075
0.0490.0490.063
0.0380.0380.05
0.0290.0290.039
0.0190.0190.033
0.0070.0070.02



za

0.0650.0560.071
0.0580.0580.07
0.060.060.071
0.0550.0550.065
0.0460.0460.06
0.0420.0420.054
0.0310.0310.042
0.0210.0210.031
0.0120.0120.025
000.012



zha

0.0670.040.058
0.0670.0420.059
0.0590.0330.048
0.0540.0340.047
0.0380.020.038
0.0360.0190.035
0.0250.0140.029
0.0210.0090.022
0.0110.0070.025
0.0010.0010.017






音节中各音素所占时长







研究这个的作用是写出更好的参数生成器:过渡时间计算。



探究不同时长相同发音的音节中个音素过渡时长的变化关系。


这个实验也是用洛天依做的,我们测试过真人但是发音长度太难控制了。


数据是Enigma语音学小组分析的,Enigma是我在学校开的社团……


我们只做了ch打头的几个拼音的实验,后来farter说这东西的控制变量太多了根本没法定量研究出来,实验就停止了。






C3

CH

A





DURATION(s)

CH

A





0.255

0.134

0.121





0.381

0.134

0.247





0.499

0.134

0.365





0.630

0.134

0.496





0.752

0.134

0.618





0.879

0.134

0.745





1.004

0.134

0.870





1.124

0.134

0.990





1.250

0.134

1.116





1.378

0.134

1.244












C3


CHAN




DURATION(s)

CH

A->N

N

CH + A



0.216

0.109

0.024

0.083

0.133

0.341

0.109

0.085

0.147

0.194

0.463

0.109

0.159

0.195

0.268

0.594

0.109

0.277

0.208

0.386

0.712

0.109

0.387

0.216

0.496

0.840

0.109

0.520

0.211

0.629

0.963

0.109

0.645

0.209

0.754

1.085

0.109

0.766

0.210

0.875

1.212

0.109

0.878

0.225

0.987

1.343

0.109

1.012

0.222

1.121








C3


CHUA




DURATION(s)

CH

U->A

A

CH+U



0.214

0.094

0.028

0.092

0.122

0.338

0.094

0.040

0.204

0.134

0.460

0.094

0.044

0.322

0.138

0.594

0.094

0.040

0.460

0.134

0.717

0.094

0.040

0.583

0.134

0.843

0.094

0.040

0.709

0.134

0.968

0.094

0.040

0.834

0.134

1.095

0.094

0.040

0.961

0.134

1.216

0.094

0.040

1.082

0.134

1.346

0.094

0.040

1.212

0.134








C3


CH
UAN


DURATION(s)

CH

U-A

A->N

N

CH+U

CH+U+A

0.248

0.126

0.049

0.000

0.073

0.175 0.175

0.373

0.126

0.061

0.062

0.124

0.187 0.249

0.500

0.126

0.061

0.188

0.125

0.187 0.375

0.626

0.126

0.061

0.312

0.127

0.187 0.499

0.749

0.126

0.061

0.435

0.127

0.187 0.622

0.877

0.126

0.061

0.563

0.127

0.187 0.750

0.999

0.126

0.061

0.685

0.127

0.187 0.872

1.129

0.126

0.061

0.815

0.127

0.187 1.002

1.251

0.126

0.061

0.937

0.127

0.187 1.124

1.377

0.126

0.061

1.063

0.127

0.187 1.250







C3


CH
UAI


DURATION(s)

CH

U->A

A->I

I

CH+U

CH+U+A

0.247

0.109

0.052

0.012

0.074

0.161 0.173

0.379

0.109

0.064

0.077

0.129

0.173 0.250

0.499

0.109

0.066

0.134

0.190

0.175 0.309

0.627

0.109

0.068

0.186

0.264

0.177 0.363

0.750

0.109

0.067

0.322

0.252

0.176 0.498

0.878

0.109

0.069

0.441

0.259

0.178 0.619

0.987

0.109

0.068

0.551

0.259

0.177 0.728

1.130

0.109

0.070

0.691

0.260

0.179 0.870

1.246

0.109

0.069

0.807

0.261

0.178 0.985

1.376

0.109

0.068

0.942

0.257

0.177 1.119



知识共享许可协议 除非另有声明,本帖内容采用 署名-非商业-相同方式共享 3.0 许可协议 授权,且需注明出处,所有权利归发帖人。

使用道具 举报

Rank: 3

0
3
0


UID: 93325
权限: 20
属性: 難燃性
发帖: 74 (0精)
积分: 100
章鱼: 1
大葱: 2
茄子: 433
注册:2011/10/22
存在感:84
[2L]沙发
rgwan 发表于 2013/5/31 15:58:02 |只看该作者
这个数据的测量实在是比较纠结的事情啊……我在学校几乎是啥事都干不了。

使用道具 举报

Rank: 2Rank: 2

0
0
0


UID: 104749
权限: 10
发帖: 19 (0精)
积分: 21
章鱼: 0
大葱: 1
茄子: 162
注册:2012/4/28
存在感:43
[3L]板凳
疾风月影 发表于 2013/6/1 15:41:58 -手机频道 |只看该作者
其实说这个测量有一点没意义…在台湾科技大学古鸿炎,王如江先生04年的论文《基于国语表情分析之歌声合成》中就明确指出,母音(即元音)是音节中的重音点,也就是说节奏上拍子会打在元音起始的地方,辅音的提前只是此原因产生的一种现象而已。

使用道具 举报

Sleepwalking

我不是技术宅!

Lv.5-章鱼须

Rank: 5Rank: 5Rank: 5

0
9
0


UID: 111156
权限: 40
属性: 宇宙人
发帖: 201 (1精)
积分: 540
章鱼: 3
大葱: 14
茄子: 2688
注册:2012/8/18
存在感:476
[4L]地板
Zleepwalking 发表于 2013/6/1 18:53:25 |只看该作者
疾风月影 发表于 2013/6/1 15:41
其实说这个测量有一点没意义…在台湾科技大学古鸿炎,王如江先生04年的论文《基于国语表情分析之歌声合成》 ...

我试过把元音和拍子对齐,但效果非常糟糕。使用这上面的数据以后效果有明显改善。

使用道具 举报

Rank: 2Rank: 2

0
0
0


UID: 104749
权限: 10
发帖: 19 (0精)
积分: 21
章鱼: 0
大葱: 1
茄子: 162
注册:2012/4/28
存在感:43
[5L]萝莉
疾风月影 发表于 2013/6/1 21:14:41 |只看该作者
恩....回去试了一下...我承认我错了tat...
但是洛天依本身也被吐槽过发音对拍问题,所以说拿来测试是不是有点不妥?

使用道具 举报

Rank: 2Rank: 2

0
0
0


UID: 104749
权限: 10
发帖: 19 (0精)
积分: 21
章鱼: 0
大葱: 1
茄子: 162
注册:2012/4/28
存在感:43
疾风月影 发表于 2013/6/1 21:27:23 |只看该作者
而且说后一个实验,多元音共振峰渐变速度....这个问题其实在歌声合成上并不是太为严重,我印象中演唱长音时一般会在其中的一个元音做延长。比如说chang里面a就被延长了。ng略有延长...语音合成领域一般使用构建大规模语料库的方式解决...就是苦了录音人。在下想快慢两种差不多够用。

使用道具 举报

Rank: 2Rank: 2

0
0
0


UID: 104749
权限: 10
发帖: 19 (0精)
积分: 21
章鱼: 0
大葱: 1
茄子: 162
注册:2012/4/28
存在感:43
[7L]大姐姐
疾风月影 发表于 2013/6/1 21:30:41 |只看该作者
另外优化音阶实验有没有考虑到后面的元音可能对录音带来的影响(ka与ke不同这样的)?音与音之间连接的影响?(a ka 和e ka这样的)考虑到连续音库这个特性,这两点应该是很有必要的.....

使用道具 举报

Sleepwalking

我不是技术宅!

Lv.5-章鱼须

Rank: 5Rank: 5Rank: 5

0
9
0


UID: 111156
权限: 40
属性: 宇宙人
发帖: 201 (1精)
积分: 540
章鱼: 3
大葱: 14
茄子: 2688
注册:2012/8/18
存在感:476
[8L]实妹
Zleepwalking 发表于 2013/6/1 21:48:00 |只看该作者
疾风月影 发表于 2013/6/1 21:30
另外优化音阶实验有没有考虑到后面的元音可能对录音带来的影响(ka与ke不同这样的)?音与音之间连接的影响 ...

可变参数太多了,暂时的想法是写个CVS Editor,专门对CVS进行微调。

使用道具 举报

您需要登录后才可以回帖 登录 | 注册/sign up

申请友链|Archiver|iVocaloid - 自由,开放,合作,共享    | 版权持有者点击这里进行举报

GMT+8, 2025/6/8 00:46

Powered by Discuz! X2

© 2001-2011 Comsenz Inc.

回顶部