查看: 8877|回复: 7

[其他] [中文utau录音方案]【综合拆音方案】-开坑记录+感言 [复制链接]

钢琴研究圆

Lv.6-章鱼之目

Rank: 6 Rank: 6

0

87

0

UID: 86793
权限: 50
发帖: 624 (7精)
积分: 2063
章鱼: 26
大葱: 97
茄子: 5007
注册:2011/7/20
存在感:756

电梯直达

[1L]楼主

jerrkiy 发表于 2013/1/21 13:14:04 |只看该作者 |倒序浏览

本帖最后由 jerrkiy 于 2013/1/21 20:10 编辑

嗯嗯，又来弄中文的东西了，这次尽量把拆字内连续音的可能性挖掘到最大化，外加上字外连续音表。

   前言：慢慢地，芳梅，syo都有了改进版的，旧B-HM也需要不断进步，但是想想，这三者本质上都是字内拆音方案，一个是全拆，一个后拆，一个前拆。于是不如一拆到底，在此基础上作出效果可能更好的拆音方案，暂定【综合拆音方案】

   加上整音的中文录音方案的话，四种初始方案各有优劣(吐槽模式打开)可以参考我以前的比较文和vivi的比较文，可以直接跳过看下面

1.整音
优：采样完整，调用方便兼合成速度快，最容易上手调教，唱短音效果好；
缺：元音转换点不可控，并且录音量相对其他大些；

改进（走oto内拆音路线）：
a.整音-拆音式音源：属于整音和拆音的结合物，原整音B-HM式是方便不会读拆音B-HM录音表的中之人活只录了整音的中之人设计，把子母组和韵母组结合起来然后再在oto内设置，录音量是所有录音方案最少的，七夕就是这样的音源。（内置oto设置是比较麻烦的，对元音的区分需要足够看波形的的经验，而且所得的采样可能过短不利于长音，所花时间和工作量更多，特别是oto，和完整字典的整音完全相反的录少做难，但是录制十分方便哦）此外也有整音-syo式的，但是是完整整音表的内置syo，则是更像下面的整音扩张方案。

b.整音扩张：目前比较成熟的中文方案之一，整音的逆袭，在整音拆音式音源的基础以字内过渡强连续的思维优势走了科学的一大步，请参考vivi酱的说明）

2.芳梅
优：全拆使得音素最简洁，而且音素分类仔细，采样自制标记十分适合非奇怪的汉语拼音洗礼过的人。
缺：有些地方不符合中文发音特点，拆太细而导致链接有时会生硬
改进：哈鲁等人改进的芳梅ww和连续音列表，更好用些(好吧，至今不知道怎么弄

3.syo
优：介母固定化，录制简洁，有利于无论谁调教成功率都较高
缺：音素记忆度较难(?，优点反而导致的调教拘谨化，部分尾部拆分不彻底
改进：
宽式Syo：音节划分更细至和科学，效果更好（参见vivi的文）

4.彪汉（B-HM）【请吐槽新中文名
优：建立大众拼音学习过程基础的声母韵母分读原则，使用自由度较高，一音可以多拆（一拆2，拆3。。。）而获得多种效果选择，便于作个性化处理。
缺：介母非固定、韵尾不确定化，较大自由度导致调教必须细化要求和难度加大，非细致调教容易极其唱渣

5此外，在使用这些音源的时候，也有多方从不同方面如插件，调教方法，oto命名上作出了改进，给后来者提供了经验（奇怪的话风

理论上一个理想的音源有着理想的oto用上面三种方案做出理想的调教和理想的后期，都很获得理想的效果（理想那么多会四啊。。。

目测依然建立在大家都会（大部分）的（有些许奇怪的）汉语拼音基础上，在utau的条件下和结合【【【歌唱本身的特点】】】。

   在这里有必要【普及一下】，做音源的音源的目的是【为了让utua歌唱】，一般不希望做出来的音源是满口的广播腔，歌唱和说话运气和声音位置和口型不一样，其中的明细在录音源的初期就要明白，此不作展开。这里主要是说语言的理论在歌唱中作用比说话微小。

【我们需要混沌概念】打个比方，a o e i u v在说话中像是固定的点，而对与歌唱，则是点与点之间的无穷大，歌唱时的元音的口型，可以随着歌曲内容与风格、歌唱者个人处理音乐风格、歌曲速度、歌曲，这个歌词的音高与长短等等n多理由有着无限多的可能性（比如一个元音在不同音高有因为不同位置口型发出不同微差别的声音）。要做到歌唱的效果就不能弄成模式化，机械统一化。因此必须站在歌唱的角度去正确地思考才可以。（气息，位置，口腔，状态，喉位等等）

歌唱的艺术，显示在语言中，就是不同口腔产生的母音的艺术

比如发音，歌唱是要求发音是在运气托送而出（歌者先有气），而且个人口腔咬字（影响母音）尽量统一，【流行歌手则有个性化的口腔和发音，民族要求字正腔圆，美声要求元音完全统一化】，再结合每个人每次录，是处于同一质（元音属性）的情况下量（元音效果）的差别的混沌。

说说两个utau调教中的不可动“资产”

暂标：子-声母（辅音），母-韵腹（utau中拉伸部分），介-韵头（声母到韵腹的过度），尾-韵尾（收尾部分）交-(交接处，口腔变化过程部分)

汉语发音有

1 .a[母]（实为3的零子音状态）

2.ai,ang[母-（交）-尾]（实为4的零子音状态）

3.ka[子-（交）-母]（可以用复制型引擎）

4.kai，kan[子-（交）-母-（交）-尾]

5.jia，que[子-（交）-介-（交）-母]

6.jiao,jiang[子-（交）-介-（交）-母-（交）-尾]

六种种情况

在其中能被拉伸的是“母”的韵腹部分。而压缩则是到一定程度进行整体压缩（请自行从短的jiong发到长的jiong感受一下）

因此是极短的四个部分都很短，到达某个临界点介母和交界处就处于相对稳定状态，留下韵腹孤军作战

实质为：口腔状态变动的过程稳定化

下面开始讲相对稳定资产：

1，子母交接处，也处在于零子音的部分，这是我们都熟悉的，用粉快覆盖的母音不稳定部分，固定发声！

2，介母[biao，que，zhua中的i和u]在歌唱也不是完全固定的而是长度相对稳定，像花hua介母在发音长度相同时，介母短的情况唱起来更干脆，而介母u相对长一点点的则更为深情，而影响的是口腔动作的速度，但是又是不在相对固定的范围内不至于变成呼，啊。是处于绝对固定与脱离之间的混沌。

[注：子母交界和介母性质差不多，都是小口型变化到元音的过渡状态]

3，复韵母元音之间的交接，这个区域和介母情况差不多，但是是元音口型切换过程状态，也是处于长度相对稳定并且由口腔运动速度所决定。

总所周知，utau是通过对wav格式采样对发音进行拉伸和变调的，可是这个部分和介母一样不能轻易拉伸。

汉语复韵母的存在就决定其不能使用日文可以使用的复制型引擎而必须是拉伸型的，因为这是一个渐变过程，而这个渐变过程的交接处的长度也是相对稳定的（口腔状态切换过程）.需要唱的长度短用短的采样，需要唱长的用长的采样，这样才能保证过渡自然，（外：拆音的话增加采样尤其方便性）。不然就像看电影播放时微快微慢一样奇怪，（想一下一个人唱歌咬字时快时慢吧。。。）

（此外，既然说了两个不可动资产（可拉伸的只有中间的元音部分），说一下高度的不可动资产：无固定音高的辅音）

此外n多想说的留在新帖说吧ww做一个平衡发展的方案。

于是乎开个贴预防自己又坑了。

1 查看全部评分