[其他] 适用于中文的组合音素型音源拆音构想（袅袅、utau） [复制链接]

aka. farter = 渣语文

Lv.6-章鱼之目

Rank: 6 Rank: 6

154

UID: 71728
权限: 50
属性: 不明
发帖: 331 (0精)
积分: 2324
章鱼: 45
大葱: 92
茄子: 4266
注册:2010/10/17
存在感:495

电梯直达

[1L]楼主

http404 发表于 2012/4/2 14:12:21 |只看该作者 |倒序浏览

本帖最后由 http404 于 2012/9/10 00:09 编辑

注：已更新，下面的描述可能有一些是过期的。
最新版请参见：
合成方法概述：http://blog.sina.com.cn/s/blog_711e864601018quv.html
音标表：http://blog.sina.com.cn/s/blog_711e86460101872d.html
简而言之，本帖要推荐的方法是：

CAV + Vv + (V|v)C

----

用一个个整个的拼音发音连接起来，听着会囧，原因就是前一个字的尾音和后一个字的辅音口型不一定对得上。。
比如“精辟”，前面是舌根鼻音ng，后面开头是双唇辅音p。。。就萎了。。
而实际的人发音在这中间做了很神秘的微小的处理让他完美的绕了过去。。。自己体会。。
v是直接对口腔的口型不同造成的4个共鸣频率进行分离操作再组合，但似乎袅袅和utau木有管这个。。
尝试过测试袅袅的合成方法，是把下一个音声母帧之前的渐混到上一个音尾部。。
但是口型变化是共鸣频率变化而不是音量变化。。这样按音量混也是不行的。。。

所以就有一个构想，把下一个音的辅音（也就是声母）加入到上一个音的考虑中。
也就是对于jing要录jingb, jingm, jingd, jingn, jingg, jingh等等的音，以变换口型接后一个字不同的辅音起始。
但是这样汉语400+个整拼音*14种（目前找到的粗分类的结尾-起始过渡口型）就得几千个会死人的。。

所以干脆一拆拆到底……接下来现阐述一些基础知识以免看着后面的正文头晕，高手跳过……

这里就涉及到对拼音、音标的理解……标准汉语拼音其实有一定迷惑性的。。
以下介绍取音标的大致方法。

简而言之：（学习维基叔叔）

各种【i以】取【i;】、各种【u无】取【u;】、各种【v于】取【v】（ju、qu、xu作jv、qv、xv）
【e呃、eng风】中的e取【7】
【ei黑、ui(uei)归、ie也】中的e取【e】
【en恩、un(uen)滚、er儿】中的e取【@】
【a啊、ang昂、ao奥】中的a取【a;】
【ai爱、an安】中的a取【a】
【ian言、van元】中的a取【e;】（美声中van更靠近a，但我们搞的都是通俗嘛orz）
【ou欧、iu(iou)九】中的o取【o】
【uo(bo=buo)我】中的o取【o;】
【zhi只、chi吃、shi是、ri日】中的i取【1`】
【er儿】取【@`】
【zi子、ci此、si四】中的i取【1】

（由于汉语元音种类很多，故按比较接近x-sampa的方式取码。）

汉语拼音【e, ei, en, eng, er, ie】，这里就出现了多个e，但是这几个e的发音是很有不同的。。。
维基叔叔英文版“中文标准发音系统”列有国际音标（神奇的符号我就不发了。。）
http://en.wikipedia.org/wiki/Standard_Chinese_phonology
作为中国人，自己发音试一试也可以很轻松的体会出来。
大致分为【e, eng】【ei, ie】【en, er】三种（其实还有细微差别），取x-sampa符号是【7】【e】【@】

【a, ai, an, ang】也是有区别的不过很小，在主元音中体现出来就可以了，起始音差别影响已经很小。
不过最严重的是【ian、van】（这里还是按习惯取v为u上两点），这里面的a发音是很接近英语"{"(英语cat的a发音)甚至靠近"e"（pet）了。体会到了吗？“卷、见”≠“居安、几安”……所以取【{】符号。。
这一点在很多尝试v家调中文的人中被体现的很惨，“前”字直接日语音标【tS i a n】，于是就死的悲惨了。。【tS i】[短]+【e n】试试吧。（详见签名档的v家调教教学）

另外关于汉语拼音【zi ci si zhi chi shi ri】的问题，相信没有人会把他读成“子一”吧，
这里的i位置上代表的，是小时教拼音没被提及的另外两种特殊元音。。ipa发音符号【z̩、ʐ̩】（详见维基）
暂时取【zi, ci, si】的元音为【1】，【zhi chi shi ri】的元音为【`】（1左边那个键）。

汉语拼音有很多的阴谋……iu和ui，你懂的。只要你能把“酒鬼”读成“几无古一”你就赢了。它的实际形式是iou和uei，而且最中央的元音就是o和e。另外un的实际形式是uen。
再一个汉语拼音没被发现的东西……bo、po、mo、fo……其实都是buo、puo、muo、fuo……

另外，试一下发音汉语拼音“零声母音节”【a啊, o哦, e呃（这个作为独成音节比较特殊，中文里起始音是一个很短的[M], 继续详见维基）】
其实都有一个起始辅音（在下面用0表示），但是再试试汉语拼音【yi, wu】就没有。
你能发现这个辅音是什么吗？（上课教小学生呢你）
对了！（我不是葛炮）是不是感觉咽喉那里一擦~
在vocaloid中，用日语音源的时候，如果只写一个【i】，大部分音源在发音开头也加了这个辅音，所以中国人听着感觉很不习惯，因为中文的“以”yi是另一个辅音（汉语拼音y，国际音标是j）。

辅音都用汉语拼音的，这个基本没有问题。关于尾音有以下一些合并规律：

bp通用b作尾音，m由于发音会连续，所以另列为一个尾音。
dt同d，n分列同理，
gk同g，h没有舌根收紧，单列。
zhchsh同zh，r有发音连续，单列。
jqx同j，y有发音连续单列。
zcs同z。
注意0也是作为尾音的，下一个音节如果是零声母的话就用这个。

需要注意，-ng代表n结尾g开头，-ngg代表ng结尾g开头，-nn代表n结尾n开头，-ngn代表ng结尾n开头。
标准汉语好象没有ng声母，但是如果要做方言兼容也可以有。

最后，阅读了以上知识……
就可以得到了以下【两种】拆音方案……（20120415更新：有另一种可选方案，所以这是第一种……）
里面都有一些标准汉语里面没有用到的，gi, ki, hi, bio（元首のbiu）, 等等，
但是可能其他用处有的（比如你想穿语言什么的A_A），或者为了维护结构完整，写了少量在里面。

方案1
把中文字发音分成3截：（以“讲台”jiangtai为例）
【辅音+起始元音】包括介母i,u，起始了之后的主元音，解决了介母长度跟发音长度成正比无法控制的问题。记作【jia-】
【中央的元音】前接起始，后由尾音承接。这里应该用【ang】
【结尾音+下一个字的起始口型】以衔接下一个字的起始辅音，这里应该用【-ngd】。
接下来的“tai”就是【ta-】【ai】【-i?】(?代表后一个辅音口型，结尾的时候就不要最后一截）
总结列出下面这一个表，拆开过后的汉语里面用到的发音元素。
录了这些音之后，就可以按需要三个组合成一个汉字了。

举一个例子：我练功发自真心~
【wo-】+【o】+【-ol】
【li{-】+【{n】+【-ng】
【go-】+【ong】+【ngf】
【fa-】+【a】+【az】
【z1】+【1】+【1zh】
【zh@】+【@n】+【ny】
【xi】+【in】

方案2：
还是分成3截，前两截管辖范围略有不同，还是jiangtai为例
【辅音+介母】，【ji-】
【介母+主元音】，【iang】
【主元音结尾+下一个辅音】，跟上一种一样是【-ngt】
私以为录音难度会高一些，虽然音素更少，但是一个很关键的快速变化过程被分开为两次录音了，保持发音风格统一需要功力。

还是这个例子：我练功发自真心~ 有一点变化：
【wo-】+【o】+【-ol】
【li-】+【i{n】+【-ng】←只有汉拼的三拼音节会变化
【go-】+【ong】+【ngf】
【fa-】+【a】+【az】
【z1】+【1】+【1zh】
【zh@】+【@n】+【ny】
【xi】+【in】

方案3：//20120710更新
好吧再来一发。。因为要避免很短的音造成合成效果爆表（？），两段式拆法，长度尽量平均。而元音就被平均分配到两端了，连接处要保证口型完全一致不然就会boom……（这里，介母是前置的，双元音的后者、鼻韵母的鼻音都是后置的（v就是因为长度搞平均了就杯具了。。））
依然讲台，只被分成两段：
【jia-】
【-angt】
我练功发自真心：
【wo-】【-ol】
【li{-】【-{ng】
【go-】【-ongf】
【fa-】【-az】
【z`-】【-`zh】
【zh@-】【-@ny】
【xi-】【-in0】

待更新……

当然我是一只无空闲时间、无硬件支持、无有效嗓子声带支持的无法实践只会理论的废……
如果你想尝试实际录音处理，这有一小点小例子、教程。。
基础知识以上都介绍过了orz别说你没看。。
先录主要元音，然后起和尾可以各找例字词，录了之后截取出来……
辅音方面，最好用一个恒定略慢的发音速度（时间压缩的效果总比伸展好）
（什么？怎么找？）
起音。。
0a- 就是有喉音的“啊”。。从频谱上开始有东西起，到频谱形状稳定（进入“a”）之前，截取。
ba- 就是“把”。。就截取口型从b到a张开稳定前，当然要包括b的爆破声。。
bi{- 就是“变”。。口型会变因为有介母i。。同样，从b开始，截取直至{音稳定。。
dua- 就是“短”。。a稳定之前的
due- 就是“对”。。e稳定之前的
du@- 就是“遁”。。@稳定之前的
duo- 多。。
ma- 嘛。。要有一点m开头的鼻音，制作音源时，声母帧就是爆开的一瞬间。。
尾音。。找个满足条件的词（当然你要保证在读各个不同的词语时相同音位的发音是一样的），读了之后截取中间。
-ab 喇叭。。截取从“喇”尾部口型开始收拢起，一直转化到闭塞准备“叭”的时候完（后面的气声不要包括进去）
-am 大妈。。这个因为m是持续鼻音要延续到下一个m音（准确的说是后面的辅音m逆袭到前一个自的尾部了。。）所以跟b区分开。。也是当口型即将开始缩小的时候开始截取，到m口型闭塞瞬间停止。。（m的酝酿和张开是后面的起音干的事了）
-nd 看到。。这个开始不能太早，要等到n封闭口型形成瞬间开始（因为-nd前面可以是an,{n,in,@n,vn，（见到、频道、闻到、晕倒）这个音不能沾有a,{,i,@,v的一丝痕迹，不然如果前面是别的音就彻底悲剧），然后会经历口腔封闭到鼻音通道也封闭转换到d的过程，同样在封完的一瞬间截取，不能包括后面d的爆破声。
-nw 论文。。到这里了就会感到有压力了。。是的。。这里的n不能达到封闭。。所以没有封闭瞬间。。（所以录an、@n、in、{n的时候不能让口型封闭，就是这个道理orz）就按照听不出前面的@n中的@为标准。。对辅音w就以口型缩到最小的瞬间为结束，再张大是下一个起音的事情了。。最终保证对于“金文”“汉文”“前文”里面的-nw都是一样的就行了。。
-nm 蓝猫。。纠结了吧？这里的n同样没有等到舌头与牙龈封闭，而且已经变得像m了，但是不知为什么，确实跟“拉猫”是不一样的。。不要纠结orz多听听葛炮怎么发音吧。。尽量自然地转换吧。。截取还是以没有前面an的a的痕迹为标准，到口闭塞瞬间截止。。截出来之后单听是什么词都听不出来的了……是的这是正常的。。可以再多试几个“人们”“很慢”之类的。。
-ng 栏杆。。跟“浪干”不同哦亲。。你得好好找找为什么不同。。同样，n没有封闭。。
-ngg 唱歌……这是最轻松的，跟-nd一个感觉，同样有ang,ing,7ng,ong
-ngn 更难……这个的确更难了？
-ngm 冷漠……
-ngf 心悦“诚服”…… 这个似乎也是没封的。录这个词的时候f尽量不要有气流声（虽然太难避免了，可以试试发音的时候变成英语的v（这个字母你要是读“喂”就当我什么都没说）），在上一个音结束后就可以截了
-ngw 正文……这货的口腔变化自己体会吧。。纠了个结的。。
主元音……就是……
前后啥都没有的。。前面有起音顺过来，后面由尾音承接，鼻音不封口等待尾音的下一步处理。
之前录了0a,0@什么的是有喉音的（喉音是什么。。喵的还真不好说），所以这里的就是没有的。。
orz录制这个的时候要注意的东西就太多说都说不完了。。总之这几个音【无限重要】。。有一些值得注意的在下面部分杂项中提到。。。

另还有以下一堆可以注意。。
切割处理为音源文件时，各节交叠处如何处理……我还没想好……先用渐变包络线性渐变，然后重叠？
几个主元音是被无数次使用的，肯定要质量很高，绝不能容许很差的音质……双元音、鼻音渐变一定要平滑。
同时为了保证与主元音口型一致，录制前后两个矩阵的声音时，将主元音相同的一起录。（比如录了a之后，一次搞定0a-, ba-, pa-, ma-, da-, ta-, na-等等，以及，-ab, -am, -ad, -an（a结尾n开头，不是an）等等。
爆破音在取尾音和起音的时候可以同时干活（“喇叭”可以得到-ab、ba-），但是其他的比如lmns在作为首个音的时候是由一个平滑的音量增大开始的，但是连接之后是由上一个音的结尾元音开始的……
an, {n, @n, in, ang, 7ng, ing, ong, 这类含鼻音的，在录制主元音的时候结尾千万不要完全达到n, ng的口型，也就是不能完全阻塞口部气流。这个的原因是，有很多辅音作起始时候，上一个音的尾音n, ng其实很本就不会闭上口部气流，而会直接迎来下一个辅音。
举几个例子“仰|望”，“仍|然”，“无人|问津”，就是没有闭口的，转折工作分别是在尾音-ngw, -ngr, -nw中完成的。
uo、ong、ou的o其实也是有一定区别的，可以自己发音试一下，在录?io-,?o-的时候建议采用ong, ou的平均值，或者截取这两个起音的时候尽量短，并且主元音加一点从“中间o”过度而来的成分……
ao其实很大程度上是以u结尾的……i作为主元音时，发音过程中间的口型可以很扁，但是ai、ei以及-i?的时候口型会稍开一点……
听、说日语比较多的娃们需要注意的……
｛
中文的u发音跟日语区别很大的，口腔中腔要大，开口一定要小（做介母的时候尤其注意），圆唇元音。
日语的a发音位置很靠前，口腔后部空间不大，但中文“啊”，口腔前部空间不一定大，后部分一定要足够大。。
｝
可以找点中文标准发音材料、听听“正常”点的中文（是我听真人唱的歌太少了么（必须是））仔细研究之后再开录。。
本身中文只有0a- 0o- 07-(0M7-) yi- wu- yv-，但是目前的流行歌曲什么的有受外国口音影响的很多，0i- 0u- 0v-出现已经比较多了，所以前面才有。（据说在这里混的都已经很久远离华语乐坛了么……）
另一些细节比如ni-, nia-, ni{-, nio-, nv-, nve-, 这里用颚化的J还是未颚化的n……待考虑
一句话里的最后一个音结尾该肿么玩待考虑……
更多见此探讨洛天依的demo曲《心印》中出现的问题：http://bbs.ivocaloid.com/thread-105593-1-1.html

总之中文……的确不好搞……
完毕

1 查看全部评分