搜索

iVocaloid论坛

查看: 11772|回复: 29
打印 上一主题 下一主题

[其他] 适用于中文的组合音素型音源拆音构想(袅袅、utau) [复制链接]

aka. farter = 渣语文

Lv.6-章鱼之目

Rank: 6Rank: 6

0
154
2


UID: 71728
权限: 50
属性: 不明
发帖: 331 (0精)
积分: 2324
章鱼: 45
大葱: 92
茄子: 4266
注册:2010/10/17
存在感:495
跳转到指定楼层
[1L]楼主
http404 发表于 2012/4/2 14:12:21 |只看该作者 |倒序浏览
本帖最后由 http404 于 2012/9/10 00:09 编辑

注:已更新,下面的描述可能有一些是过期的。
最新版请参见:
合成方法概述:http://blog.sina.com.cn/s/blog_711e864601018quv.html
音标表:http://blog.sina.com.cn/s/blog_711e86460101872d.html
简而言之,本帖要推荐的方法是:
CAV + Vv + (V|v)C


----

用一个个整个的拼音发音连接起来,听着会囧,原因就是前一个字的尾音和后一个字的辅音口型不一定对得上。。
比如“精辟”,前面是舌根鼻音ng,后面开头是双唇辅音p。。。就萎了。。
而实际的人发音在这中间做了很神秘的微小的处理让他完美的绕了过去。。。自己体会。。
v是直接对口腔的口型不同造成的4个共鸣频率进行分离操作再组合,但似乎袅袅和utau木有管这个。。
尝试过测试袅袅的合成方法,是把下一个音声母帧之前的渐混到上一个音尾部。。
但是口型变化是共鸣频率变化而不是音量变化。。这样按音量混也是不行的。。。

所以就有一个构想,把下一个音的辅音(也就是声母)加入到上一个音的考虑中。
也就是对于jing要录jingb, jingm, jingd, jingn, jingg, jingh等等的音,以变换口型接后一个字不同的辅音起始。
但是这样汉语400+个整拼音*14种(目前找到的粗分类的结尾-起始过渡口型)就得几千个会死人的。。

所以干脆一拆拆到底……接下来现阐述一些基础知识以免看着后面的正文头晕,高手跳过……

这里就涉及到对拼音、音标的理解……标准汉语拼音其实有一定迷惑性的。。
以下介绍取音标的大致方法。
简而言之:(学习维基叔叔)
  • 各种【i以】取【i;】、各种【u无】取【u;】、各种【v于】取【v】(ju、qu、xu作jv、qv、xv)
  • 【e呃、eng风】中的e取【7】
  • 【ei黑、ui(uei)归、ie也】中的e取【e】
  • 【en恩、un(uen)滚、er儿】中的e取【@】
  • 【a啊、ang昂、ao奥】中的a取【a;】
  • 【ai爱、an安】中的a取【a】
  • 【ian言、van元】中的a取【e;】(美声中van更靠近a,但我们搞的都是通俗嘛orz)
  • 【ou欧、iu(iou)九】中的o取【o】
  • 【uo(bo=buo)我】中的o取【o;】
  • 【zhi只、chi吃、shi是、ri日】中的i取【1`】
  • 【er儿】取【@`】
  • 【zi子、ci此、si四】中的i取【1】

(由于汉语元音种类很多,故按比较接近x-sampa的方式取码。)

汉语拼音【e, ei, en, eng, er, ie】,这里就出现了多个e,但是这几个e的发音是很有不同的。。。
维基叔叔英文版“中文标准发音系统”列有国际音标(神奇的符号我就不发了。。)
http://en.wikipedia.org/wiki/Standard_Chinese_phonology
作为中国人,自己发音试一试也可以很轻松的体会出来。
大致分为【e, eng】【ei, ie】【en, er】三种(其实还有细微差别),取x-sampa符号是【7】【e】【@】

【a, ai, an, ang】也是有区别的不过很小,在主元音中体现出来就可以了,起始音差别影响已经很小。
不过最严重的是【ian、van】(这里还是按习惯取v为u上两点),这里面的a发音是很接近英语"{"(英语cat的a发音)甚至靠近"e"(pet)了。体会到了吗?“卷、见”≠“居安、几安”……所以取【{】符号。。
这一点在很多尝试v家调中文的人中被体现的很惨,“前”字直接日语音标【tS i a n】,于是就死的悲惨了。。【tS i】[短]+【e n】试试吧。(详见签名档的v家调教教学)

另外关于汉语拼音【zi ci si zhi chi shi ri】的问题,相信没有人会把他读成“子一”吧,
这里的i位置上代表的,是小时教拼音没被提及的另外两种特殊元音。。ipa发音符号【z̩、ʐ̩】(详见维基)
暂时取【zi, ci, si】的元音为【1】,【zhi chi shi ri】的元音为【`】(1左边那个键)。

汉语拼音有很多的阴谋……iu和ui,你懂的。只要你能把“酒鬼”读成“几无古一”你就赢了。它的实际形式是iou和uei,而且最中央的元音就是o和e。另外un的实际形式是uen。
再一个汉语拼音没被发现的东西……bo、po、mo、fo……其实都是buo、puo、muo、fuo……

另外,试一下发音汉语拼音“零声母音节”【a啊, o哦, e呃(这个作为独成音节比较特殊,中文里起始音是一个很短的[M], 继续详见维基)】
其实都有一个起始辅音(在下面用0表示),但是再试试汉语拼音【yi, wu】就没有。
你能发现这个辅音是什么吗?(上课教小学生呢你)
对了!(我不是葛炮)是不是感觉咽喉那里一擦~
在vocaloid中,用日语音源的时候,如果只写一个【i】,大部分音源在发音开头也加了这个辅音,所以中国人听着感觉很不习惯,因为中文的“以”yi是另一个辅音(汉语拼音y,国际音标是j)。

辅音都用汉语拼音的,这个基本没有问题。关于尾音有以下一些合并规律:
  • bp通用b作尾音,m由于发音会连续,所以另列为一个尾音。
  • dt同d,n分列同理,
  • gk同g,h没有舌根收紧,单列。
  • zhchsh同zh,r有发音连续,单列。
  • jqx同j,y有发音连续单列。
  • zcs同z。
  • 注意0也是作为尾音的,下一个音节如果是零声母的话就用这个。

需要注意,-ng代表n结尾g开头,-ngg代表ng结尾g开头,-nn代表n结尾n开头,-ngn代表ng结尾n开头。
标准汉语好象没有ng声母,但是如果要做方言兼容也可以有。

最后,阅读了以上知识……
就可以得到了以下【两种】拆音方案……(20120415更新:有另一种可选方案,所以这是第一种……)
里面都有一些标准汉语里面没有用到的,gi, ki, hi, bio(元首のbiu), 等等,
但是可能其他用处有的(比如你想穿语言什么的A_A),或者为了维护结构完整,写了少量在里面。

方案1
把中文字发音分成3截:(以“讲台”jiangtai为例)
【辅音+起始元音】包括介母i,u,起始了之后的主元音,解决了介母长度跟发音长度成正比无法控制的问题。记作【jia-】
【中央的元音】前接起始,后由尾音承接。这里应该用【ang】
【结尾音+下一个字的起始口型】以衔接下一个字的起始辅音,这里应该用【-ngd】。
接下来的“tai”就是【ta-】【ai】【-i?】(?代表后一个辅音口型,结尾的时候就不要最后一截)
总结列出下面这一个表,拆开过后的汉语里面用到的发音元素。
录了这些音之后,就可以按需要三个组合成一个汉字了。
举一个例子:我练功发自真心~
【wo-】+【o】+【-ol】
【li{-】+【{n】+【-ng】
【go-】+【ong】+【ngf】
【fa-】+【a】+【az】
【z1】+【1】+【1zh】
【zh@】+【@n】+【ny】
【xi】+【in】

方案2:
还是分成3截,前两截管辖范围略有不同,还是jiangtai为例
【辅音+介母】,【ji-】
【介母+主元音】,【iang】
【主元音结尾+下一个辅音】,跟上一种一样是【-ngt】
私以为录音难度会高一些,虽然音素更少,但是一个很关键的快速变化过程被分开为两次录音了,保持发音风格统一需要功力。
还是这个例子:我练功发自真心~ 有一点变化:
【wo-】+【o】+【-ol】
【li-】+【i{n】+【-ng】←只有汉拼的三拼音节会变化
【go-】+【ong】+【ngf】
【fa-】+【a】+【az】
【z1】+【1】+【1zh】
【zh@】+【@n】+【ny】
【xi】+【in】


方案3://20120710更新
好吧再来一发。。因为要避免很短的音造成合成效果爆表(?),两段式拆法,长度尽量平均。而元音就被平均分配到两端了,连接处要保证口型完全一致不然就会boom……(这里,介母是前置的,双元音的后者、鼻韵母的鼻音都是后置的(v就是因为长度搞平均了就杯具了。。))
依然讲台,只被分成两段:
【jia-】
【-angt】
我练功发自真心:
【wo-】【-ol】
【li{-】【-{ng】
【go-】【-ongf】
【fa-】【-az】
【z`-】【-`zh】
【zh@-】【-@ny】
【xi-】【-in0】

待更新……

当然我是一只无空闲时间、无硬件支持、无有效嗓子声带支持的无法实践只会理论的废……
如果你想尝试实际录音处理,这有一小点小例子、教程。。
基础知识以上都介绍过了orz别说你没看。。
先录主要元音,然后起和尾可以各找例字词,录了之后截取出来……
辅音方面,最好用一个恒定略慢的发音速度(时间压缩的效果总比伸展好)
(什么?怎么找?)
起音。。
0a- 就是有喉音的“啊”。。从频谱上开始有东西起,到频谱形状稳定(进入“a”)之前,截取。
ba- 就是“把”。。就截取口型从b到a张开稳定前,当然要包括b的爆破声。。
bi{- 就是“变”。。口型会变因为有介母i。。同样,从b开始,截取直至{音稳定。。
dua- 就是“短”。。a稳定之前的
due- 就是“对”。。e稳定之前的
du@- 就是“遁”。。@稳定之前的
duo- 多。。
ma- 嘛。。要有一点m开头的鼻音,制作音源时,声母帧就是爆开的一瞬间。。
尾音。。找个满足条件的词(当然你要保证在读各个不同的词语时相同音位的发音是一样的),读了之后截取中间。
-ab 喇叭。。截取从“喇”尾部口型开始收拢起,一直转化到闭塞准备“叭”的时候完(后面的气声不要包括进去)
-am 大妈。。这个因为m是持续鼻音要延续到下一个m音(准确的说是后面的辅音m逆袭到前一个自的尾部了。。)所以跟b区分开。。也是当口型即将开始缩小的时候开始截取,到m口型闭塞瞬间停止。。(m的酝酿和张开是后面的起音干的事了)
-nd 看到。。 这个开始不能太早,要等到n封闭口型形成瞬间开始(因为-nd前面可以是an,{n,in,@n,vn,(见到、频道、闻到、晕倒)这个音不能沾有a,{,i,@,v的一丝痕迹,不然如果前面是别的音就彻底悲剧),然后会经历口腔封闭到鼻音通道也封闭转换到d的过程,同样在封完的一瞬间截取,不能包括后面d的爆破声。
-nw 论文。。到这里了就会感到有压力了。。是的。。这里的n不能达到封闭。。所以没有封闭瞬间。。(所以录an、@n、in、{n的时候不能让口型封闭,就是这个道理orz)就按照听不出前面的@n中的@为标准。。对辅音w就以口型缩到最小的瞬间为结束,再张大是下一个起音的事情了。。最终保证对于“金文”“汉文”“前文”里面的-nw都是一样的就行了。。
-nm 蓝猫。。纠结了吧?这里的n同样没有等到舌头与牙龈封闭,而且已经变得像m了,但是不知为什么,确实跟“拉猫”是不一样的。。不要纠结orz多听听葛炮怎么发音吧。。尽量自然地转换吧。。截取还是以没有前面an的a的痕迹为标准,到口闭塞瞬间截止。。截出来之后单听是什么词都听不出来的了……是的这是正常的。。可以再多试几个“人们”“很慢”之类的。。
-ng 栏杆。。跟“浪干”不同哦亲。。你得好好找找为什么不同。。同样,n没有封闭。。
-ngg 唱歌……这是最轻松的,跟-nd一个感觉,同样有ang,ing,7ng,ong
-ngn 更难……这个的确更难了?
-ngm 冷漠……
-ngf 心悦“诚服”…… 这个似乎也是没封的。录这个词的时候f尽量不要有气流声(虽然太难避免了,可以试试发音的时候变成英语的v(这个字母你要是读“喂”就当我什么都没说)),在上一个音结束后就可以截了
-ngw 正文……这货的口腔变化自己体会吧。。纠了个结的。。
主元音……就是……
前后啥都没有的。。前面有起音顺过来,后面由尾音承接,鼻音不封口等待尾音的下一步处理。
之前录了0a,0@什么的是有喉音的(喉音是什么。。喵的还真不好说),所以这里的就是没有的。。
orz录制这个的时候要注意的东西就太多说都说不完了。。总之这几个音【无限重要】。。有一些值得注意的在下面部分杂项中提到。。。

另还有以下一堆可以注意。。
切割处理为音源文件时,各节交叠处如何处理……我还没想好……先用渐变包络线性渐变,然后重叠?
几个主元音是被无数次使用的,肯定要质量很高,绝不能容许很差的音质……双元音、鼻音渐变一定要平滑。
同时为了保证与主元音口型一致,录制前后两个矩阵的声音时,将主元音相同的一起录。(比如录了a之后,一次搞定0a-, ba-, pa-, ma-, da-, ta-, na-等等,以及,-ab, -am, -ad, -an(a结尾n开头,不是an)等等。
爆破音在取尾音和起音的时候可以同时干活(“喇叭”可以得到-ab、ba-),但是其他的比如lmns在作为首个音的时候是由一个平滑的音量增大开始的,但是连接之后是由上一个音的结尾元音开始的……
an, {n, @n, in, ang, 7ng, ing, ong, 这类含鼻音的,在录制主元音的时候结尾千万不要完全达到n, ng的口型,也就是不能完全阻塞口部气流。这个的原因是,有很多辅音作起始时候,上一个音的尾音n, ng其实很本就不会闭上口部气流,而会直接迎来下一个辅音。
举几个例子“仰|望”,“仍|然”,“无人|问津”,就是没有闭口的,转折工作分别是在尾音-ngw, -ngr, -nw中完成的。
uo、ong、ou的o其实也是有一定区别的,可以自己发音试一下,在录?io-,?o-的时候建议采用ong, ou的平均值,或者截取这两个起音的时候尽量短,并且主元音加一点从“中间o”过度而来的成分……
ao其实很大程度上是以u结尾的……i作为主元音时,发音过程中间的口型可以很扁,但是ai、ei以及-i?的时候口型会稍开一点……
听、说日语比较多的娃们需要注意的……

中文的u发音跟日语区别很大的,口腔中腔要大,开口一定要小(做介母的时候尤其注意),圆唇元音。
日语的a发音位置很靠前,口腔后部空间不大,但中文“啊”,口腔前部空间不一定大,后部分一定要足够大。。

可以找点中文标准发音材料、听听“正常”点的中文(是我听真人唱的歌太少了么(必须是))仔细研究之后再开录。。
本身中文只有0a- 0o- 07-(0M7-) yi- wu- yv-,但是目前的流行歌曲什么的有受外国口音影响的很多,0i- 0u- 0v-出现已经比较多了,所以前面才有。(据说在这里混的都已经很久远离华语乐坛了么……)
另一些细节比如ni-, nia-, ni{-, nio-, nv-, nve-, 这里用颚化的J还是未颚化的n……待考虑
一句话里的最后一个音结尾该肿么玩待考虑……
更多见此探讨洛天依的demo曲《心印》中出现的问题:http://bbs.ivocaloid.com/thread-105593-1-1.html

总之中文……的确不好搞……
完毕
1

查看全部评分


知识共享许可协议 除非另有声明,本帖内容采用 署名-非商业-相同方式共享 3.0 许可协议 授权,且需注明出处,所有权利归发帖人。

使用道具 举报

↗頂級'B貨↘

Lv.6-章鱼之目

Rank: 6Rank: 6

5
99
7


UID: 84614
权限: 50
发帖: 1452 (0精)
积分: 1862
章鱼: 19
大葱: 56
茄子: 5057
注册:2011/6/16
存在感:1162

创作者 已经合不上嘴了... 我是loli控 茄子饲养者 水王 发帖达人

[2L]沙发
1274084726 发表于 2012/4/3 10:14:47 |只看该作者
理论派!绝对是理论派!!!
虽然要录的音素比整音少,
但是输入灰常麻烦有人用吗!?
【↑再写个对照表可能有人用,不过绝对很麻烦……】
另,那个表看着就不知道该录哪个音节……

使用道具 举报

aka. farter = 渣语文

Lv.6-章鱼之目

Rank: 6Rank: 6

0
154
2


UID: 71728
权限: 50
属性: 不明
发帖: 331 (0精)
积分: 2324
章鱼: 45
大葱: 92
茄子: 4266
注册:2010/10/17
存在感:495
[3L]板凳
http404 发表于 2012/4/3 13:49:46 |只看该作者
回复 2# 1274084726


    囧rz就是录音数量少但是难度比较大。。。
其实如果dsound大看到的话可能可以把这种方法加到引擎里面去,到时候也只需要直接输入一个拼音,拆分与合成都是交给合成引擎的事…………只是录音君就必须要好好研读这个了。。

使用道具 举报

↗頂級'B貨↘

Lv.6-章鱼之目

Rank: 6Rank: 6

5
99
7


UID: 84614
权限: 50
发帖: 1452 (0精)
积分: 1862
章鱼: 19
大葱: 56
茄子: 5057
注册:2011/6/16
存在感:1162

创作者 已经合不上嘴了... 我是loli控 茄子饲养者 水王 发帖达人

[4L]地板
1274084726 发表于 2012/4/3 17:07:52 |只看该作者
回复 3# http404


    其实……
我已经把链接发D菌了,他也看到了……
【消息记录搬运……】
dsound(2434985883)  18:32:32
他说的“精辟”就不对。。
dsound(2434985883)  18:32:46
jing+pi的效果其实应该是很好的
dsound(2434985883)  18:42:40
他这个拆音法果然是理论派orz..
【↑只有这几条……主题很快就歪了……】

使用道具 举报

aka. farter = 渣语文

Lv.6-章鱼之目

Rank: 6Rank: 6

0
154
2


UID: 71728
权限: 50
属性: 不明
发帖: 331 (0精)
积分: 2324
章鱼: 45
大葱: 92
茄子: 4266
注册:2010/10/17
存在感:495
[5L]萝莉
http404 发表于 2012/4/4 11:44:55 |只看该作者
回复 4# 1274084726


    orz

使用道具 举报

aka. farter = 渣语文

Lv.6-章鱼之目

Rank: 6Rank: 6

0
154
2


UID: 71728
权限: 50
属性: 不明
发帖: 331 (0精)
积分: 2324
章鱼: 45
大葱: 92
茄子: 4266
注册:2010/10/17
存在感:495
http404 发表于 2012/4/4 12:28:15 |只看该作者
本帖最后由 http404 于 2012/4/4 12:41 编辑

有图有jb~

jingpi-vsq
jingpi-wave


jingpi-spectrum



使用了miku-dark,效果比较明显
前三个是【dZ i N\】, 【dZ i N\ b】, 【p' i】
最后一个是交由vocaloid处理合成的连续的【dZ i N\】+【p' i】
可以一眼看出vocaloid的合成在dZ i N\后面加了什么东西吧。。。
b、m的口型音频率整体频率比N、g要高一些。。
在第二个音末尾手动加了b,第四个坨的第一个音节后面自动进行的频率特征改变明显接近第二个音末尾的变化。
音频:
http://fc.5sing.com/5809315.html

使用道具 举报

Rank: 6Rank: 6

0
145
0


UID: 85956
权限: 50
属性: 不明
发帖: 169 (0精)
积分: 2165
章鱼: 46
大葱: 75
茄子: 1944
注册:2011/7/9
存在感:145
[7L]大姐姐
dsound 发表于 2012/4/4 13:04:15 |只看该作者
回复 6# http404
呃呃  我来说下吧。。
v肯定是对每两个相邻的音的前音尾和后音首做了文章。。
而如果只用整音音源的话   jing+pi 的效果也不差  因为p是爆破音...

之所以说这是理论派  是因为实际应用时,从录制到制作有很多麻烦的地方。
嘛 1L也有提到..

如果要录制连续音源,不可避免的要涉及到拆分为音素,
具体的实用性录制方法还在探索中。。

使用道具 举报

aka. farter = 渣语文

Lv.6-章鱼之目

Rank: 6Rank: 6

0
154
2


UID: 71728
权限: 50
属性: 不明
发帖: 331 (0精)
积分: 2324
章鱼: 45
大葱: 92
茄子: 4266
注册:2010/10/17
存在感:495
[8L]实妹
http404 发表于 2012/4/4 17:13:22 |只看该作者
本帖最后由 http404 于 2012/4/4 17:14 编辑

回复 7# dsound


    囧 精辟神马的只是直观例子之一,可能举的不是很好吧……
但是传说中的机械音感觉什么的……基本都是因为收尾衔接问题导致的,不可忽视啊……
拆分因素问题……我这不就是给拆好了么……空闲帝照着表格撸就行了

使用道具 举报

Rank: 6Rank: 6

0
145
0


UID: 85956
权限: 50
属性: 不明
发帖: 169 (0精)
积分: 2165
章鱼: 46
大葱: 75
茄子: 1944
注册:2011/7/9
存在感:145
dsound 发表于 2012/4/4 21:22:29 |只看该作者
回复 8# http404
那个表。。。看着也不会念。。。会念也不会制作音源。。。

使用道具 举报

aka. farter = 渣语文

Lv.6-章鱼之目

Rank: 6Rank: 6

0
154
2


UID: 71728
权限: 50
属性: 不明
发帖: 331 (0精)
积分: 2324
章鱼: 45
大葱: 92
茄子: 4266
注册:2010/10/17
存在感:495
[10L]幼驯染
http404 发表于 2012/4/6 16:34:45 |只看该作者
回复 9# dsound


    所以前面写了那么多铺垫……告诉为什么要拆……怎么拆……每个音标该发什么音……

做音源嘛……
真不是我说。。。。
现在那个音源制作器软件……
是个人都不会用(程序猿是猿……猿……orz

使用道具 举报

Rank: 6Rank: 6

0
145
0


UID: 85956
权限: 50
属性: 不明
发帖: 169 (0精)
积分: 2165
章鱼: 46
大葱: 75
茄子: 1944
注册:2011/7/9
存在感:145
[11L]怪蜀黍
dsound 发表于 2012/4/6 21:56:15 |只看该作者
回复 10# http404
那个有教程  已经有人做出来了。。
是我编的 只不过视频教程一直没空做。。

使用道具 举报

aka. farter = 渣语文

Lv.6-章鱼之目

Rank: 6Rank: 6

0
154
2


UID: 71728
权限: 50
属性: 不明
发帖: 331 (0精)
积分: 2324
章鱼: 45
大葱: 92
茄子: 4266
注册:2010/10/17
存在感:495
12#
http404 发表于 2012/4/7 00:37:26 |只看该作者
回复 11# dsound


    界面能再友好点么……
音频波形略图能用点算法取区间最大值而不是按间隔取值么。。有个频率跟你的采样频率接近的声音我一看上去好像是次声波。。。
fft点数取大点吧……男声100-200hz这货几Hz的差距也是很大的……
切割wave能有点友好操作不……撤销啊调整前面的。。倒着画的检测。。从某地试听。。文件名数量不同先把前面的切了或者给点检查方法也行……
话说还有严重bug……
似乎是文件夹中的单音音频文件增加之后,再刷新列表,会出现一些貌似是数组索引值问题使得在最后打包的时候对应出现错误……也就是音素名和波形错开了,有一些对应萎了的直接让合成时卡住……

使用道具 举报

Rank: 6Rank: 6

0
145
0


UID: 85956
权限: 50
属性: 不明
发帖: 169 (0精)
积分: 2165
章鱼: 46
大葱: 75
茄子: 1944
注册:2011/7/9
存在感:145
13#
dsound 发表于 2012/4/7 01:07:11 |只看该作者
回复 12# http404
呃呃   那您给个设计方案吧   我实在没空

这个打包器本来是我自己用的  大家要做我才放出来的 所以很多细节根本没做
但是只要按部就班使用的话是完全没问题的

按区间取值是为了加快运行速度 好不好看无所谓  只要能看出波形的起始就行。。
没用到fft。。
切割时就是从头到尾切割,如果考虑胡乱切割顺序的话,编程麻烦
有从中间试听的功能 鼠标右键
通过调整切割波形数来删除画错的
正常步骤是:从头到尾切割-试听-边试听边输入,认真点的话一般都没有什么问题。

最后一个没明白  从来没遇到过打包错误  应该是操作有误

使用道具 举报

aka. farter = 渣语文

Lv.6-章鱼之目

Rank: 6Rank: 6

0
154
2


UID: 71728
权限: 50
属性: 不明
发帖: 331 (0精)
积分: 2324
章鱼: 45
大葱: 92
茄子: 4266
注册:2010/10/17
存在感:495
14#
http404 发表于 2012/4/7 01:17:16 |只看该作者
回复 13# dsound


    都是没时间的苦逼……

波形最大值。。。线段树,初始化O(NlogN),取区间最大值的复杂度是O(logN),M像素宽图形取值就是O(MlogN)很快的。。orz(搞OI写这个是最多半个小时的事吧=w=)

打包的时候一次割完添加完,刷出来处理完也没问题,但如果需要一次一次添加,再刷新列表时候好像就出问题了。。。

自用的话……作为一个类人猿(orz)以上都是可以接受的……
这是拿出来给别人用的(而且还需要收废的)那就必须认真对待了。。。

使用道具 举报

10

别看我我啥也不会

Lv.7-料理用章鱼

Rank: 7Rank: 7Rank: 7

102
150
2


UID: 65830
权限: 60
属性: 発火性
发帖: 1211 (2精)
积分: 5108
章鱼: 89
大葱: 233
茄子: 10489
注册:2010/6/4
存在感:1292

オト厨们的专属徽章 创作者 全能创作者 创作达人 茄子饲养者 已经合不上嘴了... 隐型则玲~ MEIKOの爱 葱田播种者 终身成就

15#
十月鬼 发表于 2012/4/7 02:03:18 |只看该作者
[仔细的看了一下

调教的话可能就需要有人能做相应的插件把整音改成发音符号了呢。。。

UTAU里合成,应该是交叠发音然后可以一键过渡音量没有问题

音表浓缩成三百个已经很厉害了,如果能做成连续音音表的格式就可以直接开录。。。嗯暑假好好研究去吧QvQ

[魂淡人家中文Vocaloid到底是在怎么录啊!!!!我比较好奇这个啊!!!!
VY2是我的嫁!!!
只要有我兒子有鬱P有VY2這世界就完整了!

自家儿女:[十月緒子 十月オト]求注目。
UTAU支援向同人志推广中~
请尽情戳w

使用道具 举报

Rank: 2Rank: 2

0
1
1


UID: 98581
权限: 10
发帖: 71 (0精)
积分: 48
章鱼: 0
大葱: 1
茄子: 328
注册:2012/1/25
存在感:77
16#
躲猫儿猫躲 发表于 2012/4/7 13:17:32 |只看该作者
orz楼主好厉害= =这边快要看晕了。。慢慢研究

使用道具 举报

aka. farter = 渣语文

Lv.6-章鱼之目

Rank: 6Rank: 6

0
154
2


UID: 71728
权限: 50
属性: 不明
发帖: 331 (0精)
积分: 2324
章鱼: 45
大葱: 92
茄子: 4266
注册:2010/10/17
存在感:495
17#
http404 发表于 2012/4/9 09:34:30 |只看该作者
回复 13# dsound


    话说……没用fft是怎么求主频率的。。

使用道具 举报

aka. farter = 渣语文

Lv.6-章鱼之目

Rank: 6Rank: 6

0
154
2


UID: 71728
权限: 50
属性: 不明
发帖: 331 (0精)
积分: 2324
章鱼: 45
大葱: 92
茄子: 4266
注册:2010/10/17
存在感:495
18#
http404 发表于 2012/4/9 10:56:37 |只看该作者
回复 15# 十月鬼


    vocaloid似乎已经是搞懂了口腔共鸣频率变化方式了。。于是只需要根据下一个辅音的口型数据,把原声的相应频率抠出来变掉再揉回去。。
utau。。前面所说的就是。。口型渐变引起的发音渐变,于前后两个音来说,的确是4个主要共鸣频率渐变,而不是音量交叠渐变。。
v录音数量应该主要是在不同音调上的了,不是像袅袅的只有一个音高把全部包完。。。

这个音表嘛……就是分为三部分。。起始、主要元音、结束口型,
录了裁切即可,发音上的技术事项以及举例参见上文。。。(更新了哦~)orz

使用道具 举报

Rank: 6Rank: 6

0
145
0


UID: 85956
权限: 50
属性: 不明
发帖: 169 (0精)
积分: 2165
章鱼: 46
大葱: 75
茄子: 1944
注册:2011/7/9
存在感:145
19#
dsound 发表于 2012/4/9 11:53:30 |只看该作者
回复 18# http404
时域求基频的方法有很多啊= =

使用道具 举报

aka. farter = 渣语文

Lv.6-章鱼之目

Rank: 6Rank: 6

0
154
2


UID: 71728
权限: 50
属性: 不明
发帖: 331 (0精)
积分: 2324
章鱼: 45
大葱: 92
茄子: 4266
注册:2010/10/17
存在感:495
20#
http404 发表于 2012/4/9 12:24:24 |只看该作者
回复 19# dsound


    难道是传说中直接的的波形上升下降分析……
找不出频率直接就卡在哪里了啊……
呼吸音情何以堪啊……

使用道具 举报

Rank: 6Rank: 6

0
145
0


UID: 85956
权限: 50
属性: 不明
发帖: 169 (0精)
积分: 2165
章鱼: 46
大葱: 75
茄子: 1944
注册:2011/7/9
存在感:145
21#
dsound 发表于 2012/4/10 15:56:41 |只看该作者
回复 20# http404
波形上升下降分析?   用自相关算法啊
卡在那里?找不到也不卡啊  循环一遍 肯定会找到的哪怕是个错误的数值
呼吸音不需要求频率

使用道具 举报

aka. farter = 渣语文

Lv.6-章鱼之目

Rank: 6Rank: 6

0
154
2


UID: 71728
权限: 50
属性: 不明
发帖: 331 (0精)
积分: 2324
章鱼: 45
大葱: 92
茄子: 4266
注册:2010/10/17
存在感:495
22#
http404 发表于 2012/4/10 22:17:59 |只看该作者
回复 21# dsound

查了一下各种算法。。还是用fft吧。。
这个似乎有时候不够准确,,用miku的合成出来各个音素(pitchbend什么的都是0)来测试,
都是随机的350Hz、347.2hz(本来是349.2。。。)
呼吸音忘记是求的时候还是合成的时候卡了……
声母帧检测。。就orz了。。用自动的基本一个声母都听不到。。有点太靠后了。。

使用道具 举报

钢琴研究圆

Lv.6-章鱼之目

Rank: 6Rank: 6

0
87
0


UID: 86793
权限: 50
发帖: 624 (7精)
积分: 2063
章鱼: 26
大葱: 97
茄子: 5007
注册:2011/7/20
存在感:756

创作者

23#
jerrkiy 发表于 2012/4/15 11:41:06 |只看该作者
= =
我该用什么角度吐槽。。。。
音乐,美食,钢琴。。。。。。。请大家试试用bhiham瘦身技术制作汉音源吧。。。

使用道具 举报

aka. farter = 渣语文

Lv.6-章鱼之目

Rank: 6Rank: 6

0
154
2


UID: 71728
权限: 50
属性: 不明
发帖: 331 (0精)
积分: 2324
章鱼: 45
大葱: 92
茄子: 4266
注册:2010/10/17
存在感:495
24#
http404 发表于 2012/4/15 21:54:22 |只看该作者
回复 23# jerrkiy


    自取立意,任选角度QAQ

使用道具 举报

aka. farter = 渣语文

Lv.6-章鱼之目

Rank: 6Rank: 6

0
154
2


UID: 71728
权限: 50
属性: 不明
发帖: 331 (0精)
积分: 2324
章鱼: 45
大葱: 92
茄子: 4266
注册:2010/10/17
存在感:495
25#
http404 发表于 2012/4/16 08:46:34 |只看该作者
回复 2# 1274084726
回复 7# dsound
回复 15# 十月鬼
回复 16# 躲猫儿猫躲
回复 23# jerrkiy

内容有更新求围观- -~
增加了一种新的方案,描述详细了点。
然后就是精确统计显示前面的第一种方案是451个音……
更新上来的第二种是358个音~

使用道具 举报

钢琴研究圆

Lv.6-章鱼之目

Rank: 6Rank: 6

0
87
0


UID: 86793
权限: 50
发帖: 624 (7精)
积分: 2063
章鱼: 26
大葱: 97
茄子: 5007
注册:2011/7/20
存在感:756

创作者

26#
jerrkiy 发表于 2012/4/16 23:04:19 |只看该作者
这个作为内部计算还可以,不过不适合utau(使用不方便),而且对录音者要求挺高的。不过基本音素都涉及,很不错的了。
音乐,美食,钢琴。。。。。。。请大家试试用bhiham瘦身技术制作汉音源吧。。。

使用道具 举报

您需要登录后才可以回帖 登录 | 注册/sign up

申请友链|Archiver|iVocaloid - 自由,开放,合作,共享    | 版权持有者点击这里进行举报

GMT+8, 2025/6/9 02:10

Powered by Discuz! X2

© 2001-2011 Comsenz Inc.

回顶部