查看: 1867|回复: 1

【Rocaloid经验总述】【八】关于未实现的功能和对未来的展望 [复制链接]

Sleepwalking

我不是技术宅！

Lv.5-章鱼须

Rank: 5 Rank: 5 Rank: 5

0

9

0

UID: 111156
权限: 40
属性: 宇宙人
发帖: 201 (1精)
积分: 540
章鱼: 3
大葱: 14
茄子: 2688
注册:2012/8/18
存在感:476

电梯直达

[1L]楼主

Zleepwalking 发表于 2013/5/31 14:09:18 |只看该作者 |倒序浏览

本帖最后由 Zleepwalking 于 2015/3/22 18:27 编辑

2015.3
本贴所包含信息时间过于久远，已废弃。出于保留项目历史原因在此搁置。

上帝花了6天创造世界，我花了6天把这堆SDK写完了……
最近老是把Rocaloid扯到宗教的程度上去……虽然我不想让Rocaloid变成一个这样的东西……但至少对我个人Rocaloid已经在某种程度上和宗教一样了。
对我个人Rocaloid已经成了精神寄托，一段时间内我是离不开Rocaloid了。
Rocaloid对我的性格也造成了很大的改变，尤其是在去年那让我崩溃的9月份……
我在塑造Rocaloid的过程中，我自己也被Rocaloid重塑……开发到一半时迷上了AVT的电音……然后我想，“I want to choose the color that is brighter than the dark color.”（DYE）。
夸张点说，开发中有一半时间我是在单曲循环夕日坂，剩下一半在循环DYE SYNTHESIS……上面那句话一定对Rocaloid有了微妙的影响吧……
一代发布后有初中同学说我比半年前明显地善于与人相处了，我由衷地感谢Rocaloid和AVT的DYE……

↑ 大概在两年的时间的冲刷下，人的精神发生了奇妙的变化……

Rocaloid目前未实现的功能

编辑器：Rocaloid Editor，对应在Vocaloid就是Vocaloid Editor，一个用来编辑音符、参数的工具。
CVS编辑器：CVS Editor，一个用来专门微调CVS的工具。参数生成器不可能做到精准，手调CVS后效果应该能有不少提升。（目前已初步实现）
频域合成算法：用于弥补TDPSM的缺陷。
CBV打包和压缩：把3441个文件发给用户显然不太合适，需要把这3441个算法打包成一个文件（CDB）然后压缩。安装时再解压。压缩算法打算用二次差分。经测试压缩比平均可达4 ： 1。
完美的音源库：这可能永远是个坑？因为初音本身有些拼音就是发不出？目前的音源库共用了在2个合成器下的2个音库：Miku + DSE2 / Miku + DSE3 / Miku_soft + DSE2 / Miku_soft + DSE3，拼出了大部分的汉语声母与韵母，但仍不是全部。期待Miku_English。替补方法是用TDPSMStudio或者什么别的后期做上去，或者拿Luka_English的辅音接下来贴到初音上去。。。？

Rocaloid未来也许要实现的功能

除了上述列举的以外，

共振峰合成：有了这个也许可以超越Vocaloid？但是……我还需要学很多的数学啊……
说话：其实现在也可以说话，要发出四个声调，只要在CVS里提供足够多的频率变化点就可以了，只是比较麻烦。唯一的问题是TDPSM无法对非周期性的辅音操作……
音节前后的频率衔接：通过praat分析洛天依的合成发现她在音尾和音头有个频率过渡，这是真实的人声的特性。实现方法和潜在问题同上。
多线程合成：支持多核CPU，100%挖掘性能潜力。
多音源库支持：不止让初音唱中文，也让Luka, Len & Rin, Kaito, Meiko, Gackpoid, Gumi, Lily……………………甚至Utau唱中文？
跨语言合成：不止唱中文，还能唱英法德意俄……等等语言。
通用语音合成引擎：可以自己做音源库，像袅袅那样。
语音朗读API：同说话。用来开发开源聊天机器人……？
哼唱调教：表示语音识别和语音合成完全是两个不同的东西。
人声钢琴。。。：最近万致远玩葛炮钢琴玩得很爽……这条是我开玩笑的。