iVocaloid论坛

标题: 【发音词典】CDT3音源映射结构 [打印本页]

作者: Zleepwalking    时间: 2013/8/27 20:43     标题: 【发音词典】CDT3音源映射结构

算法灵活性上的提升使我们需要用更强大的发音词典数据结构。
于是,这是CDT3的音源文件映射结构。
定义这种结构的目的是用少数音源库文件,结合共振峰修改和变调,填补掉整张汉语拼音表。
如下图,使用a\o\u三个拼音分别在C3\F#3\C4的共9个采样,扩展出了所有a e i o u元音。
CDT3MappingStructureExample.png
另外类似的技术也可应用在Utau音源。想象一下一个汉语整音音源只用录几十个wav是件多爽的事!


图片附件: CDT3MappingStructureExample.png (2013/8/27 20:41, 224.89 KB) / 下载次数 22
http://bbs.ivocaloid.com/forum.php?mod=attachment&aid=NzMyMzZ8MzZhYjQwYmJ8MTc1MzQ1MzY3NHwwfDA%3D


作者: D-Bood    时间: 2013/8/28 10:52

本帖最后由 D-Bood 于 2013/8/28 10:54 编辑

但是这样做对于原音的还原度是否有影响?
作者: lazydog    时间: 2013/8/28 16:13

还有一个v(ü)呢?(滚
好吧我自重,而且每次听ai都会听成え怎么破?
作者: lazydog    时间: 2013/8/28 18:38

本帖最后由 lazydog 于 2013/8/28 18:40 编辑
lazydog 发表于 2013/8/28 16:13
还有一个v(ü)呢?(滚
好吧我自重,而且每次听ai都会听成え怎么破?

诶诶诶?我说的是拼音……比如“绿”(lü)什么的,那个没有吧wwwww还有开(kai)什么的都听成け(ke)什么的,是我的问题吗wwww

作者: D-Bood    时间: 2013/8/28 21:43

lazydog 发表于 2013/8/28 18:38 诶诶诶?我说的是拼音……比如“绿”(lü)什么的,那个没有吧wwwww还有开(kai)什么的都听成け(ke)什么 ...
这应该就是共振峰的局限了吧...
作者: Zleepwalking    时间: 2013/8/28 23:32

lazydog 发表于 2013/8/28 16:13
还有一个v(ü)呢?(滚
好吧我自重,而且每次听ai都会听成え怎么破?

上图只是个例子,其他发音可以照此增加上去。不过我的确是忘了v\ri\zi
ai其实和罗马音e的发音是不同的。ai是个a->i的过渡状态,和e的确是比较接近。
2L:
如果整个音库只用几个文件制成起来的话,肯定会毁爆的……
填得越多,质量就越高。





欢迎光临 iVocaloid论坛 (http://bbs.ivocaloid.com/) Powered by Discuz! X2