iVocaloid论坛

标题: 【源码工程】关于本土语音合成引擎的设想 [打印本页]

作者: 晓月斜阳    时间: 2012/7/29 15:35     标题: 【源码工程】关于本土语音合成引擎的设想

RT
椐私所知,目前语音合成引擎的研发与制作技术都不止有YAMAHA一家,国产的中科大飞讯一直都只能平述语言,缺乏歌乐丰富的音调可变性,而目前中文语音合成单论输出方面国内的引擎确实比较优秀,但苦于没有乐音合成引擎的国内软件只能做做有声书等干活。

谈完背景,我们接着聊一些鄙人略有耳闻的事儿。
众所周知,曾经有个POCALOID的软件曾在V+所有音源上对音源直接兼容(误,本人因为各种原因没有使试过),其简便性比起VOCALOID2要便捷不少,但是鄙人也看了一些人的用后评价说会有破音等问题冒出,比不上原生程序。不过私以为这是个不错的事情,通过反汇编逆向做出兼容性更好东西来。尽管这可能涉及到所有生产商尤其是像YAMAHA为首的巨头的最核心利益,而且某意义上来说甚至是违反知识产权的相关法规。
即便如此,我们仍无法减弱心中追求完美的向往。

不知道什么原因什么时候,忽地发现国内也有歌声合成引擎了,不过是无源的,类似UTAU,个人第一感觉是我朝终于有中文合成语音软件了,可是在这不久之后的个把月,我看到了洛天依在国内发行的消息,天朝的中文歌声合成将要被姓Y的占领了么?
V3引擎确实本来就是强大的存在,毕竟V2不是盖的,如果说V3还有瑕疵,那肯定是没过磨合期。

于是,鄙人在此发问,有高级技术帝驻扎于此地的英灵们啊(雾……),你们有谁愿意先开一坑?为我朝本土歌乐合成引擎的工程!
需要澄清一点的是,本人还是渣技术渣水平渣学生外加渣理想与没动力一族,偶得这一奇想于心,两年之久,并未有心开坑,也无力开坑,所以此时有热血人士⑨(雾……)出现的的话,本人渣可以用各种想法辅助跟进乃们。

只是,有一点要求,必须以无盈利非商业的原则开坑,源码公开,众人拾柴,开发我朝的歌声合成引擎,虽然这么一说肯定没人愿意干了,但是需要说一点的是linux的开源原则成了庶民的胜利,尽管我朝尽是windows的天下,linux上也没有更多的引擎产品,但我相信所有认识linux的人都知道,linux是正义的(视窗党轻点喷,虽然本人是中二了点)。

以天朝之名,开一树秀花。以天籁之声,振民族之魂。以籁为姓,名之徵伶。
觉得不错的大神将就着用吧,籁徵伶什么的(笔者注:籁,不解释了;徵,宫商角徵羽,“高渐离击筑,荆轲和而歌,为变徵之声,士皆垂泪涕泣”,就这样;伶,伶人,伶官,参见《伶官传序》,虽然某种情感上有点贬义,可是错不在伶,错在帝。)

PS:第一次发帖,不懂规矩请多包含,也许这贴应该发水区比较符合管理SAMA的观念,不过,私并不指望水区有凤降枝头,故而选在技术区一表想法,让有实力的高手参考创意,如果对管理员桑的工作带来麻烦或困扰,深表歉意
作者: jerrkiy    时间: 2012/7/29 22:11

这是。。。开发引擎还是音源。。。。。
作者: hqy123    时间: 2012/7/30 12:28

POCALOID啊。。。就是破解版的VOCALOID,只是拆的很开。。。。。国产的歌声合成软件???
www.yuyinniaoniao.com、、
Linux真正义+1。。。。。Windows是中立,让我们一起打败Mac、、、、(言情小说啊泥煤。。。。。)

作者: aimhabo    时间: 2012/7/30 19:05

Mac是啥来着,突然想不起来


中文发音的话,高低差距很大,要将各个字连成整句会有压力吧
作者: 晓月斜阳    时间: 2012/8/15 11:19

本帖最后由 晓月斜阳 于 2012/8/15 11:34 编辑
aimhabo 发表于 2012/7/30 19:05
Mac是啥来着,突然想不起来

mac是苹果电脑公司针对苹果电脑开发的专属操作系统,多媒体开发与娱乐功能都十分优秀,不过应用不是无料供应就是了

平滑过度的话的话颤音采样吧,估计最初阶段只能做到发声,干声处理还是手工处理实际些,批处理没有针对性
作者: 晓月斜阳    时间: 2012/8/15 11:26

本帖最后由 晓月斜阳 于 2012/8/15 11:32 编辑
hqy123 发表于 2012/7/30 12:28
POCALOID啊。。。就是破解版的VOCALOID,只是拆的很开。。。。。国产的歌声合成软件???
www.yuyinniaoni ...

pocaloid跟原版vocaloid还是有差别的,vocaloid一次启动只能加载一个声源,好像早期的版本还不能切换,现在vocaliod 3 出来了自然做了音源连接的便捷化,可是在初音镜音的年代,pocaloid确实做了优化,硬要说破解的话倒不如说国外的大触逆向编译程序之后重编码,嘛linux的工作站最近能搜到一些了,趋势还是有的看时间了,mac估计不能捅它菊花了,因为mac本身就是针对媒体开发应用而设计的系统,商业性强
顺带一提袅袅中文歌声合成并没有开源代码哦~
作者: 晓月斜阳    时间: 2012/8/15 11:30

jerrkiy 发表于 2012/7/29 22:11
这是。。。开发引擎还是音源。。。。。

您可以这样理解,两边都来开发……不过目前估计开不了坑,至少我开不了,不过我相信只要有更多的人看到一定会有对这“工程”有兴趣的人的,目前我只能提供一些无关痛痒的情报
作者: 酆秭君    时间: 2012/8/15 11:51

像这种类型的软件,不管是日本的还是中国的,我都宁可用钞票购买也不愿意在网上免费下载。商业操作能够衍生出一条产业链,而免费却常常吃力不讨好——就凭这样的落差,我不认为有人会这么伟大。就个人而言,我的填词作品也需要一个形象来加以表现,比如我最期待的墨清弦;所以就算有语音合成系统,优秀的形象设计同样不可或缺。
作者: hqy123    时间: 2012/8/18 22:48

晓月斜阳 发表于 2012/8/15 11:26
pocaloid跟原版vocaloid还是有差别的,vocaloid一次启动只能加载一个声源,好像早期的版本还不能切换,现 ...

谁说的,VOCALOID原版一直可以同时在多轨加载多个声源啊,在最初版 2.0.1的时代就可以了
作者: vangel    时间: 2012/8/18 23:40

先把所有已有的引擎的合成原理和参数的实现方式了解清楚再说这个吧。不然出来又是一个Vocalina。
Y社的整个Vocaloid Project,从开发代号Daisy始,到现在接近14年,是无数的paper堆出来的东西,不是一个民族自豪感想挑战就能挑战的。
如果说太重抱歉。
作者: Zleepwalking    时间: 2012/8/20 08:25

虽然没打算开源,不过我的Rocaloid&CyberVoice方案已经完成的差不多了
从去年4月到现在,我重构了初音音源库并自制了CyberVoice引擎。新的合成软件名叫Rocaloid,专门用于解决初音的中文问题。
虽然现在发出的音还很生硬,至少比Vocaloid本体要好一些吧(比不上那些中文神调教。。。)
我会慢慢改进,Rocaloid Demo将于今年秋季发布。
作者: vangel    时间: 2012/8/20 09:21

Zleepwalking 发表于 2012/8/20 08:25
虽然没打算开源,不过我的Rocaloid&CyberVoice方案已经完成的差不多了
从去年4月到现在,我重构了初音音源 ...

……先说一下我新来乍到不知轻重可能说话比较狠,没有冒犯的意思,如果有说得太过分的请多包涵。
Miku音库拼中文的解决方案已经有杯具P的未发表的风神马。这里不懂编程,但是敢问所谓音库重构是否把音库文件内所有的Diphone全都拆出来允许自由重组,另外是否有单基频层次的调整?
如果仅仅是挂靠Vocaloid引擎对它既有的Diphone合成方案作拆分组合,那就相当于P社台湾版附带的中文用户词典而已。如果没有单基频层面的调整,那么元音音库仍然得不到扩充,那么日文拼中文的核心问题还是没解决。
我个人觉得,一套完善的中文解决方案必须要靠包含中文音素的音库支持,我觉得LZ应该也是这个意思。Vocaloid引擎能做到的事情很多,拆出音库所做的也就是对它的既有模式进行破除,但是这个破除应该不是总是好事的。
作者: Zleepwalking    时间: 2012/8/20 09:47

vangel 发表于 2012/8/20 09:21
……先说一下我新来乍到不知轻重可能说话比较狠,没有冒犯的意思,如果有说得太过分的请多包涵。
Miku音 ...

嗯,就是这样,引擎也自己写的。

其实也不是很难的事情,因为vocaloid本身已经能发出大部分汉语的声母、韵母了,只是有些音没法衔接起来。
rocaloid可以让这些音自由衔接,具有很高的灵活性。
准确来讲rocaloid只是个拼接器,因为它不包括频率的变换。所以我只处理了C2-C5的部分。
新的音源库有100MB左右,压缩后仅40M
音质介于Vocaloid和UTAU之间
作者: vangel    时间: 2012/8/20 20:44

Zleepwalking 发表于 2012/8/20 09:47
嗯,就是这样,引擎也自己写的。

其实也不是很难的事情,因为vocaloid本身已经能发出大部分汉语的声母、 ...

就是这样指的是就是把音库的diphone拆出来做重新拼接吗?
举个例子,请问中文的e(X-SAMPA的7)和r(z`)这两个音是怎么处理的? 此外不包括频率的变换指的是对基准音下的音进行无损变调的操作是调用Vocaloid的原引擎是吗?
作者: Zleepwalking    时间: 2012/8/25 10:29

vangel 发表于 2012/8/20 20:44
就是这样指的是就是把音库的diphone拆出来做重新拼接吗?
举个例子,请问中文的e(X-SAMPA的7)和r(z`) ...

嗯 是的
其实这个实现原理很坑爹,不调用Vocaloid引擎,可独立运行。
e是在v2里o的ope拉低调出来的
r其实是用M调的
作者: vangel    时间: 2012/8/25 19:48

Zleepwalking 发表于 2012/8/25 10:29
嗯 是的
其实这个实现原理很坑爹,不调用Vocaloid引擎,可独立运行。
e是在v2里o的ope拉低调出来的

所以声库是已经破解完成了对吗?应该是两个数据表一堆声音档案?拆出来得到双音素,直接套新的引擎合成?
不介意的话希望能得到详细的情况。这里不会编程所以不用担心套用或者抢创意www
作者: Zleepwalking    时间: 2012/8/28 17:18

vangel 发表于 2012/8/25 19:48
所以声库是已经破解完成了对吗?应该是两个数据表一堆声音档案?拆出来得到双音素,直接套新的引擎合成? ...

不是破解。。。直接大批量合成,a、o、e、i、u这样。。。然后扔到软件里拆帧。。。。。。。。。
有关Rocaloid项目的最新进展,可加qq2657202503或关注我的贴吧ID:Sleepwalking(其实是广告。。。)
作者: vangel    时间: 2012/8/28 22:46

Zleepwalking 发表于 2012/8/28 17:18
不是破解。。。直接大批量合成,a、o、e、i、u这样。。。然后扔到软件里拆帧。。。。。。。。。
有关Roca ...

嗯,多谢www
作者: 晓月斜阳    时间: 2012/9/18 02:26

vangel 发表于 2012/8/18 23:40
先把所有已有的引擎的合成原理和参数的实现方式了解清楚再说这个吧。不然出来又是一个Vocalina。
Y社的整个 ...

其实也没什么,只是年轻时候的一种冲动而已,若然抛开所有资料从头来,那样确实不是可以挑战的事,其实我是在钓鱼中二的技术宅而已~捂脸匿……
作者: 晓月斜阳    时间: 2012/9/18 02:27

hqy123 发表于 2012/8/18 22:48
谁说的,VOCALOID原版一直可以同时在多轨加载多个声源啊,在最初版 2.0.1的时代就可以了 ...

记得初音第一个版本好像不行,可以多轨这个不假
作者: 晓月斜阳    时间: 2012/9/18 02:36

Zleepwalking 发表于 2012/8/25 10:29
嗯 是的
其实这个实现原理很坑爹,不调用Vocaloid引擎,可独立运行。
e是在v2里o的ope拉低调出来的

国产的一些朗读软件里的声源其实也是可以利用的啊,现在我也不懂编程,所以希望你若然有余力可以试试那些中文合成的声源
作者: 晓月斜阳    时间: 2012/9/18 02:40

酆秭君 发表于 2012/8/15 11:51
像这种类型的软件,不管是日本的还是中国的,我都宁可用钞票购买也不愿意在网上免费下载。商业操作能够衍生 ...

其实我想说,钓丝能够生活在天朝还算幸福的,没有download我会活不下去的,而且我确信未来是互联共享的趋势,另外,虽然商业操作是个很好助推器,不过总会有人中二,至少我算一个……
作者: vangel    时间: 2012/9/18 11:10

晓月斜阳 发表于 2012/9/18 02:26
其实也没什么,只是年轻时候的一种冲动而已,若然抛开所有资料从头来,那样确实不是可以挑战的事,其实我 ...

与其说这个还不如去看看中文UTAU现在发展成什么样了,从语音学开始到声学逐个击破,慢慢先把所有引擎啃透吃干净,好吧我承认我做不到……
作者: hqy123    时间: 2012/9/18 11:44

晓月斜阳 发表于 2012/9/18 02:27
记得初音第一个版本好像不行,可以多轨这个不假

因为第一个版本只有,,,初音一个声源可以运行,,,对吧。。。
作者: Zleepwalking    时间: 2012/9/19 10:42

其实当初做这个工程的时候也只是一个中二的设想
后来做了一半了 发现自己很中二,干脆就继续干下去了
P.s.效果还是远不敌Vocaloid啊魂淡。。。发现唱不出韵律。。。
作者: 晓月斜阳    时间: 2012/9/23 00:36

Zleepwalking 发表于 2012/9/19 10:42
其实当初做这个工程的时候也只是一个中二的设想
后来做了一半了 发现自己很中二,干脆就继续干下去了
P.s. ...

其实分析下V的采样跟中科大讯飞的合成朗读音源采样说不定有其他收获,不过抱歉的是我现在不会反汇编和逆向,至于所谓的开源是有原因的,因为以前我曾试图以逆向各种引擎为基础重新设计引擎,由于不是自行开发研究的,所以开源才能对得住良心
作者: 晓月斜阳    时间: 2012/9/23 00:38

hqy123 发表于 2012/9/18 11:44
因为第一个版本只有,,,初音一个声源可以运行,,,对吧。。。

正解了,不过多声部确实亮点
作者: 晓月斜阳    时间: 2012/9/23 00:41

vangel 发表于 2012/9/18 11:10
与其说这个还不如去看看中文UTAU现在发展成什么样了,从语音学开始到声学逐个击破,慢慢先把所有引擎啃透 ...

那样的话调教还是得不到简化的,再者UTAU因为是日语环境下以非unicode字符编码的软件,所以心理上还是有点不太舒服……




欢迎光临 iVocaloid论坛 (http://bbs.ivocaloid.com/) Powered by Discuz! X2