iVocaloid论坛

标题: 【建议】UTAU社区与重复发明轮子 [打印本页]

作者: Zleepwalking 时间: 2014/11/12 14:39 标题: 【建议】UTAU社区与重复发明轮子

（这篇文章完全基于我的个人观点，不代表Rocaloid开发组的立场。）

UTAU是一个在歌声合成领域很有建设性的软件，它的开放架构促进了一个活跃的用户社区的形成，并鼓励用户进行相关的探索和尝试，这无疑是值得肯定的。但是，请允许我指出UTAU社区一直存在的一些问题，这也是同类软件（包括Rocaloid）的用户群体的问题。

我观察到UTAU社区提出过许多歌声合成相关的概念（例如“连续音”、“syo/B-HM/芳梅式”、“多音高”），然而这些概念早在十几年前就有人提出过。

这个请求看上去是很滑稽的。作为歌声合成软件的开发者，我的义务是提供给用户最好最易用的软件（“客户是上帝”），而不是去给用户挑错。但是上述问题的确造成了用户的大量重复劳动。鉴于此类软件的发展现状，我们很难将理论基础和操作方式分离（这也是我们的目标）。因此为了UTAU社区在未来的良好发展，我有必要明确指出这个问题，并提供可能的解决方案。

好在UTAU社区的用户构成比较清晰。除了负责调教的最终用户外，还有音库制作者，录音表设计者，以及合成引擎（resampler, wavtool）和工具的开发者，有时一人身兼多职。如果能让最终用户和音库制作者更方便地使用软件、创作出更高质量的作品，我认为适当地让后三种用户学习一些相关知识是非常有价值的决策。

进入正题

可以理解许多用户并未听说过在语音信号处理领域的一些学术研究，因为我曾经也是如此。直到开发Rocaloid将近两年后我才知道在这个领域早就过有大量的研究、专门的期刊和会议、各种引用量上千的出版物、丰富的资源和工具……如果我们不站在巨人的肩膀上，在前人的研究成果的基础上前进，那么重复劳动是必然的——我在2013年6月前写过的两万余行代码因此完全作废了。

事实上我不完全确定UTAU录音表的设计者是否参阅过某些文献（从引用的缺失推断出的结论）。接下来我的言语可能会冒犯某些设计者，但不知者无罪，我没有贬义，只是期望我们能多了解一些知识。

前面已经提到了UTAU普通话音库存在多种录音方案。然而在2005年，有一篇论文总结了三种常见的普通话语料库方案：

According to the aforementioned, we summarize the design rules as follows:
1. Cover all syllables (in Mandarin, there are about 411 base-tone syllables.)
2. Cover all coarticulation between any two syllables.
3. Cover as many various pitch levels and durations for each syllable as possible.

With the above rules, we have three corpora: single-syllable-based corpus (SSC), coarticulation-based corpus (CC), and songs-based corpus (SC).

(Lin, Cheng-Yuan, Tzu-Ying Lin, and J-S. Roger Jang. "A corpus-based singing voice synthesis system for Mandarin Chinese." Proceedings of the 13th annual ACM international conference on Multimedia. ACM, 2005.)

我自己在此作一个中文翻译：

根据上述提到的内容，我们将设计规则总结如下：
1. 覆盖全部的音节（在普通话中，共有大约411个平声的音节）
2. 覆盖全部的双音节间的协同发音
3. 为每个音节覆盖尽可能多的音高和时长组合

按照上述规则，我们设计出三个语料库：基于单音节的语料库（SSC）、基于协同发音的语料库（CC）、和基于歌曲的语料库（SC）。

事实上SSC相当于UTAU社区给出的“整音”+“多音高”+“多时长”的概念；CC相当于“连续音”的概念；SC则（据我所知）没有明确对应——这是直接从真实歌唱中的片段构建出音库。

更进一步，这篇文章对三种情况分别作了讨论。以CC为例，作者所在的研究组对16232首普通话歌曲中的1337532个音节作了统计，挑选出了715对最频繁出现的双音节进行录音。

这些研究成果很大程度上可应用于UTAU及类似软件音库的录制。而这只是过去几十年间众多相关论文中的一篇。

中研院语言学研究所的郑秋豫博士有许多成果可供参考。她在1998年IEEE ASSP会议上发表的Corpus-based Mandarin speech synthesis with contextual syllabic units based on phonetic properties，介绍了一种FINAL-INITIAL/FINAL-FINAL形式的语料库设计，其实涵盖了UTAU社区的CVVC式录音方案（事实上这种设计最初是她在1995年提出的，但那篇论文已经找不到）。

此外还有Eurospeech 1997上发表的Sentence Design for Speech Synthesis and Speech Recognition Database by Phonetic Rules，亦对普通话的双音子、跨音节三音子、尾音组合概率作了研究，甚至给出的录音数量和CVVC的录音数量呈基本一致。这是在距今17年前，距UTAU诞生11年前。

对于英语和其它语言的相关研究更是数不胜数。我们必须承认这些研究比社区内的业余研究严谨并系统很多，因此值得我们学习。

除了在语料库设计方面，音库制作者和设计者（甚至最终用户）还应当具备一些声学分析（Acoustic Analysis）常识。这在音库的标记（“设置oto”）和调教中尤为重要。应当学习辨识频谱、声谱图，了解音高、响度、能量、共振峰等概念。

UTAU社区中已经存在一些辅助音库制作的工具，例如oremo、setParam。但是在很大程度上这些工具只实现到半自动的音段标记，即需要大量人力操作才能完成音库制作。以Overlap、Preutterance等参数的标记为例，它们自动标记的准确率不够高，这导致音库的制作十分耗时。事实上语料库的自动音段标注是一个持续了大约四十年的课题，在80年代就已经有基于HMM的自动分段算法，能直接从连续的语音中识别并标注音素，准确率达到90%。希望相关工具的编写者能从中学习。

我们甚至不需要专门为特定软件的音库制作专门编写工具：我们可以直接修改现有的工具。例如Praat是一个很好的语音学软件，具有强大的语音分析功能，它内建了脚本功能，可以用Praat脚本语言对其编程，实现复杂的语音分析、编辑。而且它在GNU GPL下开放源代码，这代表在遵循GPL的前提下，我们能修改Praat的代码，赋予它更强大的功能。

好消息是，其中一些技术已经在UTAU社区得到应用。uppslink是一个Praat到UTAU resampler的中间层，它使用Praat自带的PSOLA算法代替原来的resampler实现音高和时长修改；我还看到过使用STRAIGHT算法的resampler实现。但是这些还远远不够，这只是一个开始。

我如何获得这些论文/资源？

Google学术是一个很好的论文搜索引擎，在Google被封的现状下，可以使用谷粉搜搜镜像站（http://www.gfsoso.com/scholar）。部分论文是公开且免费的，能直接从Google学术上给出的链接下载得到；IEEE/ACM/JSTOR/Elsevier/Springer上的都要付费，对于个人研究者价格较高，如果付不起，你可以委托985/211高校的学生帮你获取，或者向论文的作者发邮件请求（请礼貌用语）。

一些有用的链接：
如何阅读论文？ http://www.sciencebuddies.org/science-fair-projects/top_science-fair_how_to_read_a_scientific_paper.shtml
Praat: doing Phonetics by Computer http://www.fon.hum.uva.nl/praat/
Speech at CMU http://www.speech.cs.cmu.edu/
CCRMA at Stanford https://ccrma.stanford.edu/
Music Technology Group at UPF http://mtg.upf.edu/
Wikipedia-Phonetics http://en.wikipedia.org/wiki/phonetics

...华侃如（"Sleepwalking"）

作者: 淑蝶 时间: 2014/11/12 16:12

=口= 楼主！不管怎么说！我相信！你都能做出！掉渣天的！引擎来的！

作者: rgwan 时间: 2014/11/12 17:39

火前留名~

作者: Maczly 时间: 2014/11/12 18:09

啥也没看懂= =

作者: HideshimaIori 时间: 2014/11/16 10:32

楼主一定非常恨UTAU及其使用者【。
既然这个软件及其用家都像你说的那么烂那干嘛不开发好自己的软件再来
RUCE的不拆音调教实际上已经有presamp做到了，现在在这里说完全不productive
自动识别和标记音素据我所知也已经有UTAU用家在进行这个课题，其中也有语音学研究者
你自己说你没有贬义，但是全篇都充满了“人家早八百年都想出来了，你们还在这儿想破头，真无聊”的优越感和冒犯哦

作者: rgwan 时间: 2014/11/16 23:43

HideshimaIori 发表于 2014/11/16 10:32
楼主一定非常恨UTAU及其使用者【。
既然这个软件及其用家都像你说的那么烂那干嘛不开发好自己的软件再来
RU ...

我认为这位同学是戴着有色眼镜看问题，如果这篇文章不是sleepwalking发的，你的第一反应是什么？
关于utau，我个人的意见是我们应该站在巨人的肩膀上，尽量借助已经有的，安全的，简便的技术来提高歌声合成软件的合成质量(注意以上的论文在通用领域应用了多少年！)。而不是去贬低别人查阅论文后得出的结论。如果UTAU社区能够存在更多的语音学术人员对此进行研究的话，我有理由相信utau能做的更好。但问题就是这么多年来，通用领域的技术在utau上的应用非常少。比如说用praat做标记一类的东西，这实现难度并不大，但是却一直没人做出来，这值得你们好好思考。

作者: rgwan 时间: 2014/11/16 23:58

HideshimaIori 发表于 2014/11/16 10:32
楼主一定非常恨UTAU及其使用者【。
既然这个软件及其用家都像你说的那么烂那干嘛不开发好自己的软件再来
RU ...

为什么UTAU中连续音一类的概念被提出的时间也算比较久了，可是至今都没有人做自动识别？要知道早就有了praat这类软件用于识别，并且它是开源的，也预留了接口。做语音学术研究这块的几乎都知道这个软件，为啥就没人依靠它做音库识别与标记？
为什么UTAU中时域拼接已经出现不合理的情况了，就是没人修正？
这些问题难道不值得使用者好好思考吗？！
我认为你最好不要一上来就攻击别人。别人说的对，你就应该听取，而不是喷别人怎么怎么秀优越感。这篇文章中我并没有看到LZ的所谓优越感的体现，但是从你的回复中，我看到的是你的心虚。只有心虚的人，遇到了别人提出的反对意见，才会认为别人在刺激他，在秀优越感。而且你又不是UTAU的开发者，你为UTAU呐喊彷徨的时候，你为UTAU这个软件的进步做出了贡献吗？！(我承认我没有)
(刚刚我的言论可能比较偏激，请批判处理。而且我的发言和我所在团体没任何关系)

作者: Zleepwalking 时间: 2014/11/17 13:47

rgwan 发表于 2014/11/16 23:58
为什么UTAU中连续音一类的概念被提出的时间也算比较久了，可是至今都没有人做自动识别？要知道早就有了pr ...

……人家爱怎么评论就让人家怎么评论吧，这事和你又没关系。
另，我已经表达了我的观点，别人怎么看就不关我的事了。

作者: HideshimaIori 时间: 2014/11/27 05:53

rgwan 发表于 2014/11/16 18:43
我认为这位同学是戴着有色眼镜看问题，如果这篇文章不是sleepwalking发的，你的第一反应是什么？
关于uta ...

Since when我贬低他查论文以后得出的结论了……我只不过反感一下他讲解这个结论的方式而已，至于攻击别人那更是你脑补的咯～还扣大帽子说我心虚，我倒是蛮好奇我虚啥
的确楼主所提的这些结论在通用领域应用了很久，但是UTAU是08年才由日本人出来的，被拿来弄中文更是时间很短。软件开发者主要是日本人+中国在搞UTAU中文的基本上都是非专业人士，加上早些年的网络环境也不一定能像现在接触到这么多资源，会有局限性、会走弯路不是很正常的么？这个道理又不难懂，你想马克思再牛逼也不能跟恩格斯发微信讨论问题嘛——哪有必要像上一篇和这一篇一样的讲话？
要是心平气和地说，现在有一些这样的结论，而这些结论可以让UTAU合成效果更好，什么的，谁也不会觉得是秀优越～一上来就“这些理论早已有人提出过”不仅没有意义而且也让语气看起来不是很好，根本没必要嘛

作者: HideshimaIori 时间: 2014/11/27 06:04

rgwan 发表于 2014/11/16 18:58
为什么UTAU中连续音一类的概念被提出的时间也算比较久了，可是至今都没有人做自动识别？要知道早就有了pr ...

这个……您的发言再度让我怀疑这个团队中的人有没有好好用过UTAU……而且我何时呐喊彷徨了，我不就是个小用户你不要这样抬举我……
不过你自己都说比较偏激了，never mind
自动识别的话日语倒是早就有人做过了，中文比日文复杂得多所以弄起来会难得多，前面也说了UTAU被用来做中文时间不久，用家也大部分是非专业人士，所以会是现在这么个状况
目前已经有业余做语音学术研究的人在弄中文的自动识别了，而且弄了有好一阵子（好像是今年初开始的？我没全程跟进），所以不像你说的至今都没人做哦，只是你不够了解而已~
（我想专攻语音学的那些人要搞也都在搞V，还看不上UTAU这种个人制作的民科玩意吧……sigh）
如果你们这个团队能做出针对中文的优秀合成工具当然很好，我作为一个小用户也很期待（目前的vocaloid中文和袅袅都差强人意，最近的muta还没出最终成品），不过我真心建议像主贴这种话还是留到有成品出来再说

欢迎光临 iVocaloid论坛 (http://bbs.ivocaloid.com/)