iVocaloid论坛

标题: 用widi等转midi软件的童鞋们 请先来看看这里 [打印本页]

作者: Axiom.Latis    时间: 2011/6/24 00:15     标题: 用widi等转midi软件的童鞋们 请先来看看这里

本帖最后由 Axiom.Latis 于 2011/6/24 00:47 编辑

关于midi是神马的问题 我相信 零さん 已经给了我们各种姿势的普及
链接:http://bbs.ivocaloid.com/thread-74107-1-1.html

他也说了 wav转midi是不可取的
还是看到有一大堆人在使用这些软件

这时候我们便需要了解下这些软件的构造

这时候  鄙人也会从理性的角度来看看音乐  哦不 是波形
说起来 widi神马的都是算是软件嘛  说到底就是yes or no  那么 他们是怎么判断的呢?

这时候俺们来看看波形吧
其实  波形这玩意吧 说起来的确挺复杂的
玩过合成器的孩子们都知道 波形就是由正弦波、三角波、方波、锯齿波等组成的非常复杂的个体

(众小白:虽然不是很明白  但是 好厉害啊!)

咳咳  跑题了
这次的课题研究方向不是合成器  啥子波的就不说了

那么我们来谈论下软件是如何来判断音高的捏?

学过点音频工程的孩子们都知道  决定其音高的key便是最初的频率(就是基频)
打个比方吧:我发现这个波形的最初频率是523.25的时候   哥的第一个想法便是:音高是C5!

学生甲:如果说是最初的话   那岂不是还有其他的?
bingo! 如果一个音色只停留在一个数字上的时候  那岂不是太单调了?!
Baidu IME_2011-6-24_0-5-52.jpg
即使只有一个音色 一个音高 其成分还是很复杂的

这里就要开始谈谈谐波(harmonic)了【重头戏来了!】

图片附件: Baidu IME_2011-6-24_0-5-52.jpg (2011/6/24 00:14, 48.1 KB) / 下载次数 28
http://bbs.ivocaloid.com/forum.php?mod=attachment&aid=NTAyNDN8NjY0N2IxMGZ8MTc1MzQwNjY4OHwwfDA%3D


作者: Axiom.Latis    时间: 2011/6/24 00:16

本帖最后由 Axiom.Latis 于 2011/6/24 00:19 编辑

广告时间:kex订购一套坑爹教程 掺了以后立马学会摇滚!
               龙王订购了一套坑爹教程之后,立马变成了传说中的坑爹少女!
     这么nb,还等什么?!只要998!坑爹教程立马抱回家!
作者: Axiom.Latis    时间: 2011/6/24 00:19

本帖最后由 Axiom.Latis 于 2011/6/24 00:46 编辑

谐波(harmonic)是个物理术语:就是基频的整倍数啦
例子:某音高为100Hz 那么它的谐波就是200Hz、300Hz、400Hz、500Hz······

童鞋乙:那么说某音高是300Hz的话 其谐波就是600Hz、900Hz咯
完全正确!

这里再次复习下(以前的坑爹系列教程有说):
谐波又叫做倍音程    就是一个八度
例子:c5的基频是523.25  那么其谐波便是1046.5Hz、2093Hz····
那么1046.5Hz又是C6的基频  2093Hz是C7的基频
这就是为什么高八度的原因

例子:本人在钢琴窗里面画了一个C5的音高   结果扔到软件里面 神奇了!为什么C6、C7也出现了?!
当然 由于一个音色不只光是由谐波组成的 还是有其他的一些频率组成的   这就造成了我输入了某个音符以后 会发现出现了一团糟的玩意
oh my god!这是神马坑爹玩意!
这就是建议小白们为什么不要用的原因


至于auto-tune  pitcher newtone这些插件会如此nb捏 能准确的分析出其音高?!
这是要看其相对性的  虽然各大厂商们对自己旗下产品不断优化  还是仅限于灰常安静的场合

就像人声轨除了人身就没了一样  这样 插件才能精确扫描
如果我们把一首已经缩混好的歌(里面有吉他、人声、鼓啥的)
插件也没辙了

好吧  就先说到这里吧    好好练习自己的狗耳吧   靠软件也没用
实在没毅力的就可以别碰po啥的了  碰了也没用~赶紧洗洗睡吧
作者: tumuyan    时间: 2011/6/24 01:17

按照某人所知,音色就是由谐波决定的啊,求讲解“其他的一些频率组成的 ”是怎么一回事(这货是纯种工科生)谢谢。
其实Axiom.Latis你是在蓄意打击人呢对吧。某人坚信只要有更精确的理论模型更好的算法,人类所能机器便可做到,人类所不能机器亦可为之。
所以才学v,所以才学AI,所以才相信啊。
作者: Axiom.Latis    时间: 2011/6/24 04:49

本帖最后由 Axiom.Latis 于 2011/6/24 07:14 编辑

回复 4# tumuyan


    恩 谐波是没错
这么说吧   C5这货的音高是523.25Hz 它的第一谐波就是1046.5  对吧
那你说说看523.25Hz到1046.5Hz之间就没有能量了么?
有的!不仅如此 第二谐波到第三谐波之间也是存在的  只不过能量很少而已 但不是没有
因为这些很难说清楚 所以我用了“其他的一些频率” 哎 你就认为是杂波吧···

软件就是死在这里 由于声波的一些特性(声波也有疏密之分 你身为纯工科应该懂得)
能量集中在谐波上  软件会把其谐波误认为是一个新的基频 做出判断
01.jpg
软件就是会误把图片中除了第一个以外 其他的有尖尖角的小波波作为新的音高来计算

唯一的解决途径就是:固定基频的振幅(就是音量)其余的 都默认为谐波 简单理解的话 就是midi力度都为100 其他pass
这样的话  准度就能100%了
不过  可能么  
人声就是多变啊   就拿初音来说吧 有个东西叫十参嘛
按照我前面说的解决办法的话   扫的也不会准确的(指动过参数的 尤其是DYN)

所以说  死了这条心吧

图片附件: 01.jpg (2011/6/24 04:55, 10.79 KB) / 下载次数 32
http://bbs.ivocaloid.com/forum.php?mod=attachment&aid=NTAyNDR8NGQ3NzkyMmF8MTc1MzQwNjY4OHwwfDA%3D


作者: Axiom.Latis    时间: 2011/6/24 05:08

本帖最后由 Axiom.Latis 于 2011/6/24 07:09 编辑

回复 4# tumuyan


我根本就没有打击你的意思=。=   
音乐靠的大部分还是感性  虽说音频工程师是感理性并存
你想想  在挑选监听耳机的时候  你是会去先听一遍捏  还是光看数据呢?
不过说起来  真的很高兴捏 对这篇垃圾教程有任何的疑义 比那些只看不说的人强多了
作者: tumuyan    时间: 2011/6/24 16:27

C5这货的音高是523.25Hz 它的第一谐波就是1046.5 对吧
那你说说看523.25Hz到1046.5Hz之间就没有能量了么?
有的!不仅如此 第二谐波到第三谐波之间也是存在的 只不过能量很少而已 但不是没有
因为这些很难说清楚 所以我用了“其他的一些频率” 哎 你就认为是杂波吧···

这个原以为没有呢

能量集中在谐波上  软件会把其谐波误认为是一个新的基频 做出判断
把图片中除了第一个以外 其他的有尖尖角的小波波作为新的音高来计算
唯一的解决途径就是:固定基频的振幅(就是音量)其余的 都默认为谐波 简单理解的话 就是midi力度都为100 其他pass  


这是一种算法,但是公司开发的一款商业软件产品绝不会止于此。(你所指出的方法甚至没有考虑同时有多个乐器在演奏,不是吗)如果依靠一个庞大的频谱关系表呢。我相信人可以忽视的,算法也可以忽视,总有这样一天的。

误判是有的(人耳不也有误判吗),但是程序会伴随着算法和模型的发展,误判会越来越少的,甚至最终多数人会完全依赖于程序。
正如杀毒程序,从特征码扫描文件到监控程序动作,监视文件名的方法都被使出来了,这是十年前不可思议的事情吧。



至于打击,随意啦。总有些解读是可怕的。
关于挑耳机不只是看参数,有详尽参数不易于简单测量的原因,(标出来的参数与技术算什么呢,更本不了解啊)对吧。
作者: Axiom.Latis    时间: 2011/6/24 20:43

这个原以为没有呢

   

这是一种算法,但是公司开发的一款商业软件产品绝不会止于此。(你所指出的方法甚 ...
tumuyan 发表于 2011/6/24 16:27



    哎呦喂  我的大哥诶   我想问你下 那些商用的插件  定位是什么
就拿目前的混音来说吧   30轨左右 每样都是分开来的(包括人声)  目前插件的能力对于混音师来讲就足够了  新出来的几个音高插件走的都是创新路线  不会在这方面深入了
那么更复杂的算法有什么用捏?

即使某公司想做  但是由于目前音高插件够用  没有吸引人的地方的话  做出来也是鸡肋 肯定没市场

最后提醒你一下:别指望科技了  科技虽然发达  但是前提是有需求 有客户(就是有钱赚)
那种插件出来也是为你们这种人用的    但是想想   你们会掏钱买么   这年头VST挺贵的(700块钱一个)  国内用户最多的audition 掏钱买的有几个?!
你们不掏钱  就别指望能出来
我不想多说了   以上
作者: tumuyan    时间: 2011/6/25 01:23

…怎么说呢,许多技术终究是烂死在试验阶段了,“有需求 有客户”并不完全是商业公司投资进行研究的原因。被放弃之前或者会被开源了,或许会时隔多久以另外的方式复活。
的确有些东西是缺失商业价值的,但是探索世界认知世界利用世界是不是属于人的本质呢。在此范畴,即可期望。
“你不掏钱 ,就别指望出来”是不是和“看盗版者无权写书评”一样呢。为什么存在着破解呢,是让所有当代人即使囊中溃乏也有机会享受这个时代吧。
觉得某人毫不可爱吧,于是对话以此为终了。
谢谢。
作者: Axiom.Latis    时间: 2011/6/25 08:33

回复 9# tumuyan


    哎   你这么一说 我倒是想起了yamaha当初的ns10s
出来不出来  随他了~
嘛  别纠结在这方面  真要是闲的蛋疼就去研究下共振峰吧  这个比较实在
作者: 環音リオ    时间: 2011/7/9 03:40

理论上软件是可以正确计算出音高的,因为人耳可以做到。仿生学为我们带来了很多好处。。。(喂。。。)
不过目前还是技术瓶颈了。。。




欢迎光临 iVocaloid论坛 (http://bbs.ivocaloid.com/) Powered by Discuz! X2