vocalistener_自动测定用户歌声的语音合成参数的系统

vocalistener

自动测定用户歌声的语音合成参数的系统

VocaListener是一个自动测定用户歌声的语音合成参数的系统，可以简单地把输入的歌声转换成另一种风格或声质的技术。技术分为三部分：一是合成歌声模仿目标歌声的核心技术“VocaListener-core”，二是编辑目标歌声的技术“VocaListener-plus”，三是分析歌声的技术“VocaListener-front-end”。主要由中野伦靖和后藤真孝参与研究，先后以VOCALOID 2的初音未来、镜音铃、连、GACKPOID和VOCALOID的MEIKO、KAITO作研究测试，而音乐采用RWC研究用音乐数据库（流行音乐）（RWC-MDB-P-2001）。

历史

技术早于2006年8月已进行研究。最初于2008年4月28日公开，于NICONICO动画上载音乐软件初音未来版本的《PROLOGUE》，歌曲原唱为声优绪方智美。但最初只是写作简称“ぼかりす”，并没有正式发表技术，是一个试验性质的公开。当时正值初音未来热潮后不久，其极为自然、非常接近人类的歌声大大超越初音未来平常歌曲的水准而被称为“神调教”（把初音未来的歌曲调整得十分自然之意），更引起一段短暂对新技术真相的猜测。同年5月2日承认“ぼかりす”就是VocaListener。在5月28日的第75回音乐资讯科学研究会正式发表。6月6日再公开镜音铃版本的《Game of Love》，歌曲原唱为吉井弘美。9月22日再同时公开KAITO、MEIKO、初音未来、镜音铃、连ACT2、GACKPOID和合唱版本的演歌《大渔船》，2009年2月6日再公开巡音流歌的版本，歌曲原唱为西一男。4月27日开始Yamaha的“Netぼかりす”Alpha版测试，只提供部份功能。

技术

系统先以VocaListener-front-end分析目标歌声和歌词，辨认音高、音量、歌词等，再由用户以VocaListener-plus编辑修正，其后以VocaListener-core分析歌声并加以合成，反复测定音高、音量、歌词等的相似度，由用户加以微调，最后得到合成歌声的参数。

VocaListener-core

这是合成歌声模仿目标歌声的核心技术，由歌声分析、歌声合成、反复的合成参数更新三种要素组成。歌声分析的对象不止目标歌声，亦会对合成后的歌声作出分析，但分析的使用技术Viterbi alignment会有辨认错误的问题，需要反复分析，务求两者的风格尽量相近。判定音高分为MIDI的音名数值和滑音斜率。在音名数值中，组合VOCALOID 2滑音斜率（PIT、Pitch Bend）和滑音斜率敏感度（PBS、Pitch Bend Sensitivity）最多可以做出高或低两个八度的滑音，而音名数值由以下数式选择（NoteNumber：音名数值、σ=0.03、t是音符长度。）：

而合成歌声是

而音量测定上是使用相对数值，反复测定而得到从0至127的强弱（DYN、Dynamics）数值。

VocaListener-plus

这是编辑目标歌声的技术，可以令歌声有更广阔的种类，但并非一定要使用。技术中分为两种类，分别是改变音高和改变歌唱风格的机能。前者的改变音高，用途可以是修正走音，或可以合成原唱者不能唱出的音高。然而在音符较短的时候，可能会不能修正音高。后者可调整振音的强弱、音高、音量的平滑感，藉以改变歌唱风格，甚至加强歌唱的表现。

front-end[

VocaListener-front-end则分为歌声分析及歌声合成，在歌声分析中需要从原歌声中抽出音高、音量、发音开始时间和音长。

音高

由以下数式转换为MIDI的音名数值（fHz：基本频率、fNoteNumber：MIDI的音名数值）：

音量

由以下数式计算（N：窗幅、x(t)：声音波形、h(t)：窗函数）：

技术中N为2048（约46毫秒）、h(t)为汉宁（Hanning）窗。

发音开始时间和音长

使用Viterbi alignment辨认音声，再从歌词转换为音素，但偶然会有辨认错误，需要用户修正。

参考资料

最新修订时间：2022-08-25 16:00

条目作者

小编

资深百科编辑

概述

历史

参考资料