ボカロ楽器 - すべての人が歌えるために

声が出せない---そういう方は少なくないのです.病気などで声を失った方のつらさは本当に切実だといいます.
そういった方にも,話せる,歌える喜びを届ける---これは音声・歌声合成技術の使命の一つといっていいのではないでしょうか.その究極のゴールは,支援の存在を意識せず,自分自身で発声しているかのように感じることでしょう.
そこで,素人なりに,いくつかのことを調べたり考えたりしてみました.まず,現状がどうなっているのか,何が課題なのか調べました.つぎに,「究極のゴール」を実現するために必要な要素技術はどこまできているのか調べて考えました.「何と発声したいと念じたか」を取得すること.声の高さ,音量,声色を特定すること,その人の個人特徴を再現した音声を合成すること,の3つの観点をとりあげました.

現在,声帯を失ったあとの発声の方法はつぎのようなものがあります.口腔の動きは保存されますから調音は可能で,声帯の代替を実現できれば発話が可能になります.
無喉頭音声のいろいろ
食道からの空気流(いわゆるげっぷ)を用いる発声.電子機器で外から振動を与える発声,手術でシャントを設置する発声などがあるようです.それぞれの短所としては,食道による発声は習熟に時間がかかり,シャントの設置には手術が必要で身体に負担があります.電子機器で加振する方法は簡便ですが,音声が機械的で明瞭度も低いのが短所です.
そうすると,装着する方式で,すぐに習熟でき,従来に比べ明瞭度が高く自ら発声しているような自然さがあることが課題ということになります.

これを踏まえると,「究極のゴール」にむけては大きく二つのアプローチがありそうです.現在主流の,声帯に代わる振動を外部から印加し自身の調音器官で調音するアプローチと,声帯振動・調音とも電子装置で代替するアプローチです.

前者については電気式人工喉頭が市販されています(例:ユアトーン).明瞭度の改善に向けては,いかに外部からの加振によって,もとの声帯の振動と同等のパルストレインを発生できるかが課題です.機械式の加振であってもより効率のよい方式がないか.あるいは,たとえば電磁的な方法(スピーカの原理)で外部から内部に振動を発生できないか.といったことが考えられると思います.また音声が機械的である点については,すでに声の高さをダイアルで調整できるなどの改良があるようですが,さらに筋肉の緊張をセンシングしてそれに応じて音高・音量を制御するようにすることが考えられると思います.
そういえば,かつてギタリストのエフェクタで「トーキングモジュレータ」というのがありました.(トーキング・モジュレーター, wikipedia)これは口腔の共鳴で母音らしさをつけられる程度のようですが.外から振動を与え口腔共鳴で音声に近づける点では仲間ですね.
では後者はどうかです.このエントリでは,ボカロをはじめとする音声合成技術の応用のほうを考えたいという趣旨ですので,こちらを考えていくことにします.「何と発声したいと念じたか」を取得すること.声の高さ,音量,声色を特定すること,その人の個人特徴を再現した音声を合成すること,の3つの観点をとりあげます.

「何と発声したいと念じたか」の取得は難しい課題のようです.脳波で思考を取り出す方法,口と喉の筋肉の動きの指令を取り出す方法,母音・子音といった音素のレベルで取り出す方法,の3つを考えてみます.
まず,脳波で思考を取り出す方法については,速度・精度の点でまだ現実的ではないようです.脳の中で,口腔の動きをつかさどる領域は広大で,きわめて細やかでかつ高速なコントロールがなされて人の音声は発せられています.脳波計測では,脳内に電極を埋め込む方式で義手を動かすことが実現していますが,頭皮に電極を接触させる方式では,興奮したか沈静状態かを分単位で捉える,あるいは期待していた概念(文字,音など)が出現した直後に現れるP300を捉えることができる程度で,発声の制御の信号はもちろん,発音したい音素でさえ,通常の発話の速度で取得することはまだできないようです.
つぎの,口と喉の筋肉の動きの指令を取り出す方法については,筋電計測ということになります.この電位は脳波による電位の数十倍から数百倍もの強さがありますが,これでさえ皮膚に電極を接触させる方式では安定した信号を得ることは難しく,これを正確にセンシングし,発声器官の形状変化と管内の空気振動をを計算機上でリアルタイムシミュレーションして音声波形を生成することはまだ手ごわいでしょう.
すると,母音・子音といった音素のレベルで取り出す方法のほうが,多少でも現実的ということになります.そのアプローチとして,あくまで口の動きから拾うか,別の経路から拾うかがあります.
口の動きから音素を同定するとすれば,センサや画像認識によりあごの開きや唇の動きをとらえる「人工読唇術」が考えられます.しかし画像認識には遅れと誤認識がつきまとう難しさがあります.
すると別の経路を考えるほうが現実的です.もっとも有望なのは,口腔と同様に細かく高速に制御ができる「手指」を経由することです.すなわち,楽器を演奏するように,手指で装置を操作して音素を指定するわけです.この発想は自然なもので,すでに数多くの方法が考えられているようです.もっとも有名なものはこれでしょう:
フォルマント兄弟 Official Web
「兄弟式リアルタイム音声合成演奏システム」の概要と背景
また3年前にはヤマハからこんな試作機が発表されています.左手で音素を指定しています.
ライブ歌唱できる「VOCALOID キーボード」をYAMAHAが学会発表 (動画) (2012年3月22日 Engadget Japanese)

このエントリのトピックからは少し離れますが,音素をその場で指定するのでなく事前に用意しておき,「その歌詞のどこか」を判別する方式として,2014年8月に音楽情報科学研究会でこのような発表とデモもありました.
LiVo!PROJECT(yamo様)
また,事前に用意した音素列をトリガーによって順次発音していくものは,われらがポケットミクはじめ,幼児用玩具などたくさん販売されています.

つぎに音の高さについてはどうでしょうか.前述のVOCALOID KEYBOARDは鍵盤ですが,,,どうでしょうか,ピッチの指定は連続性が必要ですから,別のアプローチもありそうです.電気式人工喉頭は最近ではホイールでピッチをつけられるようになっています.ユアトーン(電気式人工喉頭)(ユアトーンII UB).ポケットミクは鍵盤の上部の領域を使って連続ピッチ指定ができます.これでたくみに発話のイントネーションを表現している人もいることでしょう.さかのぼるとテルミンは装置のアンテナと手の位置でピッチを制御していました(かなりの熟練を要したようですが).さらにいえば,バイオリンで発話のイントネーションをまねる芸人も昔いましたし,いやいや,そもそも,中国の楽器アールフー(二胡)は,人の歌声に聞こえるように演奏を修練するのです.ホイール,弦,空間の位置.そういった連続量を指定できる手段が,声の高さ指定には相性がいいのでしょう.
声帯を制御している筋肉は,出たピッチをきいて目標ピッチにいくよう調節がかかる,フィードバックシステムになっているそうですから,筋肉の信号をとらえて装置のピッチを定めるようにすると,新たなフィードバックが形成されて,人間が狙ったピッチを機械に出させることができるようになるかもしれません.

つぎに音声の個人特徴を再現するところはどうでしょうか.ボーカロイドの場合,今のところデータベース制作にはあらかじめ本人が決められた呪文を大量に読み上げて録音する必要があります.Hideの場合は残されたボーカルのトラックから使える部分を集めて手作業で部分的なデータベースを構築し,大変な時間がかかったそうです(故人hide"幻の新曲"はこうして生まれた ヤマハ技術者が制作秘話を明かす/<視線の先>インタビュー).
本人の声が十分残されていない場合には,「別に録音した似た声と,用意できる本人の声(一部)を比べて補正のパラメータを求め,そのパラメータで,似た声データ全体に補正をかけて,本人の残りの声を用意する」というアプローチがなされるようです.少し前には植木等さんの歌声の再現( 「植木 等」を蘇らせた「ウエキロイド」、その可能性, 2011年12月22日 WIRED.jp) がありました.
また,声を失った方のための発話システムとして有名なこちらの研究も,基本的な発想は近いようです:「失った声を取り戻す――「ボイスバンクプロジェクト」の挑戦 山岸順一 / 音声合成(2015年4月9日 SYNODOS)」 10分ほどの声のデータがあれば,そっくりの声を作れるそうです.そういえばSinsyで初音ミクの声を真似た研究発表もありました.これも同様の手法なのでしょう:

以上,音素入力手段,ピッチ入力手段,合成系の技術を俯瞰してみました.いずれにも難しさはあり,冒頭に述べたような理想のシステムの実現は容易ではありません.さらに,これらを組み合わせても,声が出てくるまでの時間がほとんど気にならないぐらい高速でなくてはなりません.これまた大変な課題です.

Asahiパソコンがヤマハに問い合わせた記事が出ています.
つんく♂に朗報! ボーカロイドで歌声再現、新曲もできる! ヤマハ「技術的に可能」
確かに技術的には不可能ではないけれど,その場でどんな言葉でも発することができるという装置はまだまだ,というのがスタディーしてみた印象です.
しかし.アポロ計画がそうであったように,壮大な目標をかかげてこそ,技術者・研究者はその実現にまい進するものなのです.誰もが直面しうる「声を失う」事態---そんな事態に,歌声合成技術で世界をリードする日本が,それもアカデミア,産業界,さらには無数の意欲あるホビーストまでもがネット上で力をあわせ,世界に先駆けて「すべての人が歌える」楽器を作り上げられたら....そんな気持ちをいだいたこの一週間でした.
スポンサーサイト

コメント

非公開コメント

プロフィール

zhuo

Author:zhuo
zhuo, a vocaloid fan.

最新記事
最新コメント
最新トラックバック
月別アーカイブ
カテゴリ
FC2カウンター
検索フォーム
RSSリンクの表示
リンク
ブロとも申請フォーム

この人とブロともになる

QRコード
QRコード