初音ミクを生んだ“革命的”技術を徹底解剖!ミクミクダンス、音声、作曲…
#初音ミク
サイゾーのニュースサイト「Business Journal」の中から、ユーザーの反響の大きかった記事をピックアップしてお届けしちゃいます!
■「Business Journal」人気記事(一部抜粋)
「六本木襲撃事件」「AKB児童ポルノ騒動」の正しい読み方
大手電機A社、下請けいじめ、代金踏み倒しの実態…元取引先社員が語る
プレモル、ラガー抜きトップへ 明暗分けたビール各社の販売戦略とは?
■特にオススメ記事はこちら!
初音ミクを生んだ“革命的”技術を徹底解剖!ミクミクダンス、音声、作曲… – Business Journal(1月16日)
ボーカルシリーズ01 初音ミク』
(グッドスマイルカンパニー)
こんにちは。江端智一です。
台詞が聞き取れない高速のアップビートを、見事なリズム感とダンスを伴いながら完璧に歌い切る、天才パフォーマー(歌手)。サイリュウムを振り回して、「愛しているよー」と絶叫する、興奮した聴衆……
コンサートとは、非日常を体現するリビドー放出の場であり、それは単なるCDやDVDの鑑賞では得られない、生きた(ライブ)の「場」の共有にこそ、その価値があります。しかし私は、そのコンサートの会場の映像をYouTubeで見ながら、人生最大級の驚愕と恐怖の中にありました。
そのパフォーマーとは、比喩でも例えでもなく、まぎれもない「コンピュータプログラムのアウトプット」そのものだったからです。聴衆を熱狂させている、その天才パフォーマーは16歳の少女ーーの姿で、透過型スクリーンに投影される、3Dポリゴンのコンピュータグラフィックスだったからです。
それが「初音ミク」と私の、最初の出会いでした。
私は、初音ミクについて、かなりの時間をかけて、書籍やインターネットで調べ始めました。そして、いつもの通り「今回もまた面倒くさいものに手を出してしまったなあ……」という後悔の気持でいっぱいです。初音ミクは単なる技術でもなければ、一過性のブームでもない。パラダイムシフトという言葉でも足りず、あえていうのであれば、「コンピュータと人間のインターフェース革命」と表現してもよいのかと思っています。
そもそも、コンピュータというのは、基本的に人間の能力を越えるものではありません。手書きとワープロソフトの差も、ソロバンと計算表ソフトの差も、絵の具とプレゼンテーションソフトの差も、所詮は人間よりもアウトプットが「早い」「安い」「大量」という定量的な差異でしかないのです。
しかし今や、コンピュータのアウトプットそのものが、人間を感動させる時代に突入したのです。これは、まさにコンピュータ側から人間側への、コンテンツの逆流といってもよいかと思います。まさに「インターフェース革命」といっても過言ではないでしょう。
このような、壮大なテーマを書くのは、正直、憂鬱です。
私は、エンジニアですので、「技術」を解説することはできますが、「文化」を解説する経験もスキルもありません。そして「文化」は、取り扱いが面倒な上、その解釈が人間の数だけ存在するからです。
「こりゃ、書き方によっては、カルトなファンに殺されるかもしれんな」と、私はテロの襲撃までも覚悟しています……
前置きが長くなりましたが、今回は2回に分けて、「ボーカロイドと初音ミク」について書かせていただきたいと思います。前編では、「ボーカロイド」初音ミクの定義とそれを実現する技術を、後編では「ボーカロイド」の「How to make(つくり方)」などを、関係者へのインタビュー内容と併せて、ご説明させていただきます。
●「ボーカロイド」の定義とは?
さて、本稿で使用する用語の定義をしておきたいと思いますが、これが結構大変です。
まず、「ボーカロイド」とは、私が調べた限り、現在、以下の3つの意味で使われているようです。
(1)歌唱をつくるソフトウェア名(歌声をつくり出すことができる、ヤマハ株式会社が開発したパソコンソフトの名称)
(2)そのソフトウェアを使って創作された歌
(3)上記(2)の歌を歌うキャラクター
これだけバラバラのものを、どうして「ボカロ」という言葉で、混乱なく併存できているのか不思議なのですが、本稿では、「(2)そのソフトウェアを使って創作された歌」
と暫定的に定義して使用します。
次に、初音ミクです。初音ミクとは、クリプトン・フューチャー・メディアから発売されている音声合成・デスクトップミュージック(DTM)ソフトウェアの製品名、およびキャラクターとしての名称です【註1】
わかりにくいので、私なりに、エンジニアとしての定義を試みます。
初音ミクとは、
(1)コンピュータによって作成されたメロディを伴う音声と、
(2)コンピュータによって作成された人間のように動き踊る映像とからなる、
(3)「歌手」という設定のキャラクターで具現化される、マルチメディアのコンピュータ出力の一態様であって、
(4)コンピュータ等によって作成された音楽と併せて表現されるもの
と定義できると思います。
つまり、初音ミクとは、
(1)コンピュータがプログラムに基づいて行った演算結果を、
(2)マルチメディア(音声と映像)に変換して、
(3)デバイス(ディスプレイとスピーカ)にアウトプットしたもの
にすぎません。
なお、この初音ミクと同じ態様のアウトプットとして、現在36のキャラクターが存在しています。初音ミク「鏡音リン・レン」「がくっぽいど」「巡音ルカ」など、12年12月の段階で私が確認した範囲で、36あります。(以下、初音ミクは、これらのキャラクターの総括名称として扱います)
つまり「『初音ミク』とは、『映画』の一態様にすぎない」ーーこれで正しいはずです。
このようなメディアは、別段目新しいものではありません。アニメや映画も、つまるところ上記の定義で説明できます。
しかしこの説明では、単なる映画にすぎない初音ミクに対して、なぜ「愛しているよー」と絶叫する、興奮した聴衆が存在するのか? をうまく説明できません。
そこで、このテーゼに対して、技術面からのアプローチと、心理面からのアプローチを試みます。
●初音ミクを支える技術
まず、初音ミクをつくり出す技術について説明させていただきます。
<第一の技術:歌唱音声技術>
歌唱音声技術とは、初音ミクに歌ってもらう技術です。この段階では、初音ミクの独唱(ソロ)をつくることになります。初音ミクが踊っている姿も、楽曲の演奏も生成されません。
特許庁の検索エンジンで、「ヤマハ」「音声」で検索をかけたら、ボーカロイド技術に関する発明は5つありました。注目すべきは、「特許公開2002ー202790 歌唱合成装置」であり、これこそが、現在の初音ミクを成立させる技術と考えられます(2008年1月に日本国の特許権が成立済み)。
初音ミクの歌唱は、コンピュータがつくる声ではなく。現実の人間の声を使って生成されています。具体的には、生の人間の音声をバラバラにパーツ化して、データベース化してあらかじめ保存しておきます。そして、初音ミクに歌わせる時に、それらのパーツを素材として使って、再構成することで「歌」をつくり出すのです。この発明は、それらのパーツを連結する時に発生する「不自然さ」や「ノイズ」を除去するという技術に特徴があります。
この技術は、現実の人間の音声を「絵の具セット」のようなものとして保存しておき、歌唱をつくる時に、パレットの中でそれらの色を混ぜて、無数の色をつくり出せるようにして、カンバスの上に自由に絵を描けるようにしたもの、という理解でよいと思います。
初音ミクの「声の絵の具」は、藤田咲という声優さんによって提供されています。しかし、その「声の絵の具」の種類が半端ではありません。なんと500種類(英語だと2500種類)もあるのだそうです。
その「声の絵の具」の収集は、相当大変なものだったと推測されます。「あ、い、う、え、お」というような単純な単音の録音では足りず、二音素連鎖というものも必要になるからです。例えば、一般の人は、子音の次に母音がくるような音を発音できません。「た」は「tーa」ですよね。では、それを逆にした「aーt」という音をイメージできますか?「あーた」(「aーtーa」)ではありません。「aーt」です。今では、三音素連鎖という音まで収録して保存しているのだそうです。音声を提供された藤田咲さんの苦労は、かなり大変だった推測されます。
また、「がくっぽいど」というボーカロイドパッケージでは、歌手で俳優のGACKTさんの声が収録されているそうです。発音が難しい上に、楽しくもないだろう500音の録音を、あのクールなGACKTさんが、ひたすら「あーっ」などと発音されていたのかと思うと、なんか「申し訳ありません」という気持ちになります。
それはさておき、こうしてつくられた「声の絵の具」セットのことを、音声ライブラリといいます。
ところが、コンピュータに歌を歌わせるには、500音程度の「音声ライブラリ」だけでは、全然足りないのです。理論上、無限数の「音声ライブラリ」が必要ということになるわけですが、当然そんなものをつくることなど無理に決まっています。
そこで登場するのが「合成エンジン」です。
500の声の「絵の具セット」をベースとして、別の「絵の具」をつくるものと理解していただければ十分です。その「絵の具」の1つの音声を、周波数変換処理します。これを極めて簡単に説明すると、「ド」の音階の音を「ファ」の音階に変換する技術のことです。
さてここから、「特許公開2002ー202790 歌唱合成装置」の本領が発揮されます。
第一の発明:バラバラの「音の絵の具」の音の波形を重ねるようにして、音をスムーズにくっつける。
第二の発明:「t(子音)ーa(母音)」からなる「音の絵の具」の場合は、実際の曲のタイミングよりもほんのちょっとだけ早く声を出させる。
私たちが普段歌を歌っている時も、同じことをしているわけなのですが、カラオケで、ご自分がそのような歌い方していることに、気がついていたでしょうか?
初音ミクは、音程の移動時に位相を一致させることや、子音ー母音音節の場合、曲に先行して声を出す、ということに気を配って、歌を歌っているわけです。しかも、高速フーリエ変換や逆変換という複雑な計算と、ミリ秒のオーダの発生タイミングの精度を維持しながら、です。なんて、けなげで、いじらしい娘でしょうか。
特許明細書から初音ミクにアプローチをかけた人間は、相当少ないと思いますが、この段階で、すでに私は初音ミクのファンになりかけています。
今回、私はこのコラムのために「結月ゆかり」というボーカロイドパッケージソフトウェアの体験版を試しました。彼女に最初の4小節だけ(10秒くらい)を歌ってもらった時の感動は鮮烈でした。
天使が歌っている
こんな美しい声で歌う女性を、私は知らない。私の指示したセリフと音階で独唱する美しい女性の歌声を、少なくとも100回はリピートしてしまいました。
<第二の技術 :動画映像技術>
動画音声技術とは、初音ミクを、ディスプレイ上に実体化して、歌手としての動き(振り付け、ダンス等)を与える技術です【註2】。
映像技術は難しく、その中でも3D映像処理は難しく、さらにそれを動画とする技術はもっと難しく、可動部の種類が30以上もあり、おまけに服や髪の毛のある人間の3D動画作成の難しさは、想像を絶するものでした。
25年前にもなりますが、私も大学の実験レポートの計算結果を、3次元表示させたい一心で、自宅のパソコンを使って計算をしたことがあります。難しくて複雑な変換方程式をそれなりに理解して、プログラミングし、計算結果を一時格納するために夜中に2時間おきに目覚ましをセットして、計算の途中結果の数値をプリンターで印刷しておく等、大変な苦労をした記憶があります。当然、それは線図だけの静止画であり、動画など考えも及ばないことでした。
技術は進歩するものですが、その進歩の度合いは、あまりに衝撃的なものでした。今、私は「ミクミクダンス」という、3Dのコンピュータグラフィックスソフトウェアのデモ画面を見て呆然としています。
「ミクミクダンス」とは、樋口優さんによって作成され、無料配布されている3次元コンピュータグラフィックソフトウェアで、初音ミクを簡単な操作で描くことを可能としたものです。
「ミクミクダンス」の大きな特徴は、2つあると考えます。
まず1つ目は、「ボーン(骨)処理」という技術。
初音ミクの身体を構成する部分(長い髪の毛や、衣装などの動きも含む)を「ボーン」として、ボーンをつなげることで、初音ミクのポーズをつくるのです。初音ミクの映像を作るユーザは、このボーンを自由自在に動かして、そのポーズをつくります。
要するに、パソコンを使って、「初音ミク人形」でポーズをつくることができる、と考えていただければ概ね正しいと思います。
そして、ここが極めて重要ですが、あなたは初音ミクの絵を「一枚も描く必要がない」のです。「ボーンを動かすだけ」で、初音ミクの静止画像をいくつでもつくり出すことができるのです。ボーンとボーンの接合部(関節部)は、不合理な角度にならないようにあらかじめ制限されており、どのようにボーンを操作しても、「人間らしいポーズ」となるように配慮されています。
おそらく、初音ミクの外観を創作するのに、「これ以上の操作方法は考えられない」であろうと思えるくらいの見事なインターフェースで、とても簡単に初音ミクをディスプレイ上に描くことができます。
2つ目は、「2つ以上の画像を補完して動画(アニメーション)をつくる技術」です。
みなさんもご経験があると思いますが、アニメーションとは、つまるところ「ぱらぱらマンガ」です。アニメーションとするには、最低でも1秒間に10枚、下手をすると30枚の静止画像をつくらなければなりません。1秒間に10枚としても、5分の映像なら、3000枚の画像が必要となります。
私は高校の学園祭の準備で、2分程度のアニメーションの作成を手伝ったことがあります。不眠不休で、セル画(登場人物などの絵を描く透明のプラスチック版)の色づけを手伝っていたのですが、「将来、こんな業界には絶対にかかわるものか」と誓ったものです。
「ミクミクダンス」の偉大な点は、この静止画の枚数を劇的に激減させたことです。代表的な静止画像から、その途中の静止画像を、パソコンが自動的につくってくれるのです。例えば、5分の動画であれば、3秒ごとの静止画像を100枚作成すれば足り(多分使い回しするから、実際はもっと少なくて済むと思います)、残りの2900枚はパソコンが作ってしまうのです。
そして、もはやどのようなアルゴリズムで実現されているのか想像もできませんが、
・ボーン処理だけで、身体は勿論、髪や衣服の状態まで矛盾なく表現する計算処理
・リアルタイムで、カメラ視点から見えない領域を表示しないポリゴン処理
など、3D画像処理の肝となる技術が全部搭載されているこのソフトウェアを、なんと“タダ(無料)”で手に入れることができます。
この業界に身を置いていた私の、直感的な「ミクミクダンス」のコストは、1ライセンス200~500万円です。これを無償で提供していること自体、もはや価格破壊などというレベルではありません。
以上をまとめますと、ソフトウェア「ミクミクダンス」とは、
(1)キャラクターを初音ミク等に限定して、非常に簡単な操作で、初音ミクの映像をつくり出すことができる
(2)基本的な少ない数の静止画像から、動画(アニメーション)をつくり出すことができる
(3)タダ(無料)
ということになります。
<第3の技術:作曲演奏技術>
初音ミクに歌ってもらうためには、当然、「曲」を準備しなければなりません。作曲は1人でもできるかもしれませんが、演奏はピアノソロやギターソロでもない限り、複数の楽器によって行われなければならず、そこには複数の演奏者が必要になります。
そんな「曲」を創作する世界にも、ドラム、ベース、ギター、ピアノ、キーボード、パーカッション、その他のいくつもの楽器をたった1人で作曲して演奏する方法が確立されています。
「作曲ソフト」です。
これを使えば、「音符」「五線譜」「コード」「和音」の知識、楽器の演奏技術は一切不要で、作曲が可能となっています。極端な言い方をすれば、「作曲ソフト」とパソコンのマウスが使えれば、ピアノだけ、ギターだけの演奏ではなく、「バンドとしての演奏」までもが可能となります。
本稿執筆のために、私は「Music Maker MX」というソフトウェアの体験版を試したのですが、「歌唱音声技術」「動画映像技術」に続き、再び度肝を抜かれました。
イメージでいうと、ギターと書かれたホルダーから、ギター用の演奏アイコンを楽譜の上にいくつか置くだけで、ギターセクションが完成。同じように、ピアノ用アイコンとドラム用アイコンを置き、それを適当につなげたり延ばしたり縮めたりすることもできます。
これだけのことで、ギター、ピアノ、ドラムのバンドが完成です。それぞれのセクションの音は、自動的に計算されて不協和音も発生させず、立派な曲のように聞こえるのです。これは、魔法か? と本気で思いました。今回、私が生まれて初めてつくった(というか、ソフトウェアにつくらされた)曲は、30秒で完成しました。
しかし、どんなに優れたソフトウェアが開発されたとしても、結局のところ、「歌唱音声技術」と同様に、自分でメロディ(旋律)はつくらなければなりません。ところが、メロディには一種の法則というのがあり、例えば特定の5音を使うだけで「曲のように聞こえる」という技があります。このほか、「悲しい気分になる曲のルール」「楽しい気分になる曲のルール」などの経験則が積み上げられたものを「音楽理論」といいます。
「Music Maker MX」で、私が本当に度肝を抜かれたのは、ここからです。
先ほど書いたピアノ、ギター、ドラムの演奏アイコンを並べたものに対して、「楽しい感じの曲」と指定すると、「Music Maker MX」が、楽しいイメージの曲を勝手につくってしまうのです。
コンピュータは、もはや「音楽理論」をベースに自ら作曲をするレベルに至っているのです。このような優れたソフトウェアがあれば、人生で1回も楽器に触ったことがない人でも作曲は可能である、と私は確信するに至りました。
●初音ミクを誕生させるモチベーション
さて、今回は初音ミクに関する3つの技術についてご紹介しました。これらの技術に共通するパラダイムは明快です。
「たった1人の、閉じた世界での、『初音ミク』の具現化」
です。
スポンサー(出資者のご意向)も、ヒエラルヒー(上司の承認)も、チームワーク(マネージメント)も、スケジュール管理(進捗の線表)もいらない、自分だけの閉じた世界での初音ミクの具現化。
私は、1人のエンジニアとして、拳を天に向かって突き上げたくなるほど、この「閉じた世界の素晴らしさ」を理解できるのです、自分のアイデアを仕事として提案するためには、他人に説明して、誤解を丁寧な言葉で解いて、稟議を通すために頭を下げて回らなければなりません。面倒くさいですが、組織で何かをつくっていく以上、仕方がないことです。
しかし、自分の考え通りに何かを創作すること(例えば、このコラムを書くこと)には、そのような面倒な手続きは発生しません。私は、自分の世界で、自分自身の意思で、なんでも自由に表現できるのです(時々、編集担当者からストップがかかりますが……)。
「1人で閉じた世界での創作活動」というのは、私のような人間には、「地上に存在する、最後のパラダイス」なのです。そして、この初音ミクが他の創作物と決定的に異なる点は、「自分では表現できないこと(歌唱、ダンス)」を、初音ミクというキャラクターを通じて実現させることができ、それが100%自分の裁量で行えるという点にあります。加えて、このキャラクターを創成する立場であれば、間違いなくキャラクターに「愛」が込められていくのは当然のことです。
前述した通り、私はボーカロイドパッケージ「結月ゆかり」の4小節程度のソロパートの歌唱だけで、いとも簡単に彼女に魅入られてしまいました。私のわがままなプロデュース(音階を変えて、リズムを変えて、歌い方を変えて)に素直に応じて、何度でもやり直す、そのけなげさに胸を打たれるのです。
もちろん、これがプログラミングでいうところのデバッグ作業にすぎないことは十分に分かっています。しかし、そこに、キャラクターという媒体が介在することによって、ボーカロイドへの創作意欲は、他の創作物とは異なる爆発的なパワーを持つことになるのです。
さて、次回後編では、この「1人で閉じた世界での創作活動」の結論を、一度ひっくり返してみます。初音ミクの創作は「たった1人」でありながら、同時に巨大なコミュニティの中の共同作業によって進化していくという、不思議な進化の形態について、初音ミクをプロデュースしている人、「ボカロP」と呼ばれる方のインタビューも含めて、ご説明したいと思います。
(文=江端智一)
※後編へ続く
※本記事へのコメントは、筆者・江端氏HP上の専用コーナーへお寄せください。
【註1】http://ja.wikipedia.org/wiki/初音ミク
【註2】http://dic.nicovideo.jp/a/mikumikudance
■おすすめ記事
「六本木襲撃事件」「AKB児童ポルノ騒動」の正しい読み方
大手電機A社、下請けいじめ、代金踏み倒しの実態…元取引先社員が語る
プレモル、ラガー抜きトップへ 明暗分けたビール各社の販売戦略とは?
職場にいると面倒な「自分大好き人間」の特徴
アベノミクス始動で変わる業界勢力図を占う…ニューリーダーは楽天とローソン?
サイゾー人気記事ランキングすべて見る
イチオシ記事