AIはどこまで作曲ができるのか？画像と言葉からBGMを生成する「AmBeat」の挑戦と、音楽制作によるコミュニケーションの可能性

「その一瞬を、一曲の音楽に」をコンセプトに、動画や写真をアップロードするだけでオリジナルのBGMを自動生成することができるアプリ「AmBeat」が2023年1月にリリースされました。人の感覚や感性を言語化して科学的に分析する「感性研究」やAIの技術が応用されたこのアプリでは、音楽制作や演奏といった専門的な知識や技術がなくても、気軽に自分の感覚に合う音楽を生み出すことできます。

画像生成やChatGPTなど、AIの発達にさらなる注目が集まっていますが、これからの音楽制作にテクノロジーはどのようなインパクトを与えるのでしょうか。AmBeat開発の発起人であるヤマハ株式会社研究開発統括部感性計測グループの下薗大樹さんに、プロジェクトのはじまりや楽曲生成の仕組み、AIと音楽のかかわりの未来についてお聞きしました。

ヤマハ株式会社　研究開発統括部感性計測グループ
下薗大樹

非言語的なコミュニケーションとしての音楽

ー「AmBeat」を開発することになった経緯についてお聞かせください。

ヤマハが実施している「Value Amplifier」という新規事業推進プログラムで、まだ入社して2年目だった私が企画提案をしたことが、プロジェクトのはじまりでした。もともとは「音楽でコミュニケーションするためのSNS」という企画タイトルだったんですが、形を変えながら5年ほどの開発期間を経て、リリースすることができました。

「AmBeat」

ーオリジナルBGMを自動生成するアプリとしてリリースされましたが、当初はSNSの構想があったんですね。

SNSの開発はなかなか大変なので、コミュニケーションツールとしての開発にシフトしたんですが、企画の本質自体はあまり変わっていないと思います。言語によるコミュニケーションに、音楽という非言語な情報が付与されることで、リッチなコミュニケーションが生まれるんじゃないかという考えが私の中にあって、AmBeatにはそれが反映されています。

ー音楽によるコミュニケーションの実現というのは、下園さんが取り組まれている「感性研究」の視点から生まれたものなのでしょうか？

それもありますが、私自身が合唱の作曲や編曲をやっていて、音楽によるコミュニケーションの感覚を享受できている実感があることが大きいです。音楽によって自分の何かを表現したり、逆に他者の何かを受け取ったりする感覚を、誰もが体験できる世界になったらいいなという衝動が、この企画の背景にありました。

画像と言葉から楽曲が生成されるメカニズム

ーAmBeatの仕組みについて教えてください。動画や写真をアップロードし、作りたい曲の雰囲気を表現する言葉を入力すると楽曲が生成されますが、どのような技術が使用されているんですか？

ユーザーが登録した動画や写真に対して、まずはそれがどういう状況なのかをAIが判断しています。たとえばドライブ中の写真ならロック風、キッチンの写真ならおしゃれな雰囲気など、解析された画像のシチュエーションによって、楽曲の「スタイル」が決定される仕組みです。

ユーザーが入力した言葉の解析には、私たちが日常的に話している言葉を役割ごとに分解し、計算可能な形式に置き換える「自然言語処理」の技術が使用されています。たとえば「明るい」「暗い」といった抽象的な言葉と、ユーザーが入力した言葉との関連性を解析することで、「スタイル」に対応した「コード」が決定されます。

BGMの素材となる写真と動画の選択画面。写真は最大10枚まで、動画は最大90秒まで選択ができます。

画像の選択後、楽曲のイメージとなる言葉を入力することで楽曲生成がスタートします。

ー画像や言葉のイメージに合う音楽のスタイルとコードが、事前にある程度設定されているということでしょうか？

そうですね。ユーザーが登録した画像と言葉をAIが解析し、こちらが用意した型に情報を押し込んでいくイメージです。「ざっくりとこんなシチュエーション」といった型が決まることで、スタイルとコードという具体的な要素に変換されます。

型を用意するにあたっては、テスト段階でユーザーが投稿しそうな動画や画像の内容を想定し、それらに合う音楽をAIに学習させながら、徐々にチューニングしていきました。たとえば、誕生日パーティーのようなシチュエーションの画像をAIに与えて、そこから生成された音楽がイメージから離れてしまった場合には、適切な音楽が生成されるように、画像内のオブジェクトの認識方法などに調整を加えていったんです。

ースタイルとコードのパターンのデータはどのように用意したのでしょうか？

コードに関しては、世の中に存在する楽曲のコード進行をプリセットデータとして登録し、解析された情報に紐付けることで、パターンとして生成されるようにしています。
スタイルは、ヤマハのキーボードに搭載されている自動伴奏のデータを流用しており、今回のアプリ開発にあたって何種類か追加しています。自動伴奏のデータには、楽器とリズムのプリセットが入っていて、それらにコード進行の情報を組み合わせることで、楽曲として成立されるようにしています。イメージと合わない場合は、スタイルやコードを変更できますし、ユーザーが任意のコードを登録してそれを組み合わせることも可能です。

楽曲の編集画面。「コード」は4種類から一つ選択でき「コードパターンをさらに編集する」で細かな変更も可能です。「スタイル」のタブでは別の種類のスタイルにも変更できます。

ーメロディーが生まれる仕組みについても教えてください。

メロディーでもっとも重要なのは伴奏のコードとメロディーがぶつからないことなので、システムがコードの構成音を考慮した上でメロディーラインを組み立てています。ただ、AmBeatのスタンスはあくまでBGM生成なので、メロディーは付加的な役割に留めています。歌詞を入力することでボーカロイドにメロディーラインを歌わせることもできますが、今回のアプリで刷新したボーカロイドの音源は、BGMを邪魔しないクリーンな音色に調整しています。

今後はユーザーが保存したデータをもとに、生成される音楽の精度をさらにチューニングしていく予定です。期待されるアウトプットに近づけるように、少しずつアップデートを重ね、サービスとしての価値を高めていきたいと思っています。

完成した楽曲は最大10本までアルバムに保存可能です。プレミアムプラン（月額500円）では、楽曲作成数が無制限となります。

AIは創造性の代替ではなく、異なる創造活動を生む

ーこれまでヤマハ内ではAIの技術はどのように使用されていたのでしょうか？

広義のAIとしての情報処理技術については、以前から社内では電子楽器の分野において研究と製品への応用に取り組んできました。ルールベースを主軸にしたものと、ディープラーニングを採用したものとがあり、それぞれの技術を使用した製品やサービスが発表されています。最近の例だと、リアルタイムで歌声を別人の声に変換する「TransVox」や、美空ひばりさんの歌声を再現した歌声合成技術「VOCALOID:AI」などがあります

ー下園さんは、AIによる音楽制作はどこまで可能になると考えていますか？

私としては、人間が持つ創造性に疑いはないですが、今後AIはかなりのところまで迫ることができるのではないかと思っています。ただ、たとえ現状の100%をAIが代替したとしても、110%、120%の価値を人間がまた生み出そうとするんじゃないかという気がしているんですね。

AIが人間の創造性を置き換えるような存在になるのは難しいと思いますし、演奏したい／音楽をつくりたいという人間の気持ちは残るんじゃないかなと。技術はあくまで人間をサポートするものであって、新しいものを生み出す行為を人間が行うこと自体は、今後も変わらないと思いますね。

ーAIによるサポートで楽曲制作が容易になったときに、作曲や音楽のあり方にはどのような影響をおよぼしそうでしょうか？

私個人の意見ですが、たとえばシンセサイザーのつまみやボタンに触ることや、指の皮がめくれるまでギターを練習する楽しさは、AIによる音楽制作が発達したとしても残ると思います。AIがもたらす価値観はそれとは異なり、音楽を生み出す喜びを享受できるパスがひとつ増えるということのような気がするんです。

たとえば、以前は写真を加工するためには技術が必要でしたが、インスタグラムの登場によって、簡単にできるようになりました。それは写真の加工技術を学ぶ過程とはまた別の価値であり、異なる創造活動が生まれたということなんじゃないかなと思います。

AmBeatは音楽を生み出す喜びの入り口

ー最後に、AmBeatの今後の展開についてお聞かせください。

将来的には、生成されたBGMの楽譜がエクスポートできる機能があれば、AmBeatで作曲した楽曲を演奏することができるなど、ユーザーの楽しみ方も増えると思うので、そういった機能追加に取り組んでいきたいと思います。

また、アーティストとのコラボレーションにも挑戦したいですね。アーティストらしいスタイルや楽曲が生成されるモードを追加して、コンテンツとしての幅を広げるほか、アーティストのプロモーションにもなるような展開ができればいいなと思います。

ーユーザーが作成した楽曲のデータをAIが学習していくとのことなので、アップデートのためにも、今後多くの方に活用していただきたいですね。

そうですね。イメージに合う楽曲に近づくように、再生成やエディットを通していろいろと試してみてほしいです。自由に編集できるようにアプリのインターフェースを設計しているので、感覚にフィットする楽曲づくりを探求していただき、音楽をつくる楽しさの一端を感じてもらえればと思います。

あとは、当初の開発意図としてあった、写真や動画に音楽が加わることで自分の表現したいことの解像度が上がる感覚を、ユーザーの方々には体験してみてほしいと思っています。今後より改良を加えていくことで、さらに注目していただけるアプリにしていきたいと考えています。

写真：寺島由里佳　取材・文・編集：堀合俊博（a small good publishing）

記事のご感想・アプリについてのご意見はこちら
―開発者へのご意見・期待の声をお聞かせください！―

2023.05.26

読み物

AIはどこまで作曲ができるのか？画像と言葉からBGMを生成する「AmBeat」の挑戦と、音楽制作によるコミュニケーションの可能性

非言語的なコミュニケーションとしての音楽

画像と言葉から楽曲が生成されるメカニズム

AIは創造性の代替ではなく、異なる創造活動を生む

AmBeatは音楽を生み出す喜びの入り口

この記事を読んだ方へのおすすめ