MUSIC TOPIC

Metaが誰でも利用できるオーディオ生成AI「AudioCraft」を発表

audiocraft
出典 : Meta

Metaが誰でも利用できるオーディオ生成AI「AudioCraft」を発表

Metaが、テキストプロンプトから音楽や音声を生成するための生成AIツールである「AudioCraft」をオープンソース化すると発表しました。

これらのツールを使用することで、コンテンツクリエイターは簡単なテキストの説明を入力するだけで、環境音声を生成したり、メロディーを作曲したり、あるいはバーチャルオーケストラをシミュレートしたりすることができるようになります。

3つのテクノロジーを搭載

musicgen

AudioCraftには3つの生成モデルで構成されています。1つ目はAudioGenで、さまざまな音響効果や音景を生成するツールです。2つ目はMusicGenで、説明から音楽作品やメロディを生成することができます。そして3つ目はEnCodecで、ニューラルネットワークを基にした音声圧縮コーデックです。

EnCodecが最近改良され、「より少ないアーティファクトで高品質な音楽生成が可能になる」と述べています。また、AudioGenは犬の吠え声や車のクラクション、木の床を歩く足音などの音声効果を生成できます。MusicGenでは、例えば「キャッチーなメロディー、トロピカルなパーカッション、アップビートなリズムが特徴のビーチにぴったりのダンストラック」といったテキストに基づいて、さまざまな楽曲をゼロから作成することができます。

音楽生成AIの波がくる

音楽AI

Metaは、テキストや静止画を中心とした生成AIモデルは多くの注目を集めており、実際に仕事に取り入れることができる水準に達していますが、音声生成ツールの開発は遅れていると指摘しています。

音楽生成AIのウェブサイトでいくつかのオーディオサンプルを聴くことができますが、テキストプロンプト通りの音楽は生成できていますが、プロフェッショナルによって制作された楽曲や、音声効果に置き換えるにはまだ早いと言える品質です。

「いくつかのAI研究は存在しますが、非常に複雑でオープンではないため、一般の人達が簡単に試すことができません」と述べています。しかし、彼らはAudioCraftがMITライセンスの下で公開され、オーディオや音楽の実験のためのアクセス可能なツールを提供することで、広くコミュニティに貢献することを期待していると述べています。

オープンソースでの公開

オープンソース

「これらのモデルは研究目的および技術の理解をさらに深めるために利用できます。研究者や実践者が初めて自分のデータセットで独自のモデルを訓練し、技術の最先端を推進するのにアクセスできることを楽しみにしています」とMetaは述べています。

AIによる音声と音楽生成の実験は今回が初めてのことではありません。注目すべき最近の試みとして、OpenAIは2020年にJukeboxを発表し、Googleは2021年1月にMusicLMを発表し、そして昨年12月には独立した研究チームがStable Diffusionベースでテキストから音楽を生成するプラットフォーム「Riffusion」を作成しました。

これらの生成音声プロジェクトは、画像合成モデルほど多くの注目を集めているわけではありませんが、それは開発プロセスが複雑さに欠けるわけではないと、ウェブサイトで指摘しています。

感動を与えるのは難しい

AI音楽

色んなジャンルの高品質オーディオを生成するには、さまざまなスケールで複雑な信号とパターンをモデル化する必要があります。音楽はおそらく最も難しいタイプの音声生成であり、ノートの組み合わせから複数の楽器を持つグローバルな楽曲構造まで、様々なパターンで構成されています。

AIによる連続した音楽の生成は、しばしばMIDIやピアノロールなどの象徴的な表現を使用して取り組まれてきましたが、これらのアプローチは音楽に見られる細かい表現や、繊細なニュアンス、スタイル要素を完全に把握することができません。

より最近の進歩では、音楽を作るために、自己教示型の音声の特徴を学ぶ方法や、階層的なモデルを使った手法が使われています。これらの手法では、生の音を複雑な仕組みに入れて、音楽の長い範囲の構造を捉えながら、高品質な音楽を生成しています。

オーディオ生成へのシンプルなアプローチ

出典 : Meta

生のオーディオ信号からオーディオを生成することは、非常に長いシーケンスをモデリングする必要があるため、非常に困難です。44.1 kHz (音楽録音の標準品質) でサンプリングされた一般的な音楽トラックは、数百万のタイムステップで構成されています。

LlamaやLlama 2のようなテキストベースの生成モデルには、サンプルあたりわずか数千のタイムステップを表すサブワードとして処理されたテキストが供給されます。

この課題へのアプローチとして、EnCodecのニューラルオーディオコーデックを用いて、生の信号から個別のオーディオトークンを学習します。これにより、音楽サンプルに新しい固定の「語彙」が生まれます。そして、これらの離散オーディオトークンに自己回帰言語モデルをトレーニングし、EnCodecのデコーダを使ってトークンをオーディオ空間に変換することで、新しいトークンと新しいサウンドと音楽を生成することができます。

AudioCraftの詳細な情報はこちら


【AIで作曲】自動音楽生成サービスおすすめ16選

お気に入りのアーティストの声でAIカバー楽曲を作る方法

※本サイトには、アフィリエイトリンクまたはプロモーション記事が含まれている場合があります。

人気記事

1

人気VSTプラグインソフトおすすめ12選【DTM】 これからDTMを使った作曲を始める方に向けて、人気のあるおすすめプラグインソフトをご紹介します。海外の最大手プラグイン販売サイト「Plugin Bo ...

2

EDMの作り方【DAWを使った打ち込み方法】 DAWを使ったEDM(エレクトロ・ダンス・ミュージック)の制作は、シンセサイザーのようなソフトウェアの操作、各種エフェクト関連、ミキシングテクニック等、覚 ...

3

ヒップホップビートの作り方【Beat Making】 世界の音楽シーンはHiphop一色となっており、最近では国内のHiphopシーンでも海外プロデューサーのType Beatを使用した楽曲が目立つよ ...

4

はじめてのギターエフェクター【最初に揃えるべきはコレ!】 エレキギターを購入した後に必要になるのが、ギターのサウンドを変化させる為の「エフェクター」と呼ばれる機材。ギターの音作りにおいて必須の機材では ...

5

オリジナル楽曲をサブスク配信する方法【Spotify、Apple Music】 何日もかけて完成した自分のオリジナル楽曲を、できるなら世界中の人に向けて発信してみたいと思いませんか?一昔前は個人が全国 ...

-MUSIC TOPIC
-, ,

Copyright© TRIVISION STUDIO , 2024 All Rights Reserved.