BLOG

AI音声でポッドキャスト風の番組を制作してみた!PosterCastの作り方を公開

AI音声でポッドキャスト風の番組を制作してみた!PosterCastの作り方を公開

近年、生成AI音声作成技術の進化により、誰でも簡単にプロ品質のナレーションを制作できるようになりました。今回は、実際にAI音声を活用してポッドキャスト風の番組「PosterCast」を制作し、YouTubeで公開するまでの全工程をご紹介します。

今回制作した番組「PosterCast」とは?

LINE拡張ツール「Poster」の音声解説番組

「PosterCast」は、LINE公式アカウントの機能を拡張するツール「Poster」について解説する音声番組です。従来はブログ記事やマニュアルで情報提供していた内容を、より親しみやすいポッドキャスト形式で配信することを目的として制作しました。

約8分程度のエピソードで、機能紹介から活用事例まで、ユーザーが知りたい情報をわかりやすく解説しています。AI音声ポッドキャストの実践例として、参考にしていただけるのではないでしょうか。

AIパーソナリティによる構成と内容

番組では、AI音声による2つのキャラクターが会話形式で進行します。一人はサービスに詳しい解説役、もう一人はユーザー目線で質問する役割を担当し、自然な対話を通じて情報を伝えています。

この構成により、一方的な説明ではなく、リスナーが疑問に思うポイントを代弁しながら進行できるため、理解しやすい内容になっています。

音声を生成する手順

①原稿作成

使用ツール

Gemini Deep Research

まず、Geminiを開き、DeepResearchで知りたい内容を検索し、調査結果を確認します。

Gemini

右上の「作成」をクリックして、「音声解説」を選択します。

音声データが生成されるので、内容を聞いて問題なさそうであれば三点リーダーをクリックしてダウンロードします。

DeepResearchの音声解説機能は、単なる文章生成にとどまらず、聞き手の理解を促進する構成や表現を自動で提案してくれます。音声で聞いた時に理解しやすい文章構成になるよう最適化されており、聞き返しができない音声コンテンツの特性を考慮した、簡潔で分かりやすい表現が生成されます。また、自然な会話のリズムを作るため、適度な合いの手や反復表現も含まれているのが特徴です。

②ファクトチェック

生成された音声内容を聞いてみると、語弊を生む表現や事実と異なる箇所があったため、修正をすることにしました。まずは音声を文字起こしします。

※修正をする必要がなければ、もうこのまま最後のステップに進んで公開できます!

音声の文字起こしには、Slackを使いました。Slackのスレッドにファイルをアップロードしたところ自動で文字起こししてくれたので、それをコピーして調整しました。

Slackで自分だけのスペースに音声ファイルをアップロード
自動作成された文字起こしをコピー
Googleドキュメントで「Speaker1」「Speaker2」と分け、内容を修正

③音声合成ツールでナレーション化

原稿が完成したら、Google AI Studio の Native Speech Generation 機能を使用してナレーションを生成しました。

Native Speech Generationでは、1人で話す「Single-speaker audio」と、2人で対話形式をする「Multi-speaker audio」の2つのモードから選択できます。

Native Speech Generationの画面にアクセスし、「Multi-speaker audio」を選択します。

左側の「Raw structure」に、原稿を貼り付けます。右上の「Style instructions」には、生成される音声の表現のニュアンスを指示します。

右側の「Model Setting」内の「Temperature」は、生成される音声の多様性や創造性、あるいはランダム性を制御するためのパラメータです。値が低いほど抑揚やトーンが一定で単調な傾向になります。値が高いと音声の抑揚やトーンがより多様で表現豊かになり、ランダム性が増します

今回は高めの1.1を指定

その下のVoice Settingsでは、それぞれの声のタイプを選ぶことができます。

Voiceで声のタイプを選択

男性と女性の声がありますが、サンプル音声が英語のため、日本語で聞いてみると印象が変わります。手間ではありますが、短い日本語の文章を読ませてから選ぶといいと思います。

設定ができたら、下の「Run」をクリックして音声生成を実行します。生成が完了したら、左下に再生バーが表示され、音声が自動再生されます。
内容が大丈夫そうだと思ったら三点リーダーをクリックして音声データをダウンロードします。

最初は「Multi-speaker audio」で作成していたのですが、今回は文字数が多かったせいか、原稿通りに読んでくれない箇所があったり、Speaker1と2の内容が途中で入れ替わってしまうハプニングもあり、結局「Single-speaker audio」モードを使用しました。Single-speaker audioモードでも手順は変わりません。

③Adobe Auditionで編集・整音

使用ツール

Adobe Auditioon

生成された音声は、Adobe Auditionを使用して編集・整音を行いました。ノイズ除去、音量調整、不自然な間の修正など、より聞きやすい音声に仕上げました。

ポッドキャスト風動画をYouTubeで公開するまで

①動画編集ソフトで画像+音声を合成(Premiere Pro)

使用ツール

Adobe Premiere Pro

音声コンテンツをYouTubeで公開するため、Adobe Premiere Proを使用してアニメーション動画と音声を組み合わせた動画を制作しました。

今回作成したアニメーション動画も、Whiskを使って生成しました。

Whiskで生成したアニメーション動画を、シームレスにループするようにAfter Effectsでループ処理をし、PremiereProで読み込みました。

Adobe Aftter effects でループ処理

②YouTubeにアップロード(タイトル・説明・サムネ対策)

最後に、YouTubeへのアップロードです。タイトルには主要キーワードを含め、検索されやすい構成にしています。説明欄には番組の概要、扱っているトピック、関連リンクなどを詳しく記載しました。

完成した音声番組はこちら

制作した「PosterCast」は、現在Poster公式YouTubeチャンネルで公開中です。実際の仕上がりをご確認いただき参考にしていただければと思います。

AI音声でも、適切な制作プロセスを経ることで、十分に魅力的なコンテンツが制作できることを実感していただけるはずです!

まとめ|AI音声を活用した情報発信の可能性

今回の企画を通じて、AI音声技術の実用性の高さを改めて確認できました。技術的な敷居も下がり、個人でも企業でも気軽に音声コンテンツ制作にチャレンジできる環境が整っています。

情報発信の新しい手段として、生成AI 音声作成を活用したポッドキャスト制作をぜひ検討してみてはいかがでしょうか。文字だけでは伝えきれない情報を、より親しみやすい形で届けることができるはずです。


※ LINE 及び LINE公式アカウント はLINE株式会社の商標または登録商標です。 Poster®はLINE株式会社が提供する LINE Messaging API を利用しています。

※ 「Poster」は株式会社モスコソリューションズの登録商標です。