AI音声でポッドキャスト風の番組を制作してみた！PosterCastの作り方を公開

2025年9月2日 2025年8月1日

ブログ

近年、生成AI音声作成技術の進化により、誰でも簡単にプロ品質のナレーションを制作できるようになりました。今回は、実際にAI音声を活用してポッドキャスト風の番組「PosterCast」を制作し、YouTubeで公開するまでの全工程をご紹介します。

今回制作した番組「PosterCast」とは？

LINE拡張ツール「Poster」の音声解説番組

「PosterCast」は、LINE公式アカウントの機能を拡張するツール「Poster」について解説する音声番組です。従来はブログ記事やマニュアルで情報提供していた内容を、より親しみやすいポッドキャスト形式で配信することを目的として制作しました。

約8分程度のエピソードで、機能紹介から活用事例まで、ユーザーが知りたい情報をわかりやすく解説しています。AI音声ポッドキャストの実践例として、参考にしていただけるのではないでしょうか。

AIパーソナリティによる構成と内容

番組では、AI音声による2つのキャラクターが会話形式で進行します。一人はサービスに詳しい解説役、もう一人はユーザー目線で質問する役割を担当し、自然な対話を通じて情報を伝えています。

この構成により、一方的な説明ではなく、リスナーが疑問に思うポイントを代弁しながら進行できるため、理解しやすい内容になっています。

音声を生成する手順

①原稿作成

使用ツール

Gemini Deep Research

まず、Geminiを開き、DeepResearchで知りたい内容を検索し、調査結果を確認します。

右上の「作成」をクリックして、「音声解説」を選択します。

音声データが生成されるので、内容を聞いて問題なさそうであれば三点リーダーをクリックしてダウンロードします。

DeepResearchの音声解説機能は、単なる文章生成にとどまらず、聞き手の理解を促進する構成や表現を自動で提案してくれます。音声で聞いた時に理解しやすい文章構成になるよう最適化されており、聞き返しができない音声コンテンツの特性を考慮した、簡潔で分かりやすい表現が生成されます。また、自然な会話のリズムを作るため、適度な合いの手や反復表現も含まれているのが特徴です。

②ファクトチェック

生成された音声内容を聞いてみると、語弊を生む表現や事実と異なる箇所があったため、修正をすることにしました。まずは音声を文字起こしします。

※修正をする必要がなければ、もうこのまま最後のステップに進んで公開できます！

音声の文字起こしには、Slackを使いました。Slackのスレッドにファイルをアップロードしたところ自動で文字起こししてくれたので、それをコピーして調整しました。

Googleドキュメントで「Speaker1」「Speaker2」と分け、内容を修正

③音声合成ツールでナレーション化

使用ツール

Google AI Studio – Native Speech Generation

原稿が完成したら、Google AI Studio の Native Speech Generation 機能を使用してナレーションを生成しました。

Native Speech Generationでは、1人で話す「Single-speaker audio」と、2人で対話形式をする「Multi-speaker audio」の2つのモードから選択できます。

Native Speech Generationの画面にアクセスし、「Multi-speaker audio」を選択します。

左側の「Raw structure」に、原稿を貼り付けます。右上の「Style instructions」には、生成される音声の表現のニュアンスを指示します。

右側の「Model Setting」内の「Temperature」は、生成される音声の多様性や創造性、あるいはランダム性を制御するためのパラメータです。値が低いほど抑揚やトーンが一定で単調な傾向になります。値が高いと音声の抑揚やトーンがより多様で表現豊かになり、ランダム性が増します。

その下のVoice Settingsでは、それぞれの声のタイプを選ぶことができます。

男性と女性の声がありますが、サンプル音声が英語のため、日本語で聞いてみると印象が変わります。手間ではありますが、短い日本語の文章を読ませてから選ぶといいと思います。

設定ができたら、下の「Run」をクリックして音声生成を実行します。生成が完了したら、左下に再生バーが表示され、音声が自動再生されます。
内容が大丈夫そうだと思ったら三点リーダーをクリックして音声データをダウンロードします。

最初は「Multi-speaker audio」で作成していたのですが、今回は文字数が多かったせいか、原稿通りに読んでくれない箇所があったり、Speaker1と2の内容が途中で入れ替わってしまうハプニングもあり、結局「Single-speaker audio」モードを使用しました。Single-speaker audioモードでも手順は変わりません。