ゼロからはじめるバイブコーディング(14) テキストの読み上げ動画を作成するツールを作ろう

単純作業をしている時など、長文を読み上げさせたい場面があります。そこで、ブラウザにテキストを入力すると、テキストを読み上げる動画を作成するツールを作ってみましょう。バイブコーディングで手軽にアイデアを実現できます。

テキストから動画を作成するツールをバイブコーディングで作ろう

テキストを読み上げするツールを作るには？

今回は、テキストから動画を作成するツールを作りますが、バイブコーディングを実践する相方に「Codex CLI」を使ってみましょう。Codex CLIは、ChatGPTを開発しているOpenAIが発表した、コーディングエージェントです。詳しくは、本連載の5回目で紹介していますが、開発に特化したモデル「gpt-5.2-codex」が利用できるようになり、性能が大幅に向上しているので使ってみます。

なお、今回のツールを作るのに当たって、簡単にChatGPTで調査してみましょう。ここでは、下記のようなプロンプトを入力して調査しました。

バイブコーディングで、テキストから動画を作成するツールを作ろうと思います。
どんな技術を使うと簡単でしょうか。 
ブラウザにテキストを入力すると、テキストを読み上げる動画(MP4)を作成するツールを想定しています。

すると、次のような回答が得られました。

ChatGPTでツール作成の相談をしているところ

ChatGPTの回答は、少し長いのでまとめると次のような要点が出力されました。

- ブラウザで動かすだけなら、JavaScriptで、Web Speech APIを使うとテキストの読み上げができるのですが、それをMP4にすることはできない
- 商用の読み上げAPI(OpenAI TTS / Google Cloud Text-to-Speech / Azure Speech)を使うと簡単で品質が良い
- 日本語であれば、オープンソースのVOICEVOXを使うのもあり

それで、無料で頑張ろうと思ったら、こちらのVOICEVOXを使う方法が良いです。しかし、VOICEVOXはファイルサイズが大きいので、気軽に動画を作るという用途では、ちょっと大変になります。

そこで、今回は、少しお金がかかりますが、OpenAIのTTS(Text-To-Speech) APIを使ってみましょう。実際に使ってみたところ、600文字(1分半程度)の文章でも3円ほどでしたので、十分に気軽に使えるでしょう。

OpenAIのAPIキーを取得しよう

OpenAIのAPIを使う場合には別途、こちらから開発者プラットフォームに登録して、APIキーを取得する必要があります。APIキーは、こちらから発行できます。

OpenAIのAPIキーを発行したところ

APIキーを発行したら、キーをコピーして環境変数に登録しましょう。

WindowsのWSL(Ubuntu)を使う場合は、テキストエディタで「~/.bashrc」を開きましょう。macOSを使う場合は「~/.zshrc」を開きましょう。そして、以下を追加します。

export OPENAI_API_KEY="(sk-からはじまるAPIキー)"

その後、WSLなら「source ~/.bashrc」、macOSなら「source ~/.zshrc」を実行して設定の変更を反映させます。

もし、Windowsのネイティブで作成したツールを使いたい場合には、次の手順でWindowsの環境変数に登録します。

- スタートメニューを開いて検索ボックスに「環境変数」と入力
- 「システム環境変数の編集」をクリックして環境変数ダイアログを開く
- 画面上部のユーザー環境変数で「新規」ボタンを押して以下の値を指定する

	項目	指定する値
	変数名	OPENAI_API_KEY
	変数値	(sk-からはじまるAPIキー)

バイブコーディングを開始しよう

今回は、プログラミング言語にPythonを使用することにしましょう。姉妹連載のこちらを参考にして、PCにPythonをインストールしましょう。

そして、ターミナルで、「codex」とタイプして、Codex CLIを起動します。もし、Codexがインストールされていない場合は、こちらを参考にインストールしてください。

それでは、Codexにツールの開発を依頼しましょう。ここでは、以下のようなプロンプト(指示)を入力します。

指示: Pythonを利用して、テキストを動画に変換するWebアプリを作ってください。
技術: flask / moviepyパッケージ / OpenAI TTS(モデル:gpt-4o-mini-tts) を使います。
操作手順:
1. ユーザーは作成したいタイトルとテキストを入力、動画作成ボタンを押すと動画を作成する
2. タイトルを元にして`title.png`を作成する
3. OpenAI TTSを使ってテキストをMP3に変換
4. moviepyを使って、`title.png`とMP3を合成して`output.mp4`を出力
5. ブラウザ画面でMP4を再生できる画面を出力
備考:
- OpenAIのAPIは環境変数に登録済みです
- 必要なライブラリを`requirements.txt`にまとめてください
- メインアプリのファイル名は`app.py`にしてください。
- moviepyパッケージはバージョン2.2以降に対応してください
- 日本語で答えてください

Codexがコーディング作業をはじめて、しばらく待っているとアプリが完成します。

Codexがアプリを完成させたところ

ターミナルから実行してみよう

ターミナルで、パッケージをインストールしてプログラムを実行しましょう。まずはPythonのパッケージをインストールします。

python -m pip install -r requirements.txt

なお、moviepyは、実行時にFFmpegを利用します。そのため、FFmpegをインストールしましょう。macOSの場合、Homebrewが便利です。

# WindowsのWSL/Ubuntuの場合
sudo apt install ffmpeg
# macOSの場合
brew install ffmpeg

そして、ターミナルで下記のコマンドを実行すると、ローカルWebサーバーが起動します。

python app.py

すると、「Running on http://127.0.0.1:5000」と表示されるので、ブラウザを起動してURL「http://127.0.0.1:5000」にアクセスしましょう。

残念ながら、筆者が試したときは、何度かエラーが出ましたので、その度に、Codexにエラーメッセージを入力しました。すると、下記のようなツールが実行されました。

タイトルとテキストを入力して「動画作成」ボタンを押すと、ツールが動画を作成して、生成結果の部分にMP4動画が表示されました。再生してみると、バッチリ読み上げが行われました。思ったよりも簡単に完成しました。

完成したツールを実行したところ

UIを改良してみよう

なお、筆者が試した時には、「動画作成」ボタンを押してから、完成までかなりの時間を待たされました。その間、画面が固まってしまうので心配になります。

そこで、非同期通信（Ajax）に対応してもらって、UIを改良してもらいましょう。次のような追加プロンプトを入力しました。

無事に完成しました。
ただし、「動画作成」ボタンを押すと、画面が固まってしまいます。
Ajaxを使って処理が完成するまで、作成中であることを示すローダーを表示してください。

すると、「動画作成」ボタンを押すと、ローダーが表示されるようになりました。

動画の背景画像を用意しよう

せっかくなので、背景画像を用意して、動画を見栄えの良いものにしてみましょう。ここでは、ChatGPTで作成した次のような画像を用意しました。この画像を「background.png」という名前で、プロジェクトフォルダに保存します。

背景画像

そして、次のようなプロンプトを与えて、改良してもらいましょう。

プロジェクトのフォルダに `background.png` を用意しました。
このPNGファイルを動画の背景画像に設定してください。
鮮やかな画像なので、文字を重ねる部分は、考慮してください。
また、画像はアスペクト比を考慮して画像を配置してください。

すると、次のようなツールが作成されました。背景画像を追加したところ、少し見栄えがよくなりました。良い感じです。

ここまで作成したプログラム一式を、こちらにアップロードしました。気になる方は、プログラム一式をダウンロードして使ってみてください。

まとめ

以上、今回はテキストを動画に変換するツールを作成してみました。OpenAIのTTS APIを利用することで高品質な読み上げ動画を作成することができました。テキストの読み上げ音声(MP3)と、タイトル画像を用意さえすれば、簡単にMP4動画が作成できました。

最近では、画像から手軽に動画も生成できるようになっているので、アバター動画を作成して、それが話しているように動かすこともできるかもしれません。ぜひ、今回のプロンプトを改良して、便利なツールを作ってみてください。

自由型プログラマー。くじらはんどにて、プログラミングの楽しさを伝える活動をしている。代表作に、日本語プログラミング言語「なでしこ」、テキスト音楽「サクラ」など。2001年オンラインソフト大賞入賞、2004年度未踏ユーススーパークリエータ認定、2010年 OSS貢献者章受賞。これまで50冊以上の技術書を執筆した。直近では、「大規模言語モデルを使いこなすためのプロンプトエンジニアリングの教科書(マイナビ出版)」「Pythonでつくるデスクトップアプリ(ソシム)」「実践力を身につける Pythonの教科書第2版」「シゴトがはかどる Python自動処理の教科書(マイナビ出版)」など。

テキストの読み上げ動画を作成するツールを作ろう

テキストを読み上げするツールを作るには？

OpenAIのAPIキーを取得しよう

バイブコーディングを開始しよう

ターミナルから実行してみよう

UIを改良してみよう

動画の背景画像を用意しよう

まとめ

この連載の前後回

合掌も可能！　XNOVAなどが仏教対話AI搭載の「ブッダロイド」を開発

ゼネテック、PLM導入の成功確率を向上させる業務診断サービスを提供開始へ

インテルのIntel Foundryトップが2年で交代、Naga Chandrasekaran氏が就任

東陽テクニカ、量子センシングに不可欠な高感度イメージングカメラの国内販売開始

九大、隕石衝突がRNAを合成せずに前駆体を分解してしまうことを発見

Rapidusに民間32社が出資 - 官民の総出資額は2676億円に

編集部が選ぶ関連記事

ゼロからはじめるバイブコーディング第13回写真の雰囲気そのままに人物に仮面を被せるツールを作ろう

ゼロからはじめるバイブコーディング第12回話題のAntigravityで「領収書発行システム」を作って格安レンサバで動かそう

Microsoft Edgeの「タブの整理」活用のポイント、AIが自動で整理

TKC、GitHub Copilotの全社定着プロジェクトを開始

サイバーセキュリティ最前線第70回 2月16日～22日の最新サイバーセキュリティ情報 - TENGA USAがサイバー攻撃で個人情報漏えい

AIトレンド最前線第16回 2月6日～2月23日の注目AIニュース - Anthropicが中国AI企業によるAIモデルの蒸留攻撃を公表

Windows 11の設定アプリ、ユーザーアカウント名の変更をサポート

Windowsは危険なドライバーを遮断する、その仕組みとは

このカテゴリーについて

テキストの読み上げ動画を作成するツールを作ろう

テキストを読み上げするツールを作るには？

OpenAIのAPIキーを取得しよう

バイブコーディングを開始しよう

ターミナルから実行してみよう

UIを改良してみよう

動画の背景画像を用意しよう

まとめ

この連載の前後回

合掌も可能！ XNOVAなどが仏教対話AI搭載の「ブッダロイド」を開発

ゼネテック、PLM導入の成功確率を向上させる業務診断サービスを提供開始へ

インテルのIntel Foundryトップが2年で交代、Naga Chandrasekaran氏が就任

東陽テクニカ、量子センシングに不可欠な高感度イメージングカメラの国内販売開始

九大、隕石衝突がRNAを合成せずに前駆体を分解してしまうことを発見

Rapidusに民間32社が出資 - 官民の総出資額は2676億円に

編集部が選ぶ関連記事

ゼロからはじめるバイブコーディング 第13回 写真の雰囲気そのままに人物に仮面を被せるツールを作ろう

ゼロからはじめるバイブコーディング 第12回 話題のAntigravityで「領収書発行システム」を作って格安レンサバで動かそう

Microsoft Edgeの「タブの整理」活用のポイント、AIが自動で整理

TKC、GitHub Copilotの全社定着プロジェクトを開始

サイバーセキュリティ最前線 第70回 2月16日～22日の最新サイバーセキュリティ情報 - TENGA USAがサイバー攻撃で個人情報漏えい

AIトレンド最前線 第16回 2月6日～2月23日の注目AIニュース - Anthropicが中国AI企業によるAIモデルの蒸留攻撃を公表

Windows 11の設定アプリ、ユーザーアカウント名の変更をサポート

Windowsは危険なドライバーを遮断する、その仕組みとは

このカテゴリーについて

合掌も可能！　XNOVAなどが仏教対話AI搭載の「ブッダロイド」を開発

ゼロからはじめるバイブコーディング第13回写真の雰囲気そのままに人物に仮面を被せるツールを作ろう

ゼロからはじめるバイブコーディング第12回話題のAntigravityで「領収書発行システム」を作って格安レンサバで動かそう

サイバーセキュリティ最前線第70回 2月16日～22日の最新サイバーセキュリティ情報 - TENGA USAがサイバー攻撃で個人情報漏えい

AIトレンド最前線第16回 2月6日～2月23日の注目AIニュース - Anthropicが中国AI企業によるAIモデルの蒸留攻撃を公表