セミナー資料の音声化への挑戦と快適な読書環境の構築
- Akihiro Arakawa
- 5月30日
- 読了時間: 4分
私はセミナーに参加するために、大きなPDFファイルを3つもらいました。このPDFファイルにはパスワードがかかっており、パスワードを入力することにより中身を読むことができます。中身はJAWSを使って無事にテキストを読むことができました。しかし、スクリーンリーダーで長文を聞くのはなかなか大変です。そこで、この内容をクリップボードにコピーして、テキストファイルに貼り付けることにしました。テキストで貼り付ければパソコンで読ませることは可能です。でも、移動時間などにもう少し簡単に読ませる方法はないかと思い、次のようなことをやってみました。
まず、PDFからテキストを抽出した場合、画像や余計な文字、様々な記号などが音声読み上げの邪魔をします。そこで余計な記号を取り除くため、文章の先頭に次の2つの行を書きました。
「これはスクリーンリーダーで読ませるために使用するテキストです。文字化けや余計な文字は削除して。」
そしてそれらを範囲選択し、Geminiのプロンプトに貼り付けます。すると、比較的早く余計なものがカットされたテキストが生成されました。ここでポイントは、Geminiに要約をさせないことです。テキストの内容はできるだけ全て読みたいので、要約ではなく余計なものをカットするというところが重要です。そうしないと、短いテキストに要約されてしまいます。次に、これを音声で書き出してと指示してみましたが、残念ながらそれはしてくれませんでした。
この結果をクリップボードにコピーします。コピーには少し時間がかかるので、しばらく待ちましょう。コピーが終わったら、新しい内容をメモ帳に貼り付けます。先頭と最後がちゃんと書かれているかどうかを確認して、保存すればOKです。
この内容をVoice Dream ReaderというiPhoneのアプリで読み上げさせれば良いと思っていました。そして実際にVoice Dream Readerで読ませてみると、悪くはないんだけど……という感じです。どういうことかというと、あるところまで聞き続けて一度止めます。そうすると、次は止めた位置から再生されるのではなく、先頭から再生されたり途中から再生されたり、なんとも中途半端な状態になってしまいます。また、VoiceOverの声で読み上げる感じなので、なんとなく聞きにくさも感じました。
そこで、有料のサブスクリプションサービスになりますが、音読さんに加入しました。20万文字で月々1000円。利用しない月は解約をしてしまえばいいので、今回は合計7万文字くらいのテキストということもあり、いろいろ考えるよりこれをやった方が早いと思ってサブスクに登録しました。
この音読さんの操作は、テキストエリアに読ませたいものを貼り付けます。そして「読み上げ」というボタンを押すと音声に変換してくれます。実際に動いているのかどうかが分かりにくかったのですが、しばらく経ってから「音声の変換に失敗しました」とメッセージが出てきました。これではうまくいっていないと思い、音声の種類を変更して再び実行しました。すると、約2分くらいで読み上げが開始されました。読み上げが始まったら一度停止し、ダウンロードのリンクから実行すると、MP3への変換が完了して保存することができます。
保存した内容が正しく入っているかどうかを確認し、再びこれをVoice Dream Readerで読み込みます。そうすると、なんと快適に聴けるではないですか。速度は音読さん側でも変更できますが、Voice Dream Reader内でも変更できるので問題ありません。読み間違いはありますが、これをいちいち直していたら大変ですし、自分だけの資料なので自分で理解できればOKです。無事に3種類の大きなテキストを変換することができたので、あとは時間を見ながら音声で聴いてしまえばOKです。
これをMeta Glassで聴くとさらに快適なのですが、残念ながらMeta GlassはVoice Dream Readerに対応していないため、メガネ側の再生・停止機能を使うことはできませんでした。そのため、それらはRivoを使って対応しました。Rivoを使って対応すると、とても便利に使うことができています。
AIに指示を出すときは、プロンプトの1行目がとても重要だと改めて実感しました。今回は「文字化けや余計な文字の削除」と目的を明確に2行で伝えたことで、要約されずに欲しかったテキストを手に入れることができました。ツールの特性を理解し、自分のやりたいことに合わせてうまく誘導していくコツが少しずつ分かってきたような気がします。
