00:05
おはようございます。ライターをしたり、デザインをしたり、在宅個人事業主として働いているこばやしです。
今日は少しTips的な内容ですね。こういった音声配信をやっていて、聞かれている方の中には自分で音声配信されている方もいらっしゃると思うんですけど、
音声配信からnote向け、メルマガとかでもいいんですけど、何かテキストコンテンツにコンバートするというのはAIが出てきてかなりやりやすくなったので、
今日は音声配信からnote向けの原稿作成が自動化できたというようなお話ですね。
いろいろこんなのは1,2年前くらいからできていて、いろんなツールがノーコードツールをかませることによってできるような感じになっているんですけど、
珍しいものじゃないんですけど、僕もちょっとその余裕ができたというか、やろうやろうと思っていたことを試しに、
AIアジェントどこまでどう使えるのかなというのを検証する一つの項目の中に、この音声配信からのコンテンツコンバートというのが自分の中での議題にあって、ちょっとやってみたという感じですね。
もともとは、例えばノーコードだったり、N8Nかな、そういうようなノーコードツールをかませることによって、
例えばRSS配信から、こういった音声配信ですね、Podcastからに投稿するとRSSで配信されたりするんですけど、
それを組み取って、そこから音声データを抜き取って、Whisperとか文字起こしAPIみたいなのをかまして、原稿を取ってきて、
それをChatGPTのAPIで、ChatGPTとかじゃなくていいんですけど、文字起こし整形するためのAPIで整形をして、通知させるみたいな感じのやり方でできるんですよね。
そういったメイクだったり、ノーコードツールを使う方が、使い方を覚えていた方が、他にもいろいろそこから分岐してワークフローを組めるったりするので、かなり汎用できるかなと思います。
僕もそういうやり方でいこうかな、メイクも面白そうだし課金してやってみようかなって思ってたんですけど、
ちょっと待ってよと、一回エージェントに聞いてみようみたいな感じで聞いたら、やり方いろいろあって、Google Apps Scriptでもできますよみたいな話があって、え、そうなの?みたいな。
僕、Googleのサービスゴリゴリ使っていて、Google Apps Scriptも割と結構好きなんですよね。
03:05
Googleに統一うまくできている感があって、割と結構好きなんですよ。
あんまり分散するのが好きじゃないし、GAS、Google Apps Scriptを無料で使えるのでサーバーレスだし、個人的に結構好きなスクリプトではあったりします。
今日はノーコードツールを使わずに、手元のGoogle、Google結構みんな使ってるんで、環境の中でどうやってやるのかっていう流れをざっと説明したいなと思います。
手順としては、まず普通に音声配信します。
僕で言うとStand FMだったりで、これ大きい曲にRSSを発行するというような感じですね。
RSSは自動でそこで配信されると、他のPodcastだったり、RSS経由でサービスにつながっていくようなものと捉えていただければと思います。
僕の場合はListenと呼ばれる文字起こしページを生成してくれる、かなりありがたいウェブページに展開をしています。
それを展開するとListenから文字起こし終わったよというメールがくるんですよね。
このメールの発着をキーにして、プログラムを動かすという感じにしています。
流れを全体的に説明すると、音声配信する、Listenに連携される、Listenで文字起こしが完了する、その後完了通知がきます。
これを検知して、Google Apps ScriptでGmailの中を検知して、検明とかで検知をして、
メールに添付されている文字起こし完了した先の文字起こしページみたいのがあるんですけど、
そこを見に行って文字起こしされたテキストをウェブ上から抽出をすると。
そこからは文字起こしデータとしてプログラムの中に取り込んで、
クロードでもGeminiでもいいんですけど、価格的にはGeminiのAPIの方が安かったかな。
結局一発出してそのまま貼り付けて使うっていうことは多分しないので、
結局多分手元で編集しながらクロードと相談する感じになるので、
だったら毎日使うし、言ってもクロードのAPIでも月140円とか、
Geminiだと多分また2,30円とかかな、毎日1本更新したとして。
そんなに変わらないんですけど、どっちみちクロードで触るし、
だったと思って一旦Geminiでやってます。
そういう感じでAPIを設定をして、
Google Apps Scriptの中でGemini APIに割と長文のスクリプト、
プロンプトを渡してるんですけど、
タイトルこうしてとか、見出し3つぐらい作ってとか、
だいたい1,500から2,500字ぐらいの細かいように言うプロンプトですよね。
06:00
それで制御して、整形をして、できたものではどこにやるのかというと、
一旦僕はメールで送ってもらうようにしました。
マークダウン形式で作ってもいいんですけど、
メールでマークダウン形式で送ると記号がそのままノートに貼り付けたときに、
見出しが記号化しちゃうので、
ノート運用する方については、
HTML化して、HTMLメールで見出し設定を整えて送ってって言うと、
本当にメールに見出しの書式が付いていて、
それをコピペするだけでノートべたといけるので、かなり楽ですね。
あとは文字面だったり、その辺りを編集するって言うような感じですね。
コードは基本的にクロードコードで、
クロードコードじゃなくても別にクロードでいいと思います。
僕クロードで作ったのかな。
ガス書いてって書いて、コピペできるようにしてみたいな感じでコピペしてます。
この文章自体もノートにしようかなと思ってるので、
そうだね、コード貼り付けてもいいかな。
Google Apps Scriptですね。
これをGoogle Apps Scriptでコードを書こうとすると、
Google Apps Scriptの中にスクリプトプロパティみたいな、
設定を外出しできるものがあったりするので、
コードにAPIキーとか重要なものを書かなくて済むので、
基本的にはこのスクリプトプロパティとか使った方がいいかなとは思うという
細かいところまでちょっと書いておこうかなとは思いました。
こういうのって結構ニーズありそうだなと思ったので、
一回コンテンツ化しておくかということで、
コンテンツにしてみようかなと思っております。
このまさにこの音声も多分しゃべった後に、
そのままRSSでリストに連携されて、
リストの中で、おそらくWhisperとかその辺の文字起こしAPI使って、
文字起こしが生成されてると思うんですけど、
そのメールが来ると、未読のメールを検知して、
直近の未読のメールを検知して、
GASが動いてページ見に行って、
プログラムに文字起こしを取り込んで、
GeminiのAPIが文章を成形して、
HTMLで僕に届くというところまで来るので、
それを僕はコピーしてノートに貼り付けて、
画像とか差し込んだりして、
記事が出来上がるみたいな、記事の時短をできるようになってきている、
しているというような感じですね。
最終的には、僕もこのノートの文体だったり、
09:03
ノートのネタ自体なものは、またAIエージェントで取り扱いしやすいように、
定期的にノートの文章の抽出、
ノート文章の抽出、編集後のやつですよね。
編集後のノートの文章抽出というものを、
AIエージェントでスクリプトを書いてもらいました。
これはPythonというもので書いてもらったんですけど、
それを実行すると、記事単位にマークダウン形式で保存することが、
ローカルでできるようになるので、
これはまたカーソルとかで読み込ませて、
トンマナのサンプルにしたりとか、
この記事とこの記事で組み合わせて、
こういうことを書きたいんだけど、
ちょっと原案を考えてくれるみたいな使い方を
じゅんぐりじゅんぐりやっているような感じなので、
AIエージェントを使ってみて、
なんとなくできることが増えてきたりとか、
しているなという実感がありますので、
もっときっといい使い方がいっぱいあると思うので、
とりあえず時間は有限なので、
一応観測範囲内でできそうなことから、
いろいろ実験をしているというような感じでございます。
Xとかでこんなのできたよみたいなのは
どっか言ってみたいなとは思いましたので、
よかったら押して聞いて、
分かる人は分かると思う。
普通に難しくないと思うから、
やってみてください。
ノートにもちょっとしてみようかなと思います。
ではでは、失礼いたします。バイバイ。