1. ハイパー起業ラジオ
  2. [番外編 #11] すげぇぜ!音声..
2025-01-29 22:25

[番外編 #11] すげぇぜ!音声入力×ChatGPT 〜チャチャッと作れるPodcast台本〜

spotify apple_podcasts

:::::::::::::::::: 今週の内容 ::::::::::::::::::

ChatGPTなどの生成AIを活用して、効率的に情報発信を行うテクニックを解説する今回のエピソード。

音声入力を使ってポッドキャストの原稿をわずか15〜20分で仕上げる方法や、プロンプトを工夫して幅広い視点を引き出すコツを具体例とともに紹介します。

また、AIが作った内容を自分の言葉に置き換え、魅力的でわかりやすいメッセージに仕上げるポイントも解説。

効率よく、自分らしい発信を目指す方に役立つ実践的な内容が満載です!

:::::::::::::::::: 再生リスト ::::::::::::::::::

■s09 社長の発信編Spotify:⁠⁠https://spoti.fi/4g8N3y7⁠⁠⁠Youtube Podcast:⁠⁠⁠https://bit.ly/4gcYVyW⁠⁠⁠

■全シリーズSpotify:⁠⁠⁠https://spoti.fi/3zxsWd3⁠⁠⁠Youtube Podcast:⁠⁠⁠https://bit.ly/49HTSEZ⁠⁠⁠

:::::::::::::::::: 出演 ::::::::::::::::::

⁠⁠尾原和啓(IT批評家)⁠⁠

京都大学院で人工知能を研究。マッキンゼー、Google、iモード、楽天執行役員、2回のリクルートなど事業立上げ・投資を専門とし、内閣府新AI戦略検討、産総研人工知能研究センターアドバイザー、現在13職目、近著「アフターデジタル」は11万部、元 経産大臣 世耕氏より推挙。「プロセスエコノミー」はビジネス書グランプリ イノベーション部門受賞

- -

⁠⁠けんすう(アル株式会社代表取締役)⁠⁠

アル株式会社代表取締役。学生時代からインターネットサービスに携わり、2006年株式会社リクルートに入社。新規事業担当を経て、2009年に株式会社nanapiを創業。2014年にKDDIグループにジョインし、2018年から現職。

::::::::::::: 番組への感想・メッセージ :::::::::::::

⁠⁠⁠https://forms.gle/bHQjcgjCCQkFEFDg9⁠⁠⁠

- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -

■音声編集:株式会社BOOK■アドバイザー:⁠⁠樋口聖典(株式会社BOOK代表取締役)⁠⁠

____________________

サマリー

ポッドキャスト制作において音声入力と生成AIの活用法が深く掘り下げられています。特に、オープンAIのO1プロを使用し、音声入力で瞬時に原稿を生成し、論理的に整理する過程が詳しく説明されています。音声入力とChatGPTを活用したPodcastの台本作成に関する実践的な方法が論じられています。誤字脱字を気にせずに音声入力を利用することや、相手を主役にするコミュニケーションの重要性が強調されています。

ポッドキャスト制作の始まり
スピーカー 1
はい、というわけで、ハイパー起業ラジオ番外編でございまーす。
えー、何を話そうかね、という話をしてたんですけれども。
スピーカー 2
そうですね。でもやっぱり、毎回けんすうの編って、やっぱり独自理論がすげぇちゃんとしてて、
やっぱりこう、理論マニアとしてはものすごい興奮するんだよね。
スピーカー 1
ありがとうございます。
スピーカー 2
今回も、どうやって作ったんですか、あれみたいな話とかあったりするんですけど。
スピーカー 1
その話しますか。これ、原稿を作っている時間って、たぶん15分とか20分ぐらいで実はできていて。
スピーカー 2
やべぇな、お前。
スピーカー 1
なんでそんなにスピーディーにできるかというと、やっぱりAIですね。
スピーカー 2
はい、AI。もう生成AIブームですね。
スピーカー 1
AIがすごいんですよ、この2025年現在。
スピーカー 2
特に年末出たさ、やっぱりオープンAIのオーワンプロ、今ちょっとGPTのオーワンプロとか、やっぱりレベル感上がったよね。
スピーカー 1
上がりましたね。月3万円なんですけど、要は4、50万払って優秀な人を雇うのと同じぐらいっていう感覚なんで、安って感じなんですよね。
スピーカー 2
そうですね。僕の感覚でいうと、やっぱり2年目ぐらいのコンサル担当で、ひたすらロジック分解とか、網羅的に1回洗ってみてみたいなところの作業をお願いする人が、5分か10分ぐらいでやってくれる人が常にそばにいる、3万安みたいな感じだね。
スピーカー 1
まさに。例えば今回でいうと、喋ったことを網羅的かつ多角的にポッドキャストの原稿にしてくださいという指示を出した上で、まず考えてることを雑多にめちゃくちゃ喋り続けます。音声入力で。
スピーカー 2
音声入力でやるんだ、雑多に。
スピーカー 1
雑多に。
書かないで。4倍ぐらい確か違うので、音声入力のほうが。
スピーカー 2
なるほど。
スピーカー 1
生成AI使うときのコツって、僕タイピングしないことだと思ってて。音声入力で雑に言っても大丈夫なので。
スピーカー 2
そうなんだよね。
スピーカー 1
5字脱字とかも気にせず、構造も気にせず投稿して、返ってきた答えが1分40秒で1万文字ぐらいの記事になったので、それを読んだ上で追加で思ったことをまたばーっと喋るっていうのをやりますと。
できた原稿を読んだ上で、それは一旦置いといて、それを見ずにGoogle Docsを開いて、今度は構造的にばーっと喋っていきます。音声入力で。
スピーカー 2
そこは、ChatGPTの結果を読むんじゃなくて、自分の中で語り直すんだ。
そうですね。
読まずに。
スピーカー 1
一旦自分の喋ったものを整理してもらった上で、それを読んだ上で再構築するみたいなのをやってます。
そうすると、こことここはこうやった方がいいなとかがあった上でできるので、今回はそれを作った上でリアルタイムに喋りながら、なんかPodcastを収録していくっていうのをやってますね。
音声入力の重要性
スピーカー 2
なるほどね。じゃあちょっと小原の解説家としてまとめて解説していいですか。
はい、もちろんです。
小原GPTとして。今言ったことってめちゃめちゃ実践的なノウハウが凝縮されてて。
まず今、ケンスが今回の原稿を15分で作ったってところのステップを整理すると、一番目が自分の中にある固有の仮説みたいなものを、
一回チャットGPTのO1 Proにぶっこむことによって、O1 Proって早く答えるよりも深く網羅的な知識を返すっていうことに特化されたものだから、
ケンスの仮説っていうものを全体像に引き上げてくれるっていうのが1個目のステップ。
スピーカー 2
2個目のステップの大事な話が、じゃあその入力っていうのに音声入力でやったほうが4倍早いって、これ実は2つのすごいことが含まれていて。
1つはチャットGPTとかクロードとか何でもいいんだけど、生成AIの良さってもともと全体の文脈を見て、その中の大事な質問者の意図を引き上げるっていうところにあるんですよね。
だから、誤字脱字とかあったとしても、自分が長く喋れば喋るほど文脈が発生するから、勝手にチャットGPTが多分この誤字って多分こういう意味で言ってるんだよなっていうことで解釈し直して修正してくれるから、もうバンバン喋ったほうがいい。
かつ、おそらく文章で書いちゃうと、自分で書いた文章を見て、ちゃんとした文章を書かなきゃいけないって言って、多分収束してっちゃう気がするんですよね。
それに対して、誤字脱字も気にせず喋ると、むしろ自分が喋ってるうちに思いついたことをどんどん喋るみたいなことを含めて、アイディア連鎖が行われるから、より網羅的に論理分解してくれるO1プロにとってはネタが提供されるっていうふうになってるんじゃないかなって、まず前半戦思った。
スピーカー 1
おっしゃるとおりで、思いついたことを脱線してもいいので、喋っといたほうがネタになって整理が精度上がるので、人間相手では絶対やんないような思ったことを言い続けるみたいなことができるっていうのはありますね。
スピーカー 2
そうですね。だから、O1プロを使ってなくても、O1ミニとか普通のチャットGPTとかジェミナイとかでもいいんだけれども、こういう自分の思考を整理してもらうときのプロンプトのマジックワードは、他方面から網羅的に考えてくださいっていう、この他方面から網羅的にっていう言葉を入れるだけで、勝手に論理整理してくれるんだよね。
スピーカー 1
そうですね。これ小原さんから習ってめちゃくちゃ使ってるやつですね。あと、10年ぐらいの最新の論文や主張書籍を参考にしてくださいって入れると、参考にしてくれますね。
スピーカー 2
おっしゃるとおりですね。僕も2種類分けてて、自分の妄想を1回妄想として完成度を上げたいなっていう時は、他方面網羅的から始めて、ちょっと俺の考えのアイディアって弱いから
過去言われたことを整理してもらって、自分のアイディアと強めたいっていう時は、今おっしゃったように、自分の仮説みたいなのを強めたいって思った時は、過去の論文や過去の学者の学説などから
似たようなことを言ってるのをできるだけ他方面に上げてくださいっていうと、いろんな学説で説明してくれるから、それで自分のネタを補強して、それからもう1回妄想モードで喋るみたいなことをやるね。
視点の多様性
スピーカー 1
いいですね。
スピーカー 2
っていうのが1段階目としてきて、これを何週も繰り返すっていうのがやっぱりいいよね。
スピーカー 1
そうなんですよね。あとはポイントとしては、参考になったツイートとかを貼って、これに対して反論してくださいみたいな感じで。
スピーカー 2
なるほどね。
スピーカー 1
いろんな視点を手に入れるっていうのが重要なので、それでやってたりしますね。
スピーカー 2
そうだよね。だからそれって2つあって、いわゆる付活算メソッドとしてのチャットGPTって正解を教えてもらう場ではなくて、観点とか論点を教えてくれる場所として使うとめっちゃ学習に進みますよっていう話が1個目と。
あともう1個はやっぱり、オーワンプロにしてもジェミナイにしても、長い入力文を保持できたりとか、過去の答えてくれたことの文脈の中からいろいろ答えてくれるので、
1回自分の妄想を文脈として提供した上で、なんかこのポストが気になるんだけど、このポストも今までの文脈で解説してくださいとか反論してくださいとか、
違う観点として説明してくださいみたいなことを言うと、今までの自分の妄想の中で何か引っかかったことを、あなたの引っかかりってこうじゃないですかって説明してくれるからね。
スピーカー 1
そうですね。これもうめちゃくちゃ音声入力で僕やること進めてるんですけど、やっぱりやらない人が多いんですよ。
スピーカー 2
そうなんだよね。あれなんでなんだろうね。
スピーカー 1
まず何使ってますかって聞かれるんですけど、正直iOSだろうとMacだろうとAndroidだろうと、ほぼ差がないというか、そんなに生成AIで使う分には全く意識しないで大丈夫なので。
スピーカー 2
そうなんだよね。だからこれ件数に教えてもらってハッとしたのが、僕Macをずっと使っててPCとしては、ただMacの音声入力の質があまりにも悪すぎたから、
AndroidのPixelの方の音声入力をリアルタイムでPCの方に取り込むっていうギミックをわざわざ作ってやってたんだけど、
件数にいやそんなことないですよって言われて一回やってみたら、あれMacの音声入力の質上がってるし音声ショートカットキー一発で呼び出せるし便利になってるし、
あともう一個普段の自分の使い方として少なくともChat GPTとかCloudとかへの入力に関しては、5時脱時あっても全体の文脈で見てもらうから気にならないってことを考えたら、
呼び出しの簡単さとか、適当に喋った時にレスポンス早く入力してくれるってことの方がずっと大事なんだよね。
スピーカー 1
まさに、Macだと僕だとコントロールキー2回押したら音声入力モードにするってやってるので、パパッと押してわーって喋るみたいなのをやってるのと、
結構やりがちなのが文字起こしされたものをみんなちゃんと読もうとするんですよ。そうするとなんか変なこと言ってるとか、5時脱時があるとか気になるんですけど、
ポイントとしては生成AIに行ってるのは、生データを渡してるぐらいでいいなと思ってて、生データを何千文字か渡えるとちゃんと作ってくれるので、
たくさん言おうっていうのを目的にした方が楽ですね。
スピーカー 2
絶対そっちの方がいいし、逆にそれをベースにAIが拡張してくれるから、絶対そっちの方がいいから、変換の質よりも文脈を増やすためにだらだら思いつきをどんどん喋っていくって感覚の方がいいっていうのは、
これは本当にみんな気づいてほしいよね。
スピーカー 1
そうですね。だからもう本当に気にせず早口で適当に長い時間喋ろうと思った方が楽ですね。
スピーカー 2
そうだね。と、全然関係ないこと言っていい?
スピーカー 1
はい。
ちょっと俺、件数と通じ合ってるなって思ったのが、俺もコントロールキー2回押すっていうのをショートカットにしたんですよ。
これデフォルトと違いますからね。
スピーカー 2
そうそう、デフォルトと違うんだけど、常に小指がそこのポジションにあるから、もう無意識にマイク入力するときに最高なのがコントロール2回なんだよね。
スピーカー 1
そうですね。そうなんですよ。しかもキャップスロックをコントロールにしてるタイプじゃないですか。
スピーカー 2
全く同じですね。
スピーカー 1
面白い。
スピーカー 2
みたいなマニアックが行き着くところ、みんな同じっていう学説は置いといて。
さらにでもいいのが、それを何回か繰り返してある程度固まったなって思ったら、1回自分で言い直してるっていうところが、これも実は僕も一緒だったんですよ。
なるほど。
それ何かっていうと、結局論理的な文章って情報としては価値があるけど、聞く側からしたらちょっと当たり前すぎてつまらなくなるから、やっぱり自分で語り直すって、ちょっとカタカナで言うとナラティブにするってことなんですよね。
スピーカー 1
はいはい。
スピーカー 2
勝手にナラティブにすると、一つはやっぱり自分の中の物語として喋るから、聞く側が理解しやすくなるし乗っかりやすくなるし、あともう一つは自分がナラティブとして喋ると、行間を補完することを多分いろいろ勝手に付け足すでしょ。
一回論理的にした上で、自分としての物語で喋ると、自分の文脈が論理分解すると客観的になりすぎるものが主観に戻るから、すごく人に伝わりやすい文章になるっていうのは全く僕も一緒のことだと思う。
スピーカー 1
そうですね。おっしゃる通りでチャットGPT入れると客観性が高くなりすぎるみたいなのはありますね。
スピーカー 2
そうなんですよ。
スピーカー 1
おすすめのプロンプトとして最近は、社会、個人、技術の各視点から整理してくださいっていう。
スピーカー 2
なんかかっこいい。いいね。確かに確かに。企業って入れるのいいね。
スピーカー 1
そうです。あ、企業じゃなくて社会、個人、技術だ。
スピーカー 2
技術か。
でもこれって何でもいいよね。だから結局、全部自分の観点だけになるところを、個人だけじゃなくてマクロとしての社会っていうのを入れた上で、あともう一つスパイスを効かす規定をどれにするかっていったときに、
多分技術革新で世の中変わるのが多いから、件数は技術って置いてるかもしれないけど、それを経済っていう観点とか紛争っていう観点とか、その人なりのスパイスで入れればいいもんね。
スピーカー 1
そうですね。まさに新しい視点を手に入れるために何を入れるかなんで、もう本当にラーメンに例えてくださいとか入れても新しい視点入ってきて面白いとかありますしね。
音声入力による台本作成
スピーカー 2
あとこれもやっぱり深津さんメソッドでよく言ってる話だけど、この僕の言ったことに対して反論をしてくださいとか質問をしてください。
ただし、5人の多様な立場からやってください。まず立場を書いてからその後に質問を書いてくださいみたいなことを言うと、そういう5人の立場で選ぶんだみたいな。
その誰の視点を活用するかみたいなこと自体もGPTに委ねてみるみたいなのもいいプロンプトですよね。
スピーカー 1
ありますね。アウトプットされたものを何回も入れて何回もいろんな視点入れて完成させていくっていうのがやっぱりいいんでしょうね。
スピーカー 2
そうなんですよね。しかもこれネタバレになっちゃうんですけど、いいですか若干。今回の収録の前回の経営者発信編の台本を実は共有させていただきながらお話をさせていただいてたんですけど、この台本も誤字脱字だらけじゃないですか。
スピーカー 1
そうなんですよ。
スピーカー 2
これ全部音声入力で作ったってことですよね、台本。
スピーカー 1
そうですね。台本はそれですね。
スピーカー 2
でも結局これって台本後改めて件数が喋るから、誤字脱字で書いてあっても件数が理解できてれば別に文脈戻せるからってことでそのまま放置してるってことだよね。
スピーカー 1
それもありますし、半分あえてで誤字脱字がない原稿にすると読んじゃうんですよ、人って。
スピーカー 2
なるほど、それか。
スピーカー 1
なので荒く作った方が喋ってる感が出るっていうのを発見したんですよね。
すげーなお前、ほんとにすげーなお前。
そうすると手間も減るし一石二鳥だなと思った。
スピーカー 2
そっか、それで前回の収録のタイトルコールっていう一言一句間違えずに言わなきゃいけないところは棒読み感があったのに、本編に入ると急に棒読み感がなくなったのは自分の中で誤字脱字をちゃんと修正するって自分の中で頭が一回動いてるから
そこで棒読み感がなくなったんだ。
スピーカー 1
そうですね、棒読みになっちゃうっていうのが課題としてあったので。
スピーカー 2
なるほどね、しかも誤字脱字上等で台本を音声入力で何回も壁打ちしたうちにやると、誤字脱字OKでやるんだったら別に入力の手間は楽だもんね。
そうですね、だから裏話ですが、これの原稿を作ってるメンバーのラインに投げる時も、今日の原稿できましたの原稿を鎌倉時代のモンゴル帝国が攻めてきた時の原稿にしたっていう小ネタを。
コミュニケーションの技術
スピーカー 1
あれわざと脱字だったの?
スピーカー 2
わざとです。
スピーカー 1
コマビリティ作るんじゃねえよお前は。
スピーカー 2
そういうのが大事かなと思って。
なるほどね、でも逆にそうだもんね。しかもそのツッコミの樋口さんのツッコミがちゃんとそこのツッコミにもう一回ツッコまれるかつ、懸数日産に対する愛をちゃんと入れたツッコミやってたから、やっぱりいい余白の作り方って素敵だよね。
スピーカー 1
そうですね、読む前に棒類を作るところでしたっていうすごい歴史に詳しそうな感じの。
スピーカー 2
お前もう歴史弱者じゃねえだろ樋口さん。
スピーカー 1
めちゃくちゃ良かったですね、あれ。っていうのがありましたね。
スピーカー 2
でもそうだよね、だから今回社長の情報発信編っていう体でやってるけど、あれってもう万人の情報発信に使える実践技だし、さらに言うと別に普段のLINEのコミュニケーションの中で自分のキャラクターを上手く立てていくためのツッコミの余白とか、むしろツッコんだ人が主役になれるっていうような余白の作り方とか。
まさに言ったことを普段のコミュニケーションで実践するって話だもんね。
スピーカー 1
そうですね、まさに。やっぱり相手が主役だっていう風になるだけで、かなりコミュニケーション系は全般的に上手くいくんだろうなと思いました。
スピーカー 2
思うね。だからそれで思ったのが、僕結局コミュニケーションの今4割ぐらいって英語になってるんですけど、英語でやってるときに常にやってるのが、自分がメッセージしようと思ったメッセージをチャットGPTに彫り込んで、これを発信するんだけど、
情緒が伝わるように3つバリエーション作ってくださいって言って作るんですよ。
大事なポイントが、自分が何言いたいとかあえて言わず、情緒が伝わるって言い方するんですね。
そうすると勝手にチャットGPTが3種類の情緒を勝手に考えてくれて、今回って相手を勇めたいんですよね。
勇めたいんだったらこういう書き方をした方がいいですよとか、相手を1回落ち着かせたいんですね。落ち着かせるんだったらこういう表現がいいですよっていうふうに勝手に相手を主役にする余白を勝手にチャットGPTが想定してくれた上で英語を作ってくれるんですよ。
それやることによって、そっか、俺今どっちに相手にどういう変化を提供したくてメッセージしてるのかっていうことが1個目は客観視できるし、やっぱり英語で喋ったときって日本語みたいな適切な形容詞とかここはこのぐらい減り下ったほうがいいかとかわかんないから、そこが提案されると自分の語彙が増えるんですよね、ボキャブラリーが。
スピーカー 1
びっくりしてるのが、同じことやってました。
スピーカー 2
マジか。
スピーカー 1
だからあえて日記みたいなのを書いて英語の勉強するんですけど、感情を入れるっていうのをやって、そうすると言われたらリアルさと感動と共感を入れましょうと。
そのときにこの、例えばdisappointedみたいながっかりしたとか、最初はがっかりしたけど価値があることだと気づいたみたいな価値があるっていうのはこういう単語ですよみたいなのをリストでくれるので、プレーンに書いたものに感情表現を入れてそこの感情表現の語彙を増やすみたいな。
ここがあると伝えやすくなるみたいなのをやってました。
スピーカー 2
それを逆に思ったのが、僕たちの場合は英語、なんていうか日本語に関しては僕らずっとSNS系で生きてるから、こっちの単語とこっちの単語はこっちのほうがいいなとか、収捨選択できるけど、英語になるとできないからそれやってるわけじゃないですか。
でも実はさ、ソーシャルにまだ慣れていない方は日本語で同じことやったら、多分日本語でSNSの中で相手を主役にしていくための語彙が増えると思ったんだよね。
スピーカー 1
ああ、確かに。これちょっとプロンプト開発してどっかでシェアします。それでツイートを入れると相手が主役になるようなツイートになるみたいなのを作ればいいんですね。
スピーカー 2
そうだね。確かに確かに。じゃあもうこれそのものを一回プロンプト集的なノートをお互いが作って、どっちがバズるかっていう競争。競争だ。
スピーカー 1
競争だ。いやー面白い。ありがとうございます。
スピーカー 2
いやいや、結構こういう最新技術ネタで実用的に話す回も意外と面白いね。お互いがハッカーだから。
スピーカー 1
そうですね。1年経ったら消すとかでこういう不老状況もやってもいいかもですね。
スピーカー 2
確かに確かに確かに。2週間ぐらいで消しちゃおうか。
スピーカー 1
それはありですね。それいいな。はい、そんな感じですかね。ということで番外編でした。
スピーカー 2
ありがとうございました。
スピーカー 1
はい、ありがとうございました。
どうも。
22:25

コメント

スクロール