AIを使ったスライド作成の概要
みなさんこんにちは、矢野 哲平です。この番組は、耳で学ぶAIをコンセプトに、初心者・中級者向けに、AIを分かりやすく解説する番組です。
今回のテーマは、AIでスライドを作成する方法について話していきます。
はい、ということで今日は、AIを使ったスライド作成について話していきます。
みなさん、AIでスライドを作ってみたことはありますでしょうか?
過去にAIを使ってスライド作りを試してみたことがあると、でもうまくいかなかったという人も多いのではないでしょうか?
私自身、実はこのパターンです。以前AIでスライドを作ってみたけど、ちょっとうまくいかなかったと。
そこからしばらくAIでスライドを作ることは断念していたんですけど、最近いろいろ試してみて、意外とうまく機能したので、
今日はAIを使ったスライド作成について話したいと思います。
今日話すポイントは主に3つです。
1つ目に、どのAIツールを使ってスライドを作成するのか。
2つ目に、AIを作った私のスライド作成の方法。
3つ目に、実際にAIでスライドを作成して感じた感想や課題点。
これら3点を中心に話していきます。
アプローチ1: テキスト生成とコピペ
はい、それでは早速話していきましょう。
まずは、AIを使ってどのようにスライドを作成するかについてです。
これは大きく分けて3つのアプローチがあると思います。
1つ目がチャットGPTなどを使ってスライドのテキストを生成するパターン。
で、その生成したテキストをスライドにコピペで貼り付けるというものです。
このアプローチのメリットは導入の簡単さですよね。
普段使い慣れているAIチャットを使ってスライドの中身のテキストを作る。
これは非常に導入が簡単です。
反対にデメリット、これは手間がかかるということです。
スライド1枚1枚にAIが生成したテキストをコピー&ペーストする必要があります。
これが1つ目のアプローチです。
チャットGPTやGemini、Cloudなどを使って、私はこういったスライドを作りたいですと。
スライドの中の文面を考えてくださいと生成してもらって、
そのテキストをスライドに直接コピー&ペーストするという方法です。
では次に2つ目のアプローチ。
これはスライド作成に特化したAIツールを使うことです。
例えばスライド作成に特化したAIツール、有名どころで言うとGamma、
あとはNapkin AIなどが有名だと思います。
こうしたスライド作成に特化したAIツールを使うことのメリット、
それは特にユーザーは何かを用意することもなく、
AIツールを使うだけで簡単にスライドを作成できるという点です。
デメリットとしてはお金が発生するケースがあることです。
ツールの利用量が発生すると。
あとは細かい部分を自分で設定できない点、こうした点がデメリットとして挙げられると思います。
そして3つ目のアプローチ。
これはAIを使ってスライドを作成するコードを書いてもらうというものになります。
この方法というのが今回私がメインで話す内容となります。
この3つ目のアプローチ、AIを使ってスライドを作成するコードを書いてもらう。
このアプローチにもいくつか選択肢がありまして、
例えばGoogleスライド、Googleスライドをプログラムで操作してスライドを作成する、
こういったこともできます。
GoogleスライドってGoogle Appsスクリプトというプログラミングで制御ができるんですよね。
そのGoogle AppsスクリプトをAIに書いてもらって、
Googleスライドを作成すると、こんな流れとなります。
もう一つの方法がMARPとAIエージェントを組み合わせてスライドを作成する方法になります。
これが私が使っているアプローチになります。
ちょっと詳しく説明していきます。
まずMARPというのは、マークダウンからスライド画面に変換できるツールとなります。
これはオープンソースのツールで誰でも利用することができます。
ちなみに開発者の方は日本人の方です。
ここで言うマークダウンというのは、テキストの形式みたいなものになります。
例えばシャープ記号一つで大見出しになって、シャープ記号二つで中見出しになるみたいな、こんな感じです。
結構プロンプトでもマークダウンを使って書いている人多いと思います。
とにかくマークダウンという形式で書いた文章をスライドに変換できる、そのツールがMARPとなります。
このMARPにAIエージェントを組み合わせて、できるだけ人間の手間をかけずにスライドを作成しようというアプローチになります。
ここで言うAIエージェントというのは、AIが自律的に判断をしてタスクを進行してくれるものです。
じゃあこのAIエージェントはどうやって使うのかというと、私が使っているのはクロードコードのツールとなります。
ちょっといろいろ言葉が出てきて混乱するかもしれないんですけど、シンプルに登場人物は2人だけです。
まずMARP、日本人の方が開発したマークダウン形式のテキストをスライドに変換してくれるツールです。
そしてクロードコード、これはクロードの会社アンソロピックが開発しているAIのコーディングツールとなります。
登場人物はシンプルに2人だけです。MARPとクロードコード。
このクロードコードっていうのはAIエージェント的な振る舞いができるので、例えばこんなことができます。
そうですね、私がポッドキャストの台本をソースとして渡します。
そこから台本の内容を読み込んでスライドを作成して、あとは自動でファイルを作成してくれると。
さらにそのスライドで使う画像というのも自動で設定してくれます。
あとはスピーカーノート、これはスライドのトークスクリプトみたいなものですね。
そうしたものも自動で生成してくれます。
こうしたスライド作成周りのタスク、それを一気通貫で行ってくれるようになります。
こうした使い方っていうのは、例えば一つ目に紹介したChatGPTなどのチャット画面で行うと結構大変だと思います。
ソースを渡して、ここからスライド作成してくださいと指示をして、
その後に生成した内容を人間がコピー&ペーストをして、ファイルを新規作成すると。
でもスライド作成にAIアジェントのフローを採用すると、スライドファイルの作成まで一気通貫でやってくれます。
スライド作成にAIアジェントを使うとこんな使い方ができます。
結構AIアジェントっていうと導入のハードルが高いように感じる人もいるかもしれません。
ただ今はAIアジェント的な振る舞いをしてくれるコーディングツールっていうのは結構簡単に導入できます。
例えばカーソルとかVS Codeとか、あとは最近だとOpenAAが出しているCodex CLI、あとGemini CLIとかも便利ですよね。
いろいろな入り口があるんですけど、核となる部分はAIアジェントとMARPを組み合わせてスライドを作成するというシンプルなアプローチです。
ちょっとイメージしてみてください。会議の打ち合わせが終わって音声ファイルを渡すと自動で文字起こしがされて、そこからスライドをAIが自動で生成してくれると。
PDFの資料をAIが自動でスライドに変換してくれる。こういったことができるようになります。
結構スライド作成って多くの業務で使われるタスクだと思います。あとは面倒なことも多いので、そこをAIアジェントを使ってできるだけ人間の手間をかけずにやっていくというものになります。
ちなみに今回話しているCloud Code、あとはVS Codeとか、そういったものはプログラマー向けのツールなんですけど、プログラマーでない方にも実は私おすすめだと思っています。
というのが文章の作成、あとは文章構成とか、あとは企画書作りとか、そういった場面でも活躍してくれます。文章の作成っていうのはどの業種でも共通するタスクだと思うので、文章作りとか、あとは資料作り、そうした時にプログラマー向けのツールを使うというアプローチ、面白いと思います。
実際にそうした使い方している人結構増えてますよね、最近。エンジニアではないけど、AIアジェントを使うためにプログラマー向けのツールを使うと。話をAIを使ったスライド作成に戻すと、AIのモデルによってスライド作成の出来が変わってくるっていうのも実際に実験してみて面白かったです。
皆さんはAIを使ってスライドを作成するとき、ChatGPTかGeminiかCloudのモデル、どれが使いやすいと思いますか。これあの私いろいろ実験をしまして、ちょっと報告をしたいと思います。
まず新規でスライドを作成するケース。このケースではCloud、Gemini、ChatGPTの順番でした。Cloudが一番精度が良かったと。今度はスライドの修正指示をしてその修正にきちんと対応してくれるかどうか。これはGemini、Cloud、ChatGPTの順番でした。
AIモデルの比較と選択
スライドの修正指示に関してはGeminiが一番精度が良かったです。これはちょっと私の主観的な順番にはなるんですけど、私が実験した限りではこのような結果となりました。なのでAIを使ってスライドを作成しようとするタスク。こういったタスクではまず第一にCloudをお勧めしたいと思いました。
ただAIモデル、ものすごく進化のスピードが速いので、来月にはChatGPTの方が精度良くなったねと。そういったケース全然あると思うんですけど、私が感じた現時点での感想はそのような順番でした。Cloud、Gemini、ChatGPTの順番でした。
ちょっと話変わるんですけど、AIを使ってスライドを作成するとき、そのスライドで使われる画像をどうするのかっていうのも重要なポイントだと思います。スライドの見た目を整えるために画像を配置するケースって多いと思います。
例えばイラスト屋さんの画像を配置したりとか、あとはフリー画像のサイトから画像を引っ張ってきたりとか、実はAIエージェントを使うとこの画像配置っていうのもAIが自動でやってくれます。
例えばCloudを使ってMARPでスライド作成をした場合、Unsplashというフリー画像サイトから画像を引っ張ってきてくれます。
なので人間がわざわざフリー画像のサイトにアクセスをして、で画像をダウンロードしてスライドに貼り付ける、そういった作業はしなくて済みます。
ただ、じゃあ毎回そのスライドのページにあった最適な画像をAIが引っ張ってきてくれるのかというと、そこはまだ100%の精度ではありません。
ここはまだ改良の余地があると思っています。
ちょっと面白い実験をしまして、その話をすると、AIを使ってそのページにあった画像を探してもらう、こうしたことも実はできます。
具体的にはフリー画像サイト、もしくは自分で生成した画像をまず準備します。
で、画像のファイル名にその画像を説明するキーワードを5つ含めます。
例えばオフィスで働く男女の画像だったら、オフィス、ワーキング、マン、ウーマン、ラップトップとか、こんな感じで画像を説明するキーワードを5つぐらい含めます。
こういった様々なシチュエーションの画像をいくつか用意しておいて、AIにこんな感じで指示を出します。
このページに書かれている内容に最適な画像をイメージフォルダから探してくださいと。
これが意外とうまく機能します。
つまりAIが画像ファイルの名前、それを読み取ってページにあった画像を探してくれると、こんなイメージです。
最初は5つのキーワードとかではなくて、AIが画像を読み取って最適な画像を見つけてもらうような方法を考えていました。
ただ、このやり方はすごく大変なんですよね。
ページに最適な画像を見つけるために、毎回毎回AIが画像を読み取る、これはかなりコストがかかります。
どうしたものかなと思っていたときに、画像ファイルの名前にその画像を説明するキーワードを含めたら、
うまく機能するのかどうかと思って実験をしたら、これが意外とうまくいきました。
スライドで使う画像、結構限られてくると思うので、何十枚か用意するだけでも足りると思います。
あとは、一度そういったものを設定したら使い回しができるので便利だと思います。
その画像を説明する5つのキーワードをファイル名に入れるというものです。
いやいやヤノさん、それめんどくさくないですかと。
画像を見て人間がその特徴5つぐらいキーワードをまとめて、でファイル名を変更すると。
いやこんなのめんどくさくないですかと。
こうした意見はごもっともだと思います。
30枚ぐらいの画像を1枚ずつ見て、で人間がキーワードを考えて、でそれをファイル名として変更すると。
まあ面倒ですよね。
こうしたケースでもAIを使うのがおすすめです。
AIに画像を渡して、この画像の特徴を5つのキーワードでまとめてくださいと。
つまり、AIに画像の中身を説明させるというようなものです。
で私はパソコンにローカルのAI環境を構築して、画像フォルダに配置した画像、これを一括で変換するようにしました。
具体的にはGoogleのローカルで使えるAIモデルのGemmaというものを使いました。
この方法だったら手間もコストもかからないのでおすすめです。
一括で画像の説明からファイル名の変更まで行うことができます。
もちろんChatGPTなどのチャット画面に画像を渡して、でキーワードを抽出してそれでファイル名を変更するという方法もありだと思います。
今回色々試行錯誤しながらAIでスライドを作成する方法を実験していきました。
実験していく中で思ったのが、タスクを分割することって大事だなと改めて思いました。
これスライド作成の話だけじゃなくて、AIにタスクをお願いする場合、全てに共通することだと思います。
タスクの分割による精度向上
ちょっとここ詳しく説明します。
例えばAIにスライドを作成してもらうときに、一度の指示に全部を含めることも可能ですよね。
このソースからスライドを作成してください。
ソースの内容を文脈ごとに理解して、スライドの構成を考えて、スライドの中には画像を配置して、あとはスピーカーノートもつけてくださいと。
一度の指示で全部やってもらうと。
こういった指示の仕方もできるんですけど、多くの場合では精度は落ちます。というか落ちました。
AIにちょっと複雑なタスクをやらせる時は、一度に全ての指示をお願いするのではなくて、
タスクごとに分割して指示をした方が精度が高まります。
例えば、ユーザーが提供したソースの文脈を理解すること、これに特化したAIエージェント。
分かりやすいスライドの構成を考えるAIエージェント。
スライドのページに最適な画像を添付するAIエージェント。
あとはスライドのスピーカーノート、これを考えることに特化したAIエージェント。
このようにタスクを細かく分割して処理をさせた方が精度は高くなります。
これはスライド作成だけではなくて、他のタスクでも共通することです。
オープンAIやGoogleが公開しているプロンプトガイドでも記載されていますよね。
AIにタスクをお願いするときは細かく分割してくださいと。
私が使っているクロードコードというツールでは、サブエージェントというものを設定できます。
ソースの文脈を理解するサブエージェント、スライドを作成するサブエージェント、画像添付するサブエージェント。
こんな感じで細かくエージェントを設定できて、エージェント同士が連携してタスクを行ってくれるので結構便利な機能です。
最後にAIでスライドを作成して感じた課題などを話したいと思います。
マープとAIエージェントを組み合わせたスライド作成。かなり結果も良くて満足しているんですけど、
人間のチェックが全く必要ないか、手直しが必要ないかというと、現状はそうではないケースが多いです。
スライドのテキストの中身は問題ないんですけど、ページを視覚的に捉えたときに、
ちょっとこのレイアウト分かりにくいなぁとか、ページに情報詰め込みすぎだなぁと感じることがあります。
そうした場合に人間の手直しが必要になってきます。
ここがAIを使ったスライド作成で感じている課題ですかね。
これ解決策として考えているのが、視覚的な評価もAIに行ってもらうというものです。
例えばスライドを作成した後に、1ページずつスライドのページを画像としてAIに読み込ませて評価をしてもらうと。
こうしたアプローチ面白いと思うんですけど、ちょっとこのやり方だとコストがかかってしまうので、
やっぱり人間のチェック、手直しが必要になってくる場面というのはまだまだあるかなと思います。
ただ私、以前AIを使ったスライド作成、これに挑戦をして失敗しているんですよね。
最近になって再挑戦してみたら意外とうまくできたので、これから先もどんどんAIの性能が上がって、
人間の手直しなしでAIにスライド作成をお願いできる、そういった未来も近いのかなと思ったりしました。
AIにスライドを作成させて、AIにスライドの評価を視覚的に行ってもらう。
これがうまく機能するようになると、ほぼ人間の手直しなしでスライドが作成できるようになると思うので、結構業務効率も上がってくるかなと思います。
いずれにしろスライド作成のタスクが多い人、こういった方はMARPとAIエージェントの組み合わせ、ぜひ検討してみてください。
はい、それでは今日のポイントをまとめます。AIでスライドを作成するアプローチはいくつかあります。
このエピソードでは、MARPとクロードコードを使ったAIエージェントのアプローチを話しました。
2つ目に、いろいろ実験した結果、スライド作成に適したAIモデルは、クロード、ジェミニ、チャットGPTの順番でした。
そして最後3つ目、スライド作成でも言えることですが、AIに何かタスクをお願いするときは、タスクを分割すると精度が上がります。
はい、今日はこのへんということで、本日もお付き合いいただきありがとうございました。
アプリ開発への興味と質問
今週はお便りをいただいています。ありがとうございます。ちょっと読みますね。
こんにちは。3ヶ月ほど前から聞き始めた新参者です。いつも楽しく聞かせていただいております。ありがとうございます。
第1回から聞き始めて、やっと最新エピソードまでたどり着きました。
NOTEのメンバーシップにも登録しました。UDEMYのレッスンも購入しました。ありがとうございます。
私はプログラム未経験者なのですが、ポッドキャストを聞くうちに、Google AI Studioにとても興味が湧いてきました。
ゆくゆくは趣味として、何かアプリを作ってみたいなと考えています。そこで質問です。
無料プランで少しずつ触ってみているのですが、今後、重量課金に移行した際のAPIの利用量が全く想像がつきません。
質問1、趣味で触る程度で、トークンがどのぐらい消費されて、日本円でいかほどの費用がかかるのでしょうか。
質問2、利用中にどのぐらいのトークンを消費しているのか、カウンターなどで確認ができるものなのでしょうか。
初心者なので、的外れな質問になっているかもしれませんが、ご了承ください。
個々の利用の頻度によって、利用量が変動するのは理解していますが、趣味で始めたとしても、いきなり数万円の請求が来るのではと不安です。
お答えいただけると幸いです。今後とも楽しい配信を楽しみにしています。
お便りありがとうございました。全然的外れな質問じゃないので安心してください。
おそらく、Google AI Studioを使ってアプリを作ろうとする人、多くの方が感じる疑問だと思います。
無料でアプリを作れると聞いたけど、実際に作ってみて予想以上の料金請求されたらどうしようと、これは至極当然な心配だと思います。
1番目の質問にあった、趣味で触る程度でトークンがどのくらい消費されて、2本円でどのくらい費用がかかるのでしょうか。
これに関してお答えすると、使うモデルによりっきりですね。
例えば、文章の構成を行ってくれるアプリとか、あとは文字起こしをするアプリ、ポッドキャストを作るアプリ、どのAIモデルを使うかで金額は変わってきます。
例えばそうですね、画像を生成するアプリを作ると仮定しましょうか。
ユーザーが入力したテキストからピクセルアート、ドット絵、そういったものを作るアプリを作ったと仮定します。
この時にGoogleの画像生成モデルでImagine 4を使ったとします。
Imagine 4の場合、画像1枚あたり0.04ドル、なので1枚あたり約6円かかる計算になります。
100枚画像生成すると600円、なので趣味で触る範囲であればそんなにお金がかかるわけではない点を付け加えておきます。
Google AI Studioでアプリを作って、Google AI Studio上で趣味の範囲で使う。
こうした使い方だと無料の範囲で収まると思うので、あまり心配しなくても良いと思います。
仮に料金が発生したとしても金額は安いです。
なのでいきなり1万円とか2万円、そうした高額な金額が請求されるわけではないのでご安心ください。
私も前にGeminiのAPIを使ってPDFからポッドキャストを作るアプリを作りました。
あの時どのぐらいだったかな。結構使ったんですけど1000円いかなかったですね。
2つ目の質問にお答えすると、利用中にどのぐらいのトークンを消費しているのか、カウンターで確認ができるものでしょうか。
これをお答えすると、はいこれもできます。どのぐらい使ったのかっていうのも確認ができますし、あとは予算とアラートも設定できます。
つまり指定した金額を超えた場合にメールで通知ができるような仕組みもあります。
ちょっとまとめると、まずAPIの料金。これはかなり安く設定されているので、特にGeminiは他のAIモデルに比べても安いです。
なのでものすごくお金がかかるわけではないという点ご安心ください。
いくらかかったのかっていうのも管理ができて、超えそうな場合はメールで通知するような設定もできます。
なのでアプリを作ってみたけどいきなり1万円2万円請求が来た、こういったことは起こりにくいのでご安心ください。
AIモデルのAPI料金を気にする。これは逆にAIスキルをアップするきっかけにつながっていると、そういう見方もできると思います。
どのAIモデルを使えばコストが安くなるだろうという考えはいろんなAIモデルを知るきっかけにもなります。
トークンの消費量を気にする。これはどのようなプロンプトであれば少ないトークン数で効果的な回答を得ることができるのかっていう
プロンプトエンジニアリングを学ぶきっかけにもなると思います。
チャットGPTやクロードよりもジェミニのAIモデルの方がコストパフォーマンスいいなとか、
日本語のプロンプトじゃなくて英語のプロンプトにした方がトークンの消費量を抑えれるなとか。
私もAI搭載のアプリを作り始めてからよりAIの知識が広まったように感じています。
何よりAIアプリ作るの楽しいですよね。
引き続き開発頑張ってください。お便りありがとうございました。
番組ではこのように耳で学べるAIを毎週発信しています。
通勤中や火事の合間にAI情報をキャッチアップできます。
毎週水曜朝に更新していますのでぜひフォローをお願いします。
そしておすすめの生成AIツールをまとめた資料も配布しています。
興味のある方はこちらもぜひ概要欄にリンクを貼っておきます。
お相手は耳で学ぶAIの矢野鉄平でした。また次の配信でお会いしましょう。