1. aozora.fm
  2. 79. えるきちさんと楽しい生成..
2023-12-27 1:28:34

79. えるきちさんと楽しい生成AIの話

えるきちさんに生成AIについて基礎からいろいろお聞きしました!

チャプター

  • オープニング
  • えるきちさんの自己紹介
  • 生成AIとは、基本から聞いてみる
  • こんな生成AIはどうだろう、生成AIの使い道
  • 有料版を使う価値、メリット、投資価値について

ゲストからの告知


FORTEからの告知


関連リンク

サマリー

生成AIは人間のような知能や知性を人工的に再現するAIの一種です。そして、文章や画像などの情報を生成することができます。LLMは巨大なデータセットとディープラーニング技術を用いて構築される言語モデルであり、人間に近い流暢な会話や高精度な自然言語処理が可能です。また、ChatGPTやオープンAIの各社の生成AIについても説明されています。そして、生成AIの特化版についても触れられています。エルキちさんとの楽しい生成AIの話の中で、ベースモデルの進化過程やソースコードを学習させたモデルの登場、ステーブルディフュージョンの画像生成など、生成AIの魅力について語られました。GPT-4の進化により、ゲーム会社は自社の世界観に沿った文章を生成できるAIを開発することができ、ゲームにAIが利用されることが予想されています。特にスクエニやバンダムは既にAI開発に取り組んでおり、来年のプレステ5にはLLMが内蔵される可能性もあります。プリズマを使ってAIによるエンティティ-関係抽出を実現し、GPT-4やCopilot Chatを活用したプログラミングのサポートなど、AIがさまざまな分野で進化している様子を紹介しています。また、AIを活用した小説の共同執筆や、GPT-4の投資価値についても言及しています。GPT-4 Turboはリポジトリのコードを読み込み、企業の書き方やコーディングスタイルを自動的に生成することができます。最近の技術進化により、GPT-4は非常に強力なAIであり、プルリクエストの自動レビューや文章の翻訳など、様々な用途に活用できます。LLMの開発において合議性を取ることで精度を上げる工夫があり、それを試した人や論文も存在しています。また、生成AIに特化した新しい会社であるアルゴマティックが設立され、興味のある方は採用サイトをチェックしてみるとよいでしょう。そして、第79回目ではエレキスさんを招いて、生成AIについて基本的なことをお聞きしました。

生成AIの概要
aozora.fm第79回目。第79回目は、えるきちさんをゲストにお招きして、生成AIについていろいろ聞いていく、そんな回になります。
それじゃあ、えるきちさん、自己紹介をお願いします。
はい、えるきちと申します。
生成AIの会社、株式会社アルゴマティックという会社で勤めているエンジニアです。
もともとはフロントエンドとかやってたんですけど、今のアルゴマティックに入ってからはバックエンド、フロントエンド問わず両方やってるような感じですね。
はい、あとは何か言うことはありますか?
何言えばいい?
まあ、自己紹介だから、そんなもんでいいんじゃないですかね。
はい、大丈夫だと思います。ありがとうございます。
今日は生成AIについてってことなんですけども、立ち位置的には私ホルテが、生成AI初心者が、中の人、生成AIを使ったプロダクトを開発しているITエンジニアのえるきちさんにいろいろ聞いてみようっていう回になります。
なので、初心者がベテランと言い方あれかな、上級者にいろいろ聞いてみようって感じなので、結構基本的なところから具体的な使い方みたいなところまで行けたらいいなと思っています。
早速聞いていくんですけども、そもそも論、AIとはってところから認識合わせをしていきたいんですけど、AIっていうのを調べてみたら、アーティフィカルインテリジェンスの略ということで、これは人間の知能や知性を人工的に再現するものというふうに言われています。
ただし、汎用的な再現というのは至っていなくて、要は人間のように喋れるし、例えば機械のラインコードみたいなところでも働けるし、風もできるし、料理もできるし、みたいなことは汎用的なことはできず、特化したものが多いと言われている。
どちらかというとそこら辺は後付けな話だと思っていて、結局コンピューターというものが生まれました。コンピューターであれこれ計算できるようになりました。コンピューターが生まれてから割と初期の頃に、これ知能を再現できるんじゃないかと考えた人がいて、AIという概念を提出したわけですけど、
結局そこから半世紀以上、AIというのが実らなかった。せいぜいこういうコンセプトでやったらいけそうだというのは見えたものの、でも実際にやってみると全然うまくいかない。やり方全然間違っていたとか、そういう歴史があったので、
AIというのは本当にできるのか、みたいな感じの時代がずっと続いていた。
- 机上の空論で終わっていたみたいな。
- そういうようなこともできるよね。何ならデータ、例えば数字とかを加えて学習させて、じゃあこういう風に分析できるよねとか、そういうような感じで始まった。始まったというか、これまでのAIブームというのが3回か4回くらいあって、
その深層学習の時代がたしか3回目になるのかな。そこから次のAIの浮遊はいつだ、みたいな感じであったんですけど、結局そのAIの浮遊が来る前に今回のLLMとかにターンを発する第4次のブームが立ち上がったような感じ。
- なるほど。ありがとうございます。
- あれですね、汎用的という言葉が出てくるのは多分AGIというのが言ってされていると思っていて、アーティフィシャル・ジェネラル・インテリジェンス?Gがちょっと名前で分かりません。
- 汎用的な。要は人間が本来想像したような人工的だって言ってみれば、アトムだったりドライバーだったりマルチだったり、いろいろと想像されてきたようなやつですよね。
LLMの特徴と背景
- そういうのが、じゃあできるかどうかっていうところで言うと、実はもうできてるんじゃね?っていう話すらあって、OPEN AIが表には出してないけどできてるんだという説すら最近登場している状況なんですね。
- っていう、なかなか面白い時代です。
- じゃあ僕がググった情報は、最近というか、そこまで深くなく一般的なところだったという感じだったのかもしれないですね。なるほど。AIについてはそんな感じで。
- そこで、今回その4回目のブームとなった、生成AI。AIに生成がついた生成AIっていうのは、これ何なんでしょうか?
- そうですね。生成AI、10年代後半くらいから、画像生成とかの研究っていうのはあったんですよ。ギャンって言われる敵対的学習だったかな。
- 偽物を見破るAIと、絵を描くAIっていうのを戦わせ続けることで、より精密な絵を描けるようになるっていう研究があった。
- そういうのとかをはじめとして、もともとAIってどちらかというと、生成に使うっていうよりは、何かを分類するっていう作工の方が多かったんですね。
- 例えばこの画像には犬が映ってますとか、そういうのはどちらかというと分類とかの方が多かったんですよ。
- 機械学習のソフトとかをチュートリアルやると、まず一番最初に出てくるのが0から9を認識するやつ。数字を認識するようなやつなんですけど、
- そういうような分類機って言われるような探りのタスクが多かったんですけど、それだけじゃねえぞと。生成とかもできるんだっていうのが10年代後半ぐらいから始まって、今に来るんですけど、生成AI、名前の通り何かを生成するAI。
- 20年過ぎぐらいからそこら辺が本格的になったのかな、たぶん。17年にトランスフォーマーっていう技術が登場したんですね。
- トランスフォーマーってもともとGoogleが機械翻訳とかやりまくっているところなので、機械翻訳のために確かトランスフォーマーを作って、これトランスフォーマーで機械翻訳するとめちゃめちゃ精度いいぞってなって、Google翻訳がめっちゃ人気になった。
- でも機械学習って基本的には教師データみたいなのを学習させるっていうのが普通だったんですね。でもそうじゃなくて、教師データなしで学習して精度のいいものを出せる技術が出れば、それって要はスケールするわけじゃないですか。
- あーなるほど。教師データ必要なAIだと教師データっていう仮生ができてしまう。それがない状態であれば、理論上無限大な人間のようなと言った方がいいかもしれないですけど。
- っていうような背景があったんで、18年のBERTとか、オープンAIがGPTの最初のやつとかを出して、そこから文章を生成するっていうのがめちゃめちゃ流行りだったと。
- それとは別の流れで、確か2020年か21年かそれくらいから画像生成がだいぶ流行り始めたとか、あと僕も全然そこら辺詳しくないから、ちょっとうろ覚えで適当なこと言ってるかもしれないんですけど、まあそういうような映像系だったり音声系だったりっていうのが結構話題になるようになったと。
- 2022年の段階だと、論文にはすごいこと書いてるんですよ。Googleとかも。画像生成こんな風にできます。みんなすごいことを論文には書いて、俺たちこんなだけすごいんだぜって言ってるんだけど、本当?みたいな感じになってたところに、ちゃんと製品として画像生成をするサービスとか登場し始めて、
- そこから一気にブームが始まった。2022年の夏に、ステーブルディフュージョン。あれがオープンソースで8月22日だったかな?23日だったか。その辺りに確かオープンソースで公開するようになって、そこから爆発的に広まった感じ。
- 結局オープンソースで触れるものがあるってことは、全世界の人間がそれを研究できるので、そこからもう一つ重要な背景として3つあって、一つはGitHub、もう一つがHuggingFaceっていう機械学習のデータとかを共有するGitHubのデータ版みたいなサイトがあって、
- ハギングフェイスと、あとアーカイブっていう論文のブレプリントって言われる、要は茶読とかがちゃんと済んではいないんだけど、論文の題材のものを公開して共有するサイト、検索するサイトがあって、そことかで、あれこの技術すげえなみたいな、じゃあ俺たちこういう風にちょっとパラメータいじってみたわとか、こういうようなネットワークを追加したらめっちゃ精度良くなったとか、
- そういうような研究結果を、全世界の人間が寄ってたかって出すようになって、そこから一気にブームが始まった感じ。
文章生成の特性とニューラルネットワーク
- じゃあ、生成AIっていうのは、さっきも話に出たような文章とか画像とか、映像とか音声みたいな、何かの、ここで言えば情報でいいのかな?を単純に生成するAIそのままですけど、という理解で全然あっている?
- まあ、結局AIって呼ばれるものの中でも、生成がブームだから、生成AIっていう言い方をすりゃいいんじゃないの?っていうのが多分あって、まあ別に生成AIっていうルールがあるわけじゃないので。
- なるほど、分かりました、了解です。じゃあ、生成AIっていうのは大体分かりましたと。で、次によく聞くのがLLMってことなんですけど、このLLMをちょっと調べてみたところ、Large Language Models、大規模言語モデルっていうのをやるらしいんですけど、の頭文字ですと。
- これは非常に巨大なデータセットとディープラーニング技術を用いて構築された言語モデルであると。ここで言う大規模っていうのは従来の自然言語モデルに比べて計算量、データ量、パラメータ数、この3つが大幅に増えていると。
で、この大規模言語モデルは人間に近い流暢な会話が可能であり、自然言語を用いた様々な処理を高精度で行えるっていうところが特徴ですと。っていう説明を読んだんですけど、この3つの要素、計算量、データ量、パラメータ数っていうのは具体的にはディープラーニングに使われるものなんでしょうか?
- 結局これもディープラーニングというか機械学習の一種に過ぎないんですけど、機械学習って基本的に入力があります。
- 入力をもとにベクトルを加わせるんですよ。配列を加わせて、配列の数字によってネットワークが繋がってて、シナプスがどんどん繋がってて、どのシナプスを通るかみたいなのがそれぞれ比率が設定されてるんですよ。
- 例えば、Aっていうのを入力したらここのルートが重みが1だから、そのまんまデータ通り抜けます。ここのルートは0だから通らないですとか。そんな感じのネットワークがあって、そのネットワークを機械学習、浸透学習の場合、データを加わせてデータの入力とデータの出力の出力の方から学習させるっていうやり方によって、
- 少しずつ、じわじわとネットワークを構築していくっていうのが大体機械学習です。そういう仕組み自体は別に0から9を判別するやつも、LLMもやってることは変わらないんですよ。ネットワークの種類とか、膨大なパラメータ数とか、そういうのは違うんですけど、っていうのがまずあります。
- なるほど。基本的には同じものであると。さっき言った計算量とかデータ量みたいなもののパラメータ数みたいなものが大幅に増えているっていうところで、最近になって注目されましたと。
- さらに言うと、文章を処理するようなネットワークっていうのは10年代から一応あったんですよ。それは文章って、画像を想像するといいんですけど、画像だったら2次元じゃないですか。
- 2次元あって、2次元のどこかとかはあるにしても、せいぜい位置関係しか意味がないじゃないですか。僕も説明がちょっと下手くそかもしれないけど、それだってごめんねっていうのはさておいて、文章の場合、
- 言ってみれば1次元。文章の先頭から1次元でどんどん加わせていくと。それを加わせていく順番によって、文章の先頭の方にあるものが後半の方に影響を及ぼすこともあるし、真ん中に影響を及ぼすこともあるし、逆に真ん中のやつが先頭の方に影響を及ぼすこともあったりするじゃないですか。
- そういうような特性を持っているものを扱うときに、ニューラルネットワークの中でも時系列を扱うのに特化した仕組みっていうのがあるんですよ。
生成AIの概要とChatGPT
- 1文字目を処理するときと、1文字目を処理するときは何もしがらみはないんだけど、2文字目を処理するときは1文字目の結果を受けて2文字目を処理する。3文字目のときは1文字目と2文字目の結果を受けてっていうような感じのネットワークがあって、リカレントネットワーク、RNNとか言われるようなやつがあって、
それもともと1文字目から2文字目、2文字目から3文字目っていう風になっているから、これつけるしずらいんですよ。
- あーなるほど。どうしても前のものにどんどん縛られていくし、後ろに行けば行くほど、それまでの蓄積分を考えなきゃいけないからってことですね。
- 詳しい仕組みを僕もそんなに理解しきってるわけじゃないからあれなんだけど、トランスフォーマーっていうのが何が優れてたかっていうと、並列性が優れてるので、
1文字目を処理するのと2文字目を処理するのと、そういうのを分割して並列で計算できるから、いくらでも規模を拡大できるよねってなった。
- スケールできる技術を人間が手にしてしまったから、スケールをしてどんどんでかいものを作るようになった。
- じゃあ、なんとなくさっきのAIの話で、劇場の苦労みたいな話は、僕は単純に計算リソース。
- あ、それもある。
- VGAというか、ビデオボードみたいな、一時的マイニングみたいなところで使われていた高精度小数計算みたいなやつが、最近になってできるようになったから出てきたみたいなところもあるのかな。
- それめちゃめちゃあって、ディープニューラルネットワーク、深層機械学習がなんでブームになったかっていうと、ビデオカードで計算ができるようになったからなんですよ。
- ああ、やっぱりそうなんだ。
- だから、2010年代からそこら辺が一気に花開いたのは、まさにビデオカードで、GPGPU、昔の言い方で言ったら、そういうのができるようになったっていうのは大きいですね。
- なるほど、なんとなく分かってきました。
- 本当?なんていうか、だいぶ雑な説明でちょっと混乱させてないかと思ったんですけど。
- でも、これ難しいところが深掘りすると多分長引くんで、今回は表面を広く浅くがいいかなと。
- あと、この専門家じゃないからね。機械学習者というのはそんなに知ってるわけではないので、間違ったこと言ってたらごめんねっていう。
- いったんALBについてはそんな感じで、次に行くとすると。
- じゃあ、ChatGPTっていうのも話題じゃないですか。
- はいはい。
- ChatGPTって何なのかなっていうところを聞きたくて、これはもう生成AIの一種、アプリケーションの一種と考えていいんですかね?
- まず、LLMがあります。LLMの中にはオープンAIが開発しているシリーズのGPTっていうのがあります。
- 確か17年にGPTの1が出て、19年に通過。
- はい。
- で、2020年からその辺りに3が出て、その後最近になって3.5、4っていう感じで進化しているのが、オープンAIのGPTっていうLLM。
- はいはいはい。
- で、ChatGPTはLLMを使ったアプリなんですよ。
- はいはいはい。
- ただのアプリです。
オープンAIと各社の生成AI
- 要はユーザーインターフェースを提供しているだけの側ってことですよね。
- はいはいはい。
- 確か2022年くらいからChatGPTの開発チームが立ち上がって、そこら辺を開発していたみたいです。
- ChatGPT3とかChatGPT4とか4Turboみたいなことで言ってますけど、実際にはGPTと呼ばれるLLMのバージョンが違うと。
- あ、そうそう。
- ってことなんですね。
- アプリの名前としてまずChatGPTがあって、そのアプリとしてのChatGPTの中で使われるGPTのモデルがGPT3.5Turboっていうモデルと、GPT4っていうモデルと、最近登場しているGPT4Turboっていうモデルがそれぞれあって、そのモデルを使うアプリ。
- じゃあChatGPTとLLMって結局は側と中身の関係なだけでなくて、要はエンジンと外装みたいなもんだってことなんですね。
- あーなるほどなるほど。理解しました。
- そこで次に気になったのは、じゃあChatGPT以外にも各社が生成AIと呼ばれるものをいろいろ作ってるじゃないですか。さっきの話だとオープンソースでスティーブルディフュージョンがあるとか、
- あとはGoogleがGEMに、あとなんかTwitterがGlockっていうのを作ってるっていうのをこの間ちょっと見たんですけど、これらって具体的には何が違うのかなっていうのがちょっと気になっていて、LLMは違うんですかね。
- まあLLMは違うんだけど、例えばGoogleの場合はBirdっていうのがサービス名なんですよ。Bird.google.comでアクセスできるBirdっていうのがアプリケーションで、そのアプリケーションが使ってるLLMがこの前まではPalm2っていうLLMで、最近登場したのがGEMに。
- なるほど。LLMの名前だった。はいはいはい。あー理解しました。
- 3.5と4と4ターボみたいな感じですね。
- うーん。理解しました。で、それら各社がオープンソースも含めて生成AIというかLLMを作ってますと。で、複数じゃあ存在する理由って何なんだろうっていうのはちょっと次に。
- ちゃっとGPTというかGPTの性能が良いのであれば、単純に過線というか独占状態になっちゃうんじゃないかなってちょっと思ったんですよね。
- まあ現実問題独占状態なので。
- あっそうなんだ。じゃあブラウザで言うとChromeばっか使ってるみたいな認識で全然間違ってないってことなんですね。じゃあやっぱりGPTは一番性能が良いってことなんですね。
- うーん。で、当然GoogleとしてはうちAIの秘密なんだけどって感じじゃないですか。だからGoogleはGoogleでもう社運をかけて自分たちのジェミニを作って巻き返したいわけだよね。
- なるほどねー。
- それ以外の会社も、例えば元オープンAIの人たちが独立したアンソロフィックっていう会社はクロードっていうモデルを作ってるし、
- 他だと、それこそXのグロックでしょ。
- メタが開発してるのがオープンソースのラマとか、いろいろあるわけですよ。フランスの会社が開発してミストラルとか、それこそ日本が開発してるやつとか。
- まあいろいろあって、結局なんで開発するかっていうと、他人に握られるとまずいんですよ。
- それはシェアを独占されるとまずいってことですか?
- シェア独占されるとまずいももちろんあるんだけど、それ以上に安全保障だっていう人もいるんですよ。
- だってこれ、要は今後100年を占うレベルの頭脳を作ろうとしてるのに、いったん独占させていいのか。
- 例えば国で、日本という国から見たら、アメリカの企業が独占してるAIに依存しなきゃいけないってなったらまずくないですか?
- じゃあもう、いわゆるAIネイティブみたいな時代になった時に、今クラウドとか相当にそうですけど、AWSみたいなGCPみたいなところしかない、選択肢がないみたいなところになってしまうと、
たぶんこれは日本だけじゃなくて、さっき名前があったフランスとかイギリスとかドイツとかいろんな国がそうだと思うんですけど、自国でないところにある種名を握られてしまうみたいな。
生成AIの特化版
- まだ日本とアメリカだったら一応同盟国だから、まだマシかもしれないじゃないですか。
- 中国からしたら困ったというか、たまとんじゃないですかね。
- そのままで、中国は中国で独自のLNMを開発してるんですよ。実は中国も結構でっかいパラメーターで、結構性能のいいやつ作ってたりはするんですよね。
- へぇー、そうなんだ。
- 言語系以外だと結構中国ってプレゼンスあって、画像系のやつとかだと最近結構流行りの技術をボンボンからあげてますね。
- へぇー。
- 例えばその画像の元にアニメーションを作る、動画を作るっていう技術とか、TikTokのバイトダンスとか、あそこら辺が結構そういう技術を出したりとか、あと音声合成系とかで結構いろいろやってるし、論文めちゃめちゃ多いんですよ。
- 結局全世界で見たとき、アメリカは中国なんですよ。
- あー、今中国は単純に人口が多いっていうのがあって、ものすごいですもんね。
- さらに言うと、アメリカの研究でも名前よく見てると、中国人の名前だよな、この人っていうパターンがめちゃめちゃ多いんですよ、やっぱり。
- 最近よく見るようになったのが、ちょっと脱線しちゃいますけど、なんかわからないことが、手ごと上でわからないことがあって、プログラム関連でググったときに、中国語のサイトが引っかかることが多くて。
- そうですね。
- エラーメッセージだけは英語で、文章は中国語みたいな、よくありますよね。
- 最近は、10年くらい前からかな、中国のオープンソースが結構増えましたよね。
- 僕使ってるので、明確に中国っていうのはあるかな、知らないだけであるのかも。
- 結構あると思ってて、大昔で言うと、ドローンIOっていう、仮想マシンじゃないんだろう。
- ドッカーみたいなやつですか?
- ドッカーみたいな。
- バーチャルPCみたいな、バーチャルボックスみたいな?
- 自前で立てるCI。
- CIでドローンIOっていうのがあって、ドローンとかは確か中国。
- へぇー。
- 結構大衆様々なソフトが中国から出たりとか。
- なるほど、わかりました。
- GPTが性能が良くて、独占状態だからみんなそうならないように頑張ってるっていうところで理解はできて。
- その時に気になったのが、いわゆる生成AI、GPTみたいなものが話題になってから、
- いろんなサービスが出てきたと思っていて、GitHubコパイロットとか、
- イラスト生成AI系のもの、それから文章を単純に作成するAIみたいなものもあると思ってるんですけど、
- これらって、生成AIのそれぞれ特化版、プログラム特化、イラストを生成特化みたいな、
- そういう考え方であってるんですかね?
- そこら辺は多分話を混ぜちゃいけなくて、一旦GitHubコパイロットとかの話に行くとすると、
- コパイロットも結局オープンAIのモデルの一つなんですよね。中で使ってるのは。
- 実はLNMって、まずGPT-3っていう一番最初のモデルが生まれました。
- 3っていうモデルが生まれた時、結局何をするかっていうと、全世界のテキストとかを加わせて、それを基に学習させたもの。
- その3の生データっていうのかな?ベアモデルというかベースモデル。ベースモデルはぶっちゃけそんな賢くないんですよ。
- これ4も多分同じで、ベースモデルはそんなに賢くなくて、じゃあなんであんなに賢くオートができるようになるかっていうと、
- その後にファインチューニングやなんやかんやをするからなんですよね。
- じゃあいわゆるディープラーニング的な機械学習的なものをやっただけでは?
- そのファインチューニングも結局機械学習と変わらない。学習の仕方がちょっと違うとか、いろいろあるけど、一旦機械学習という大枠の含みでは変わらない。
- なるほど。じゃあ機械学習にもいろいろあって、単純に学習させただけではあまり頭の良くないというか、トンチンカンなAIにしかならなくて、それを人間が調整してあげることによってあれだけ性能の良い賢いものになると。
生成AIの進化過程
- そのベースモデルから進化していく過程の中に、ベースモデルにさらにソースコードを追加で学習させたというモデルがあるんです。そこからさらにソースコードを学習させたやつとか他のやつをミックスさせてさらに進化させて、その果てにGPT 3.5とかが生まれるわけなんですけど、
- ソースコードを学習させるというのは、これまた1ジャンルありまして、オープンソース系のLLMでも結構ソースコードに特化したLLMって何種類もあるんですよ。今だとGPT 3.5系のコード特化の進化したやつが確かにコパイロットで使われているわけです。
- 今までチャットGPTに何の疑いもなくプログラム関連のことを聞いていて、言われてみれば、確かに普通の文章を学習しただけでは、例えばPythonのコードというかコード規約みたいなことはわからないだろうし、この書き方で合ってるかどうかの判断もつかないから提案もできないだろうから、なるほどミックスされてるんだっていうのは今聞いて思いながら思いました。
- なんかなんだろう、コパイロットを使い込むとわかるんですけど、コパイロットが提案する自然言語の文章はそんなに賢くないんですよ。
- あーコメントみたいなやつ?
- 結構バカっぽいコメントを書いたりしやがるので、コパイロットの本来の使い方からするとそんなに性能高くないっていうのは多分使い込むと感覚としてはわかるかもしれない。
- コパイロットは未経験だからな。
- コパイロットはマジでいいですよ。
- 今度自前でコードを活かす機会があったら、なかなか業務で使えないっていうのがあるので、機会があったら使ってみます。
- じゃあイラストとかいろいろそういう学習していく過程でそれぞれに…
- 画像系はやっぱりまだ系譜が全然違ってて、仕組みから違うので。
- ステーブルディフュージョンとかの画像系のやつって、僕もそんなに詳しいわけじゃないからあれなんだけど、理屈として説明すると、AIを使った画像の加工っていうと、
- 例えば超解像度とかノイズ除去とかあるじゃないですか。
- いわゆるフォトショップ的な…
- まあまあまあ。
- ちょっと違う。切り抜きとかでAIとか使ってるのかな?
- まあそこはそこでまだ…
- この人だけ消したいみたいなときに、その背景を周りの背景から学習というか、コピペじゃないですけど作法を延長したりみたいな?
- 仕組みはいろいろ細かい違いはあるけど、まあやってることはたしかに。
- で、ステーブルディフュージョンは言語モデルとはまた違うやり方で学習をしてて、あれの理屈って、じゃあ完全に均一なノイズがあったとして、それをデノイズ、
- だからノイズ除去したら何が出てくるんだろうっていうとこからスタートしてますよ。
- おー。
- おー、ノイズ除去。
- うん。
- じゃあ最初は別に絵を描こうと思ったわけじゃないんですか?
- いやまあ、最終的にそうなるようにはしてるんだけど。
- あーなるほど。
- つまり、ある画像を用意します。ある画像にノイズを加えて、で、画像、ノイズ入りの画像っていうものがあります。
- ノイズ入りの画像から画像になるように学習すると、ノイズを除去できるようになるじゃん。
- それをどんどん繰り返していくと、完全なノイズから完全な画像にまでいけそうじゃないですか。
- なるほど。理論上は確かに。
- うん。そこに対して、じゃあどんな方向性を持たせるのかっていうのが必要だから、そう単純にはいかないんですけど、
- そのどうやって方向を持たせるかの部分は、言語関係がいろいろ関わって、
- 例えば、そこでプロンプトみたいなのが登場したりとか。
- 自然言語の解析みたいなところに使われると。
- はいはいはい。
- なるほど。理解しました。
- とかまあ、音声系音声系でまた違うだろうしね。
- あれは多分翻訳とかと同じように、入力と出力がセットになったものをひたすら学習させると思うけど。
- うーん。
- なるほど。理解しました。じゃあやっぱりそれぞれに特色というか特徴というかあって、
- 多分LLMとかも使っているものが違うだろうということですね。
- はい。理解しました。
- で、生成AIについていろいろ調べているときに、よく考えたらエルキスさんもプロダクト作っているなと思って、
- しごらくAIっていうものを作っていらっしゃいますよね。
- はいはいはい。
- これは特徴としてはどういったところにあるんですか?
- そうですね。弊社、株式会社アルゴマティックが作っているしごらくAIっていう主力サービスがございます。
- はいはいはい。
- まあ、ぶっちゃけて言うなら、まあ業務用で使えるチャットGPTみたいなものですね。
- はいはいはい。
- で、まあ特徴としては、チャットGPTが持っているような機能と似たようなものがあったりとか、
- 最近だと画像生成も実はやるようになったりとか。
しごらくAIの特徴
- おー。
- なんですけど、最近だとPDFとかテキストとかCSVとかそんな感じの、
- 要は社内にあるドキュメントとかを加わせて、そのドキュメントをもとに回答させるっていう社内ナレッジっていう機能とか、
- そういうのが最近の特徴的な機能ですかね。
- あ、じゃあ本当にお仕事、業務で使うためのもので、
- で、ちょっと思ったのが、なんでしごらくAIっていうプロダクトを作ったのかなっていうところで、
- 要はチャットGPTが優秀なのであれば、チャットGPT使えばいいじゃんっていうのがちょっと思っちゃったんですよ。
- チャットGPTね、いくつか問題点があって、
- あれを業務で使おうと思うと、たぶん一番最初に引っかかるのがクレジットカードなんですよ。
- なるほど。
- チャットGPTって契約単位個人なので、
- あーなるほど。
- クレジットカード何枚用意しなきゃいけない?
- 社員分のクレカが必要になっちゃうと。要は会社用のクレカで、たとえば100人とかっていう。
- 一つのクレカで大量にアカウント登録してもいいかもしれないけど、それやる?
- っていう話ってことですね。
- あーなるほど。
- めちゃめちゃめんどくさいよっていうのがまずあります。
- 確かに一般的なサーフでは考えられないですね。
- あれはどちらかというと個人向けのプロダクトなんですよ。
- あんまり業務で使うっていうのは考えられてなくて、
- だからデフォルトだと学習されちゃったりとか。
- あー確かにそれはありますね。
生成AIの魅力
- っていうのはあるんで、チャットGPTそのものを業務に使うのはちょっと向いてない。
- っていうのがまずあります。
- あーじゃあやっぱりカスタマイズすべきところがいろいろあるっていうところはあるってことなんですね。
- 理解しました。ありがとうございます。
- 次に思ったところは、これちょっと過去にオンシャーのアルコマティックさんのポッドキャストで
- エルキさんが出たときに喋ってるかもしれないんで、もしあれだったらそっちを聞いてくださいでもいいんですけど、
- 今まで話してきたこの生成AIって何が面白いのか?
- あーそこで語ってはいるんだけど、
- 僕自身が生成AIに興味を持ったのってやっぱりステーブルディフュージョンの時だったんですよ。
- なんでかっていうと、Googleとかが論文を出してる研究者のおもちゃぐらいの感覚だったんですけど、
- ステーブルディフュージョンが登場しちゃって、あれ?これソースコードから触れるんだけどってなったじゃないですか。
- さっきのようは実際に触れるものが出てきてしまったと。
- なんていうか、テレビにしか映ってないアイドルと、秋葉原に行けば会えるアイドルってやっぱり違うじゃないですか。
- 僕はアイドル詳しくないからアレですけど。
- なんとなく。
- そんな感じなんで、実際に触れるってなって、これ世界変えるんでは?って思い始めて、そこから興味はずっとあったんですけど、
- 結局その後、言うて画像だしなってなったんですよね。
- 素材を作るのはアリかも?ぐらいの温度感だったんですよね、去年末ぐらいまでは。
- でも実際にチャットGPTが登場して、LLMを触り始めたときに、なんかこれおかしいんだけどってなったんですよね。
- おかしい?
- LLMって結局、言語を入力したら、言語が返ってくるんですよね。
- はいはいはい、まあそれそうですよね。
- で、入力を入れたら出力が返ってくる関数ですと。
- はいはいはい。
- でも、あまりに汎用的すぎる関数なんですよね。
- あー、その普通の関数で考えると、例えば足し算をする関数とか引き算をする関数みたいな。
- 機能が決まってるじゃないですか。
- そうですよね。足し算の関数に掛け算をさせようと思っても、それは無理じゃないですか。
- まあやろうと思ったら足し算を何回も。
- あー確かに確かに。
- っていうような、要は外部から工夫して何か使うがせいぜい石の山だったのに、入力をちょっといじるだけで全然違う出力が出てくる。
- はいはいはい。
- 普通これまでなかったじゃないですか、こんな技術。
- はいはい。いわゆるそれをプロンプとったやつですか?
- はいはいはい。
- なるほど。
- で、そっから、あれこれマジで面白いなってなって、で僕2月の末か3月ぐらいに、土日にこれでゲームを作ってみようと思ってチャレンジをしたんですよ。
- はいはいはい。
- で、その時にあれこれやって、あ、これ絶対面白いわってなって、まあそもそもこの生成AIが本格的、だから今の時点ですらこんだけのことができちゃうんだから、これが1年後2年後になったらもうどうなってるかわからない。
- はいはいはい。
- あ、これ世界変える技術だってなって、3月の時点だと、決断をするそのタイミングまでは僕全職を辞める気全然なかったんですよ。
- で、なんならその1年後のリリースは最低でも見届けて、そっから先の進路を何か考えるかぐらいの感覚だったんだけど、あ、これなんか全職やってる場合じゃねえなってなっちゃって、
まあ最悪なんか会社辞めても何とでもなるはずだから、とりあえず辞めて、もう無限にエレレムを触れる環境に身を置こうと思って、もう会社辞めて、で辞めることを伝えて、
で、直前に一応その今入る会社の代表と話はしたんだけど、実はその時点だと今のアルゴマティックって影も形もなかった。
- 会社そのものがなかったと。
- 会社の設立が4月の13日。
- はいはいはい。
- なので3月の時点ってことは。
- 全然これから生まれるものだから。
- これから生まれるものだから。
- じゃあその表現があれかもしれないですけど、いわゆる不思議ボックスみたいなイメージで。
- そんな感じそんな感じ、魔法の箱。
- なんだかよくわかんないけど、入力するものを変えるたびに結果が変わると。
- そして出てくるものも、なかなか特にGPTとかは精度高いものを返してくると。
- なんかローグライクじゃないですけど、ゲームに対する自動生成ダンジョン探索しているような。
- そしてレアアイテムを引くみたいな探索がちょっとあるみたいなところを、ちょっとゲーム能ですけど。
- そういうふうに思いましたね。
- なるほど、それは面白そうですね。
- あーわかりました。
- ここまでざっとAIというか生成AIについて基本的なところを聞いてきたんですけど、なんかここまででこれは喋っておきたいみたいな基礎的なところであります?
- 次もうちょっと発展的なところに行ってみようかなと思ってるんですけど。
- こんな感じの説明大丈夫ですかね?
- 僕は大丈夫なんで、僕と同じレベルでほぼチャットGPTは一応ユーザー登録して使ったことあるけど、
- LLMとかトークンとか、トークンの話じゃなかったな。
- 名前だけ聞いたことあるけど、よくわからんみたいな人には伝わったと思うんですね。
- まあであれば大丈夫かな。
- じゃあ次もうちょっと発展的な話で、例えばこんなAIどうだろうっていうのを思いつく意味で考えてみたんですけど、
- いくつかあって、ゲームに特化したAI、それから小説ですね、お話を作るAI。
- あとは地図の経路を探索するようなAI。
- A地点からB地点まで無数の経路があった時に、どれが最適かっていうのを考えるようなAI。
- あとはこれちょっと僕が過去にやったことある、AIではなかったんですけど、
- プログラムの関数の呼び出し順を探索するっていう、
- 呼び出し順。
- 例えばA関数がB関数を読んで、BがCを読んでいる時に、
- ABCという呼び出し順が定義できるわけですよ。
- これが巨大なプログラムとなると、それだけで回想構造が、
- もう何百何千何万っていった回想構造になるわけですね。
- これを探索するっていうのがあって、
- 例えばある関数Aを入れた時に、この関数を読んでいる関数と、
- このA関数が読んでいる関数、要は影響範囲ってそれらなわけじゃないですか。
- 全然関係ない関数は影響がないから、影響箇所を調べたりした時に、
- 読んでいる関数と呼ばれている関数みたいなところで、
- 探索をしたりみたいな機能を昔作っていたことがあって、
- これはもうすごい努力作、ソースコードを静的解析して、
- ここでFUNC Aって書いてあって、ここが定義位置で、呼び出し箇所でFUNC Aって書いてあるから、
- ここがコール箇所で、みたいなことを昔やってたんですよ。
- これAI使ったらもっと楽になるんじゃないかなって思ったのが一つ。
- 最後に思ったのが、AIを検知するようなAI。
- メタ的ですけど、機械で自動操作されたようなものを見抜くみたいなもので、
- よくある、私は人間ですみたいな、機械ではありませんみたいなやつを、
- マウスを自動操作して突破するみたいなのがよくあったりするじゃないですか。
- ああいうのを、お前本当はBotだろみたいなのを見抜くみたいなAIもちょっと面白いかなと思っていて、
- 今挙げたのが4つ。ゲーム、小説、地図、関数の話、AI、検知AI。
- っていうところでいくと、どの辺が面白そうというか話して話題になりそうですかね。
- それぞれ面白いんで、1つ目からいきましょう。
AIを用いたゲーム開発
- じゃあゲームのところからいきます。僕思ったのが、まずRPG系でいくと、NPCの会話。
- 要は街にいるNPCって、武器防具は装備しないと意味がないぞしか言わないとか、
- ここはドムドーラの街ですみたいな、ドムドーラ滅びてるからその音を言うしかないんだけど、
- ここはガライの街ですみたいなことしか言わないみたいな、ドラクエ的な話で言えば固定のセリフしか言わないじゃないですか。
- それがオープンワールドのRPGとかだと、当然天候も時間も変わるし、季節も変わるみたいなときに、
- 寒いねとか暑いねとか、今日は天気がいいねとか、今何してるのとか、こんなクエストあるんだけど、
- クエストってちょっとメタ的ですけど、こんな頼み事をしたいんだみたいなことを自動生成できたら面白いかなってちょっと思ったんですけど。
- えっとね、断片的にはもうすでに3月くらいに登場してて、RPGスクールあるじゃん。
- RPGスクールに内蔵できる、確かエレベーションで使ったNPCの会話モジュールっていうのが確かすでにあったはず。
- っていうのがまず一つ。で、それ多分全世界のゲーム会社がみんな同じこと考えてると僕は思ってて、
- なので、おそらくどのゲーム会社も今、LLMのゲームに内蔵できるぐらいのサイズ感のLLMを多分開発してると思って。
- 今話しててちょっと思い出したのが、スクエニクスかな?ポートピアだったと思うんですけど、
- やってましたやってました。
- LLM版というかAI版みたいなものを作っていたなと思って、確かに穴がちあるのがあるんだなっていうのはありますね。
- スクエニとバンダムは絶対来年出すと思ってる。
- なるほど。ちなみにスクエニとバンダムの2つを選んだ。例えばカプコンとか、あとは他のゲーム会社だろうな、ベス戦争だとか。
- そこら辺間違いなくやってるはずなんだけど、僕が知ってるのがその2社。
- なるほど。
- スクエニはさっき言ったようにポートピア実際にやってたじゃないですか。だからあれ実際にもうLLM開発してるんだけど。
- で、バンダムはそもそも昔から開発してるんだよ。
- あ、そうなんだ。
- えー、それは知らなかったな。
- ディスティルバートっていうやつをバンダムの研究所のGithubアカウントで公開してるんですよ。
- はいはいはい。
- で、当然そんなことを大昔からやってたような会社が今のLLMブームでやらないわけがないので、間違いなくやってるのと、あとSAOの権利を持ってるのがバンダムなんですよ。
- あー。
- ソードアートオンライン。
- ソードアートオンラインですよね。
- ソードアートオンラインってテーマ的にAIのゲームの話なので。
- あー、なるほど。
- バンダムがやらなかったら逆に個権に関わってしまうレベルなので。
- なるほど。
- 絶対にやるんですよ。
- あれ、そうか。ドットハックもナムコだったかな?
- あ、そうですね。バンダムかな?
- だった気がする。ナムコクロスカッコに出てたと思うんで。そうか。じゃあ走りと言えば走りなんですね。
制御性の向上とゲームへの応用
- 実際、NPCとして会話するのは普通にできるんですよ。
- 僕も3月の時に実験してたんで。
- あー、確かに確かに。
- シナリオ生成とか、NPCとしての会話とか、そういう感じはできるのは分かってて。
- 3月の時にちょっと苦労したのは、会話はできます。あるいはシナリオを吐き出すことはできます。
- でも制御がうまくいかないのは結構あったんですよね、その当時。
- 制御がうまくいかないっていうのは、何か言い方があるかもしれないですけど、暴走しちゃうんですか?
- 暴走っていうよりは、形式が定まらない。
- あー。
- 例えば、俺税損欲しいんだけどな、みたいな時に、税損以外のデータを吐き出したりとか。
- 何となく。
- あったんですけど、5月か6月に登場したファンクションコーリングっていうやつとか、
- この11月に登場したJSONモードっていうのが、OpenAIのGPTに内蔵されたことで、
- 制御がほぼ完璧にできるようになったので、そこら辺の道筋がめっちゃついたんですね。
- それもチューニングによるものってことですか?
- まあ、チューニングによりますね。
- なるほど。
- 結局多分、応答をいかに御するかっていうのを、
- GPT-4とそれ以外の大きな違いっていうのがあって、
- モデルサイズが違うとか、学習性もいろいろ違うとかあるんだけど、
- 何が一番違うかっていうと、GPT-4はお願いした通りにいろいろやってくるんですよ。
- あー、なるほど。
- 例えば、JSONで吐き出してとか、そんな感じのお願いを聞いてくれる度合いがめちゃめちゃ上がってるんですよ。
- うーん。
- それはやっぱり、そこら辺を丹念に学習してるんだろうなと思ってて。
- 確かに当たり前のように聞いて、それの答えが返ってくることを当たり前のように記載してるんだけど、
- それって確かにすごいことですね。
- ちょっとね、オープンソースのモデルとか特にそうなんですけど、
- 指示に的確に従ってくれることの方が少ないんですよ。
- あー、でもなんとなくわかります。
- チャットGPTじゃない、多分LLMを使ってて、チャットボットみたいなAIで動画配信とかされてる方がいるんですけど、
- 全然前提みたいなものを理解してなくて、謝ったことばっかり言ってるみたいな。
- それが面白かったりするんですよ、あるんで。
- それはなんとなくわかりますね。
- っていうのがあるんで、最近GPT4がいろいろ進化して、おそらくゲームとかめっちゃ作りやすくなってるなっていう反面、
- GPT4ってゲームには実は向いてなくて。
- ほう。
- 何でかというと、あれ暴力表現ダメだったり。
- センシティブな部分は無理ですよね。
- センシティブなのは無理なので、ゲームに踏み込めば踏み込むほどダメになっちゃうんですよ。
- 例えばGTA作れるような。
- グランドセフトウォッド、DTAですよね。
- ああいうものを作ろうと思ったら、GPTとかじゃ無理なので。
- ソウル系、ソウルライク的なものとか、メタルギアとかは無理だと思うんですね。
- ということで、各社が自分たちの世界観に沿った文章を生成できるものは、
- 自分たちで作るしかないんですよ。
- なるほど、なるほど。
ゲーム会社のデータ利用と将来の展望
- なのでさっきの話に戻るけど、バンナムなり、スクエになり、
- あるいは他の全世界のいろんな会社が、多分ガスガス作ってると思います。
- バンナムとかあそこら辺って要はセリフデータとか膨大にAR。
- ああ、はいはいはい。
- これ全部学習できるんですよ。
- 確かにそうっすね。
- ドラッグSFだけでも膨大なテキストではありますもんね。
- もしそこのやつを使わないとしたら、よく使われるのが例えばウィキペディアとか。
- はいはいはい。
- でもウィキペディアでゲーム作れるかってなかなか作れない。
- 難しいですね。
- じゃあ何使うってなったら、おそらくナロー小説とか。
- やっぱそうですよね。
- ああいう方向に多分行くんですけど、当然権利的にやっぱり怪しくなったりするわけじゃないですか。
- 青空文庫とかビクシブとかそういう小説系サイトなのかなって思います。
- おそらくそういうのはあるにしても、やっぱりゲーム会社が自分たちで資産を大量に持ってるのであれば、
- その資産を学習させれば、何なら精度も良くなるわけじゃないですか。
- 質の良いデータが揃ってるはずなので。
- なるほど、理解しました。
- っていうことで、ゲームにAI、LLMが使われるに関しては、僕はもう来年は間違いないと思ってます。
- いやあ楽しみですね。
- で実際性能的にはプレステ5ってLLM内蔵できるんですよ。
- ああそうなんだ。
- だってあれってメモリー16ギガ積んでるんですよ。
- そうですね。
エンティティ-関係抽出の進化
- 今時のLLMって7Bって言われるモデルが、7Bとか13Bって言われる小型なLLMの中ではよく出てくる通知なんですけど、
- そこら辺ってパラメータを思いっきり切り詰めたりすると、メモリー16ギガで楽勝で動くので。
- じゃあある種特化させた、今ゲーム特化の話しますけど、AI、LLMであれば全然動くだろうということですね。
- 別にそいつらにプログラミングさせる必要はないわけじゃないですか。
- 確かに確かに。
- 逆にプログラミングされても困るじゃないですか。
- ゲームのルール変えられても困りますよね。
- ああわかりました。どうしようかな、ゲーム特化。
- この話はもうそんな感じ?
- あといくつか思ってて、共通の話題でちょっと思ったのが、アーマードコア、機体構成、要はアセンブルですね。
- をAIにやらせるっていうのがちょっと思いついていて、結構アセンブル悩むわけですよ。
- この構成にするとあの構成に弱いとか、この構成にすると機動力が低いとか火力が低いとか色々悩ましいところがあって、
- AIにやらせるとどういうことになるのかなっていうのがちょっと面白そうかなと思ったんですけど。
- 方向性が二つあって、一つは最近だとチャットJPTに画像を加えて説明させるって流行ってたから、
- あれはビジョンとか言われるようなやつで、ビジョンに対応したLLMを使ってそれぞれの副長を渡して、
- じゃあこの時にどういう装備を選べばいいですかみたいなプロプトを投げたりして選ばせるっていうのがまず一つ。
- もう一つは別にそんなことしなくても、組み合わせって有限なので。
- まあ確かに。
- ぶっちゃけ限られてるので、ランダムでもいいから組み合わせたやつを実際に戦わせます。
- その勝敗によってどんどん強い組み合わせを学習させていくっていうアプローチ。
- これ言ってみればEGOとかでやってるのと同じですよね。
- そうですよね。
- ゲーム系の場合、勝利条件が明確で、勝ってる負けてるが、ちゃんと判定さえできれば、いかようにも学習はできるので、
- そこはどちらかというとLLMとかそんな高度なこと言わなくても、旧来の強化学習とか言われるようなやつで多分できちゃう。
- 分かりました。ありがとうございます。
AIによる小説共同執筆
- ゲームは一旦置いておいて、次小説の話をちょっとしたいなと思ったんですけど。
- 小説を書く専用のサイトがあります。
- あるんだ。
- それはいくつもあります。
- 僕が思ったのは、あるAIが書いた1ページ目の続きを別のAIが2ページ目を書くとか、
- あとは、いわゆる密室トリック的なやつで、あるAIが密室状態を作り出しますと。
- 出とく?
- そう。別でも同じでもいいんですけど、解法を解かせるみたいな。
- それちょっと面白そうですね。ちょっとやってみたいかも。
- 結構人間の作家だとあるんですよね。ここまでは書いて、事件が起きました。密室です。これを解決する部分をあなたが書いてくださいみたいな。
- あなたが書いてくださいみたいな。
- リレー小説。
- リレー小説みたいな。あったりするのをAIでやったら面白いかなと。
- なるほど。リレー小説はちょっとあれですけど、AIを書く系は実は何種類もあって、ノベル向けの学習をしているやつとかも結構あるよね。
- ですよ。
- 確か日本にも海外にも。
- あ、そうなんだ。そこは全然知らなかったな。
- ツイッターで見た記憶があります。
- 日本で一番有名なのがAIノベリスト。
- 初めて聞きました。
- AIによる文章小説作成アプリケーションソフトウェアである。
- AIノベリストは小説を生成したりお絵かきができたりとか色々するやつなんですけど、この他にも何種類か確かあったんで。
- あとさらに言うとGPT-4が登場した3月ぐらいにちょっと話題になったGPT-4を使って小説を書いた人もいて、当時まだそんなにトークン数が多くなかったGPT-4でちゃんと小説を書いた人がいるんですよ。
- それはもうプロンプトの力みたいな感じですかね。
- プロンプトの力。結局小説全部のサイズに収まらないから、まずあらすじを書きましょうみたいなあらすじを書いて、
- そのあらすじはそれぞれ第1章第2章第3章ってやっていくとどうなりますかとか、第1章はどんな構成ですかとか、第1章の最初と最後だけ書いてくださいとか、そんな感じでやりながら間をどんどん埋めていくみたいな感じの涙ぐましい努力をしながら
- 段階的に?
- 段階的に作るっていうのをチャレンジした人もいました。
- へぇー。面白い。
- 僕も部分的にそのプロンプトを借りてチャレンジしてみたら、確かに書けるなと。
- エラーというか失敗も多いから最後までたどり着くのはかなり困難だけど、でも確かにこの手法でできるなっていうのは実験できたんで。
- 小説を書くっていうのは結構メジャーな使われ方かもしれない。
- あー。ユーネットを想起させるような。
- ユーネット?
- 単に筆頭学習の一回擦ったところから実際のところを風原し直していくみたいな。
- へぇー。そういうのがあるんだね。
- こうUの字してるから、一回下がってまた上がっていって。
- 画像セグメンテーションとかかな。
- なるほど。わかりました。
- ちょっと全部やっていくと、実はもう1時間以上今回ってるんで。
- なるほどね。
- 編集したら短くなるかもしれないけど。
- 一旦ちょっとここら辺で次の、あと2つほどどうしても聞きたいことがあって。
GPT-4の投資価値
- 投資価値の話ですね。
- 投資?
- 要は有料版のチャットGPGの話をちょっとしたくて。
- GPT4とか4Tみたいなものは有料版ですと。
- 月額20ドル。1ドル140円だと毎月2800円になりますと。
- 2800円以上になりますと。
- これは結構高いと個人的には思っていて、それほどのメリットがあるかどうかっていうのをぜひ
- エレキスターにプレゼントというか、お願いしたいなと思ってるんですけど。
- 面白い使い方の一つ言うと、今のGPT4、チャットGPTからやった時に
- トークン数の限界がどんだけだったかっていうのをちょっと忘れちゃったからあれなんだけど
- 僕は試してるのは基本的にしごらくAI上なんだけど
- そのしごらくAI上で、しごらくAIってプリズマっていうORマッパー使ってるんですよね。
- しごらくはフロントエンドもバックエンドもタイプスクリプトで書いてあるので
- 僕の好みで。
- 僕の好みで技術選定したので。
- アルゴマティックのボットキャストで言ってましたね。
- タイプスクリプトで両方書かれてて、プリズマっていうORマッパーが使われてて
- プリズマのスキーマ定義っていうのがありますと。
- それは一つのファイルにモデルっていう形でテーブルが作られてて
- これ全部をしごらくに加わせます。
- そうすると何をしてくれるかっていうと
- それぞれのテーブルなりモデルなり全部説明させられるんですよ。
- なるほど。デビュー設計書みたいなのをわざわざExcelで見なくても
- AIに行けば答えてくれるってこと?
- そうそうそう。例えばスキーマを加わせて
- チャットの発言のログってどのテーブルとかって聞いたらこれです。
- じゃあそれをいじる場合注意点はどこ?
- このテーブルはこうなっているのでアクコーディレーションが払えていて
- この注意が必要ですとかこんな感じで全部答えてくれるんですよ。
- いいですね。今もう完全にExcelのAV設計書で作業してるんで
- このカラムのテーブルはどこだったかなって思ったら
- Don Quixoteの名前のカラム名で検索しないと引っかかんないっていう
- 日本語名も当たり前ですけど書いてない場合もあったりするので
- 例えば業務フラグみたいなものを検索したいと思った時に
- 英語名しか書いてないと引っかからないみたいなこともあるので
- ちゃんとしたデータがあれば適当ですね
- そこら辺もむちゃくちゃテーブル定義だけ加わってたら
- 完全に翻訳も何もかもやってくれる
- 頭いいですね。ER図とか書いてくれたりするんですかね
- それ試したことはないけど書けるかもしれないね
- でもリレーション分かってれば書けそうですよね
- マーメイドとかUMLとかをテキストで表現するやつとかを
- 書き出すことができるので多分ER図とか書けるんじゃないかな
- じゃあプラントUMLみたいな経験数を
- 独自言語って言い方したとあれかもしれないですけど
- 間違いなく学習してるはずなので
- やってるものであればシーケンス図も書けそうですね
- 設計の作業の大半がいざかさになるのかもしれないな
- そういうようなこともできるし
- ちょっと面白い使い方があって
- インフラ構築してます。ログがいっぱい出ます
- ログ食わせます。ここエラーだよって教えてくれる
- エラーとかクリティカルみたいな文言で検索しなくても
- 何時何分何秒にこういうエラーが出てましたみたいなのを教えてくれる
- メグレップの必要はなくなるわけですね
- そうだし、例えばこのエラーの直し方は?って言ったら教えてくれたりとか
- 次につながるのいいですね
- 今までだとエラーじゃんって思ったら
- エラー見せるようコピってググるっていう
- もしくはスラッグ上でこんなエラーが出てましたみたいな感じですけど
- AIに効くっていうのはなかなか便利ですね
- なんだろうね、無料で使えるGPT3.5とかだと
- まずGPT3.5って確か4000トークンしか使えないので
- サイズが限られている
- そんなに頭が良くないので
- そこまでビッチリあれこれ教えてくれたりはしないはず
- これは過去にエルキッズさんと個人的に話したときに話したんですけど
- あるプログラムの否定形の書き方を
- これは単体テストの書き方だったんですけど
- 否定形の書き方を教えてくれたときに
- どうしてもそれが答えられなかったってことがあって
- それは4だったらできるよって話を伺ったので
- それはメリットかなと思って
- そうですね、実はGitHub Copilot
- 今Copilot Chatっていうのもあって
- Copilot ChatってGPT4なんですけど
- Copilot Chatを使うとこのエラー修正してとか
- この関数を説明してとか
- そこら辺一通りのことをお願いできちゃうんですけど
- あとあれだ、ユニットテストを書いてくれができるんですよ
- それは超便利ですけど
- お前いらないって言われそうです
- AIは取ったほうが早いって言われそう
- さらに言うとこれがさらに強化されるのが来年2月なんですよ
- もう決まってるんですよね
- GitHub CopilotのCopilot Enterpriseっていうのが登場して
- Copilot Enterpriseは要はGitHub Enterpriseとかで
GPT-4 Turboの機能
- 登録されてるリポジトリとかを全部読み込んで
- それをもとにこのリポジトリのこの書き方だから
- これはこう書くべきだとか全部やってくれるようになるはず
- じゃあ世界中でいわゆるオープンソース界隈で
- 揉みに揉まれた行動を
- それ自体は別に今までと変わらなくて
- そうじゃなくてその会社の持ってる資産をそのまんま
- 使ってその会社の書き方とかを全部やってくれる
- はーなるほど
- じゃああんまり技術的不採が多い会社は
- まあでもそこの
- プロンプトの工夫だと思ってて
- ここの問題点は何とかって
- 出せるんですよ
- ああそうだ
- 最近弊社が導入しててめっちゃ面白いのが
- えっとねプルリクを自動レビューしてくれる
- ああはいはいなんか聞いた覚えがあったな
- コードラビット
- コードラビット
- コードラビットっていうオープンソースもしくはサーズのやつがあって
- それを使うとプルリクを自動でレビューしてくれるんですけど
- ここエラーハンドリングしてねえぞお前
- エラーハンドリングしろとか
- なるほど
- このロジックだとここで絶対バブルから
- これ修正しろとか
- ああ結構見てくれるんだ
- かなりすごいんですよこういう人に
- それはなんか人間にレビューされるよりなんか
- イラッとしなくちゃいけない
- いや逆にほら人間じゃないから気が楽じゃないですか
- そうですよね
- 相手が機械なんで
- どうしてもレビューはレビュー行って役割の前に人間関係が入っちゃうんで
- その人に対してあまり良いイメージを持ってないと
- ちょっとイラッとするみたいなところはあるかなって個人的には思っちゃうところはあるんだけど
- まああとねこの指摘別にいらないんだけどなは確かにあるので
- そこは仕方がないっていう感じ
- でも多分プロンプトをいじることができるんで
- プロンプトのいじり方で指摘内容も多分変えられるはず
- それはやっぱ3.5より4の方がさっき言ったトークン数の制限もあって
- プロンプトとか加わせられるデータ量の違いからやはり4の方がいいと思う
- でねえっとね3.5ってさっき言ったように4000トークンなんですよ
- 旧来のGPT-4が8000トークンもしくは32000トークンなんですよ
- だいぶ下がりますね
- 基本は8000トークンと思ってよくて
- 最近登場したGPT-4ターボが128Kなんですよ
- なるほど
- 12万8千
- 要はGPT-3のその4から比べると何倍だっていう
- はいはいはいはい
- でこんだけいくと何ができるかっていうと
- リポジトリ全部食わせてなお余裕があるとかそんなレベル感になってくるので
- なるほど
- じゃあなんか業務ではやっぱりセキュリティ的にちょっと使えないみたいな場合でも
- 個人でちょっと開発をしてるとかなんか作業をしてるあるいは文章を書くでもいいと思うんですけど
- みたいな人にもやはり4がおすすめということですね
技術的な疑問に対する回答
- あとね基本的に僕のもともとの考えとして
- どちらかというとGPTには知識を聞くものではないと思ってたんですけど
- なるほど
- どちらかというとあれは言語を操作させるための機械だと思ってたんですけど
- 結構今日聞いててもすごくて
- 例えばこの前GPT-4が11月の初めにあったオープンAIのデブデイ
- GPT-4 TurboとかVisionとかあとText-to-Speech、Speech-to-Text
- あそこら辺のやつが発表になって
- よしじゃあ会社でちょっと午前中にハッカソン的に触ろうぜってなったでしょ
- その時じゃあとりあえずText-to-SpeechとSpeech-to-Text
- 音声入力してTextにしてそのTextをLLBに加えて返ってきた結果を喋らせてみようか
- っていうのをやるんですけど
- その時僕のフロントエンド知識は結構偏っているので
- 音声の入出力とかって感じだったんですけど
- 全部GPTに聞きながら作れちゃって
- あーなるほど
- なので自分の知らないものを作るのにもめちゃめちゃいい
- メンターみたいな感じで
- 有識者って言ったほうがいいかな
- みたいな感じで初めての言語とか
- 例えば初めてゲームを作りますとか
- 初めてデスクトップアプリケーションでちょっとしたものを作りますみたいな時に
- まずどうすればいいですかみたいなところから聞いていける
- 結構それでプログラミング素人なんだけど
- ゲーム作ってみたとかアプリ作ってみたっていう話が結構多いので
- 確かにGPTに聞きながら入門してみたいなのがありますね
- なのでそういう使い方もできますよっていうのと
- あと翻訳が得意なので
- あーなるほどそれちょっといいな
- 翻訳がめちゃめちゃ得意だから
- 例えばタイプスクリプトならこういうふうなコードなんだけど
- クラフターで書いてって言ったら
- 翻訳ってそういう翻訳か
- っていうのができちゃうんですよ
- 例えばパイソン全然わかんないんだけど
- とりあえずタイプスクリプトならわかるから
- このタイプスクリプトのコードパイソンに書き直してって言ったら
- 普通に書いてくれるんですよ
- それはいいですね
- なんならライブラリーもパイソンにあるライブラリーで書き直してって言ったら
- それもちゃんとやってくれるんですよ
- 過去あったのがサーバーサイトコトリンのディスクトップ書いてる時に
- 同じコードをJavaとコトリンで書くっていうケース
- Javaやってる人向けに
- Javaで書くものはコトリンではこうなります
- みたいなのをやったことがあって
- それ結構当時まだGPTなかった
- GPTなかったので自分でやったんですけど
- 結構悩んだというか
- 考えながらやったんです
- それ結構いいかもしれないですね
- ただGPTとかの場合
- GitHubなり世界中にあるソースコードとかを学習させてるので
- 多ければ多いほど強いので
- Python、TypeScript、Java
- みたいな感じのメジャーな言語はとにかく強い
- じゃあなんかTickleとかBasicとか
- いやTickleはまだいけるような
- Tickleはまだいけるかな
- 僕の中でマイナーな方なんだけど
- ちょっと厳しいかもしれない
- ちょっとマイナー寄りになってくると
- どんどん厳しくはなるけど
GPT-4 Turboの使い方と利点
- 情報が多ければ多いほど正確
- 正確で強力
- ちなみに翻訳って聞いて
- 僕が最初に思ったのは
- いわゆる日本語英語みたいな翻訳の方だったんですけど
- これも得意なんですか?
- もちろんそう
- なるほどそれいいな
- 今ちょっと個人的な話なんですけど
- Instagramの認定不可マスターの資格を継続するのに
- これだけ勉強しましたみたいな単位を登録しなきゃいけなくて
- 記事を1個読むと
- 0点何ポイントみたいなポイントがもらえるんですよ
- それが全部英語なんですよね
- PDFになってて
- PDFだとブラウザのGoogleのChromeの翻訳も聞かないので
- コピペしていわゆるDPLでやってるんで
- コントロールCTで翻訳してるんですけど
- DPLもそんなに頭のいい翻訳をしてくれなくて
- たまに間違った
- 間違ったというか日本語的におかしい文脈のことがあるんで
- そうねでも制度的には多分DPLとそんな変わらないとか
- あっそうなんだ
- じゃあそこはそこまでって感じなんですね
- ただそこら辺の翻訳専用のプロダクトと違うのは
- 要は英語の文章加わってこれについて要約してとか
- はいはいはいはいはい
- これどういうことなのとか
- あー質問ができるってことか
- 質問責めにできるんですよ
- なるほど確かに
- それは普通の翻訳サイトとかアプリにはできないことですね
- GPT-4 Turboだったら128Kっていうめちゃめちゃ広大なあれがあるんで
- PDFどれくらいの量かわからないけど丸ごと加わって
- それに関して質問責めは多分できる
- じゃあやっぱメンターがつく
- それも月に1800円で広大なメンターがつくと考えると
- 確かにやっと感じるかもしれない
- 人間と違って2436号で答えてくれる
- 壁打ち相手というか相談相手とか
- そういうような存在に金を出せるか出せないかかなと思う
- 僕のイメージだと便利なツールとかアプリみたいな延長線上で考えてたんですけど
- どっちかっていうと自己投資に近いのかなって今思っていて
- 勉強とかするときのお供みたいな感じで
- 要は学習効率だったりとか資金を下げるみたいな部分に効果があるから
- そう考えると2800円って安いよね
- だって技術書一つ買ったらもう2000円とかするじゃないですか
- しかも質問までできちゃうおまけ付けみたいな
- 貫末にメールアドレスあってメール送るの送るだなみたいなのが
- より気軽に聞けるみたいな理解をしました
- ありがとうございます
- なるほど
- この有料版についてはこの辺りで大丈夫ですかね?
- あとは何だ?機能的には画像生成もできたりするし
- 画像を食わせることもできるし
- 今だとアドバンスドデータアナリティクスっていう
- だから何かを食わせてプログラミングでプログラムを書かせて
- それで処理させて加工するみたいなのもできるので
- よくあるのは例えば決算書とか食わせてこれの表を作ってとか
- そんな感じのタスクもこなせたりするんで
- 使い道はいろいろあると思う
- なんか受け身よりもより積極的に使うっていった方が
- お金払ってるのは当たり前なんですけど
- より価値を見出せるって感じなんですよね
- なんでもできる魔法のプロダクトなので
- 逆に言うと自分が動かないと何もしてくれないので
- 入力がなければ当然回答も出てこないですもんね
- その意味では使いこなせるか使いこなせないかっていうのは
- ちょっと難しいところはあるんだけど
- でも3.5より使いこなしが圧倒的に楽なので
- 3.5はそんなに気の利いたことやってくれないっていうのが多くて
- 読んだと例えばソースコードをペタッと貼って
- ちょっと短い文章を書くだけで
- こっちの意図を結構汲み取ってくれるんですよ
- 3.5はそこまで気が利かないので
- これ別に月1回の決済だから
- 1ヶ月だけ入ってお試しってこともできると思う?
- かも全然もちろん
- じゃあ今もしこれを聞いている方で悩んでいる方がいたら
- ぜひ試して
- 完全1回で1ヶ月聞き放題なんで
- やってみるのもありかもしれないですね
- はいありがとうございます
ハルシネーションと間違いの概念
- 一番最後にこれちょっと某スラック
- というかエルキスさんと僕が一緒にいるスラックで話題になった話で
- プログラムとの違いというのが話題になっていたので
- ここちょっとお聞きしたいんですけど
- 要はプログラムって入力が間違っていると動かない
- 何かしらのエラーを返してくるというものなんですけど
- 生成AIについては入力が間違っていても
- 何かしらの答えを返してくるという
- プログラマー的な気持ち悪さがあるという話があったと思っていて
- えっとね間違いって何っていう話になっちゃって
- はいはいはいはい
- プログラミングの意味での間違いっていうのは
- 入力を与えたら出力が返ってこずにエラーが飛ぶじゃないですか
- でもそうじゃなくてLNMの場合は
- 入力があったら必ず何かの出力が返ってくる
- 人間にとってそれ役に立たないものを勝手にエラーと呼ぶ
- エラーとかハルシネーションとかそういう風に呼ぶことはあるけれど
- LNMにとっては別にエラーでも何でもないので
- あーなるほど
- 確率論に沿ってこの文章が入ってきたら
- この文章を返せば大体合ってそうだみたいなものを返せるに過ぎないんですよ
- ほー
LLMの合議性
- 例えば昔々あるところに行ってきたら
- その次に続くの多分おじいさんとおばあさんみたいな確率が高いわけじゃないですか
- っていうだけの話
- はー
- じゃあチャットGPTとかLNMとかが
- 例えば何か誤った情報を出してきた場合って
- それはもう誤ったとか誤ってないとかっていう次元の話じゃなくて
- 単純に与えられた情報から最も適当というのはそこに当てはまるという意味では適当なんですけど
- 適当であろうデータというか回答を返しているだけ
- ですです
- あ、なるほど
- ハルシネーションが何で起きるかっていうと
- 確率的にその文章の文脈であればこう返すだろうなみたいなのを
- 乱数をもとに選んでいるだけにすぎないので
- うん
- はー
- ただ一応そのハルシネーションを抑えるための研究とか
- そのデータの与え方っていうのはあるから
- 例えばGPT-4がすごいのはそのハルシネーションを防ぐための様々な工夫がやっぱりすごい
- あ、そうなんだ
- 実はねあのGPT-4の開発においてどれがどれぐらいの比重だったかみたいなのがあって
- うん
- ぶっちゃけ専門家とかを大量に投入して
- うん
- このデータは合ってる間違ってるとか
- うん
- そういうのを検証したり修正したり学習させたりする部分にめちゃめちゃコストかけてるんですよ
- あーそうなんですね
- だからあのLNMの開発って計算資源にめっちゃ金かかるイメージじゃないですか
- まあそうですねさっき言ったビデオボードみたいなグラフィックボードみたいなところに
- 学習は1億円からスタート
- なんなら50億円ねとかそんな感じの世界観かもしれないけど
- でもそうじゃなくて
- 要はさっきのベースモデルの話と同じ
- ベースモデルを作るまでが勝負なのではなくて
- ベースモデルを作ったところがスタート地点なの
- さっきのチューニングが大事だと
- うん
- なのでハルシネーションをどうやって防ぐかみたいなのはその後の工夫によっても全然変わってくる
- なるほど
- なのでまあなんだね気持ち悪いっていう意味では確かに気持ち悪くって
- なんか分かんないけど帰ってくるみたいな気持ち悪さはあるのは確か
- 確かになんか帰った時に
- なんか分かりませんみたいなことはあんまり帰ってこない印象があって
- データがないんで分からないですけどこういうことを提案しますみたいなことはあったとしても
- なんか一切合切何も帰ってこないみたいなことは何もないみたいな
- 要は突き放されるみたいな
- 他の人に聞いてくださいみたいなことは一切ない
- ああそこはやっぱり人間になるべく優しく答えるようにやってあるんですよ
- っていうのは評価基準の中にそれがあるんですよ
- あっすよ
- なるほど
- やっぱどんだけ攻撃的なことを言わないとか人間の期待に沿ってるとか
- そういうのが全部評価基準にあってそこら辺を人力でやってるからGPT4はマジすごい
- はいはいはいはい
- っていう感じ
- GoogleのGeminiとかも多分同じようなことやってると思うんですけど
- なんか見てる限りだとやっぱちょっとGPTに追いついてないかなっていう気配を感じなくはない
- うーん
- やっぱ性能的な部分が色々あるってことなんですね
- うんうん
- まあウルトラが出たらまた話は変わってくるかもしれないがそこはちょっと来年に行きたい
- ああなんかその今ちょっとハルシネーションというか間違いみたいなところでちょっと思った素人考えなんですけど
- うん
- なんかAIでパッと思いついたのがエヴァンゲリオンのマリっていう
- ああはいはい
- あれって名前忘れちゃったんですけど3つのAIがあって合議性を取ってると
- うん
- 要は多数決でAI2つがイエスといったらイエスが採択されてノーが採択されることはないみたいな
- うん
- なんかGPTとかLLMとかも合議性にすることによって
- ああ
- より確率を高められるみたいな精度を高められるみたいなことってあるんですか
- ありますね
- ああやっぱあるんだ
- まず1つはそれを実際に試した人がいました
- ああそうなんだ
- 2月だったか3月だったかな
- 深津さん
- ああ聞いたことある
- ノートのCXOだっけ
- はいはい
- とかやってた深津さんがマギシステムっていうのを提案して
- はい
- 清水さんとかも確か試せて
- うん
- っていうのがあるのでなんか異なる3つの人格を与えてその合議を取るみたいなのは実際に試せた人もいます
- うん
- さらに言うとその論文もあります
- ああそうなんだ面白そう難しそうだね
- 結局そのLLMってプロンプトによって全然変わるじゃないですか
- それに何かっていうとプロンプトそのものが研究対象になるんですよ
- はいはいどういうものを入力するかってことですよね
- でその精度を上げるための工夫の中には合議性にするっていうのもあるんですよ
- ああそうなんだ
- で確かね面白い研究が一つあって
- 弱いオープンソースとかの小さいモデルで使って
- イエス・ノーで答えられる質問に置き換えて
- 何種類かのLLMにイエス・ノーで答えさせてそれの合議を取ってやったら
- 精度が実はGPT-3とかよりも上だったみたいな研究が確かあったはずで
- おお面白いですね
- 確かねAsk Me Anythingっていう論文があって何でも聞いてっていう意味だけど
- ただだからタスクをQA方式に変換複数の回答を束ねることで性能向上
- でオープンソースのGPT-J6BでQショットのGPT-3175Bを超える性能を出せると
- っていうのが去年の10月の論文
- LLMの界隈ってチャットGPTから有名になったけど
- LLMの研究自体はそれこそ十何年からあるので
- 結構22年とか21年くらいの論文でも参考にすべきものは割とあるんですよ
- なるほど分かりましたありがとうございます
- 時間もいい感じなんでそろそろ聞きたいことも聞けたっていうのもあって終わりでしょうかと思うんですけど
- 何か江口さんからこれだけは言っておきたいみたいなことはありますか?
- そうだねうちの会社面白いよぐらい
- それは最後に宣伝で言ってもらうということで
- じゃあ一旦これで締めということで
- まずこのポッドキャスト青空FMの告知からしていきます
- このポッドキャストを青空FMではゲストを募集しています
- 話したい楽しいことがあれば誰でもOKです
- 今までポッドキャストのデザインいいけどハードルが高いなとか
- そんなすごい話題なんてないよって人でも大丈夫です
- 普段楽しんでいること趣味の話仕事の話何でも大歓迎なのでお気軽にご連絡ください
- また青空FMではご感想やご意見をお待ちしております
- ツイッターでハッシュタグシャープ青空FMシャープAOZORAFMをつけてツイートしてください
- 配信ページのお便りボタンからもお便りを送ることができます
- ぜひよろしくお願いします
- それではエルキチさんから何か告知があればお願いします
アルゴマティックの設立
- さっきから言っている僕が勤めている会社株式会社アルゴマティックは
- 4月13日に設立されたばっかりの会社です
- 4月1日か3月30日ぐらいにツイートが話題になったと思うんですけど
- DMMの亀山会長が20億円を投資して新しい会社を設立するよというツイートが話題になったと思うんですけど
- そういうようなDMMの亀山さんにお金を出してもらって作った会社です
- この会社は生成AIでやれることをとにかく全部やっていこうという会社です
- 現状ではしごらくAIというさっきまで言っていたプロダクトを開発している事業部
- あとLLMスタジオというLLMの開発やそれを使ったソリューションの開発
- あと表に出せないあれやこれやがいろいろあったりする感じです
- とりあえず興味のある人はカジュアル面談なり何なり申し込んでいただけると良いかもです
- それはもうアルゴマティックさんのホームページの採用サイトから聞けばいいのですかね
- 分かりました後でリンク貼っておくので生成AI興味あるなという人は是非
- 色々な職種に募集されているみたいなので覗いてみてはいかがでしょうか
- あとよかったら会社のポッドキャストの方も聞いていただければ
- それもリンク貼っておきます
- アルゴマティックの方も是非よろしくお願いします
- 最後にポッドキャストの収録
- 多分最近やったと思うんですけどどうだったかというところなんですけどどうでした
- これで良いのかなと思いつくままに喋ってしまったので
- これで良いのかなと間違っていたらごめんねという
- 聞き手の僕がAI初心者みたいな
- 何それ美味しいのみたいなところから入っていったので
- LLMは当たり前のエレキスさんからするとステージが違いすぎるというか
- 視差が違いすぎてあれだったかも
- 僕は聞いていてなるほどと思っていたことも結構聞けたので
- 僕と同じレベルの人からすると非常に有意義な時間になるんじゃないかなと思います
- であればよかった
- ありがとうございます
- じゃあ第79回目ですね
エレキスさんと生成AIの話
- 第79回目はエレキスさんを招きして
- 生成AIについて基本的なところからお聞きしてきました
- エレキスさんどうもありがとうございました
- ありがとうございました
01:28:34

コメント

スクロール