畑 浩史
では早速、今回の登壇者の皆さんの自己紹介に入りたいと思います。
それでは渡辺さん、お願いいたします。
渡辺 琢也
皆さん、こんにちは。今日はお招きいただきまして、ありがとうございます。
私は経産省に2004年に入省してまして、
ここにありますように、大体、役所って2年でぐるぐる移動するんですね。
結構でも私、情報系が長くて、今2021年からは現職です。
1個前はコロナ関係で、当時河野大臣の下でワクチン配ってたりしてましたけれども、今は現職ということで、
今年4年目ということで、今AIを担当しております。どうぞよろしくお願いいたします。
畑 浩史
よろしくお願いいたします。国の色々とAIの試作絡みを司っているところですね。ありがとうございます。
では次、有馬さん、よろしくお願いいたします。
有馬 幸介
よろしくお願いします。忙しい中集まっていただいてありがとうございます。
自己紹介としては、私は今、ストークマーク株式会社にいるんですけれども、
もともとは大学院で、今でいうAIみたいな研究をずっとしていましたけれども、
まだ2009年とかだったので、全然精度出なくて、これで飯食っていくことはできないと思っていて、
ちょっと自信がなかったというのがあって、一回大手のSIRに入社して、6年くらい働いていく中で、
企業のシステムを見ていっていると、これもっとAIでいくらでもよくできるなというか、
のぶしろしかないってすごい思い始めて、血がだんだんたぎってきて、
企業しようかなと思って、スタートアップの方が多いという話だったんですけれども、
私も一緒で、結構悩んでスタートアップをやろうと思って、企業したのが2016年くらいになります。
今はストークマークという株式会社でCTOをやっています。
ちょっと2分ですよね。
畑 浩史
今、渡辺さんの時間がいただいているので、多少大丈夫です。
大丈夫です。
有馬 幸介
会社としてはこういう形で、基本的には企業の情報収集とか資料を作るみたいなのって、
すごくまだワークとして多いので、そこをAIで良くしていくみたいな、
高度化していくみたいなサービスを提供している会社になります。
次言っていただいていいですか。
そうですね、プロダクトとして、AニュースでAサティジーという、
情報収集を自動化したり、調査レポートを自動で作ったりみたいなサービスを展開している会社になります。
次言っていただいていいですか。
基本的には製造業とかの企業で使われているような形です。
ユーザーとしては、ものづくり系企業の研究開発の方なんですよね。
研究開発のエンジニアの人たちって、研究だけしているのかというと、
実は仕事の65%くらいは研究じゃなくて、資料を作ったりとか情報を調べたりしているんですよね。
そこはめちゃくちゃ、本当は研究だけ集中したいのに、そこのワークがあると。
そこをAIでどんどん良くしていくみたいなところのニーズがありまして、
結構使っていただいているようなサービスになります。
畑 浩史
大丈夫ですか。
有馬 幸介
最後ここだけ。
国として国内でも生成AIの開発をしていきましょうみたいなのが、
今年から発表されてきています。
そこの一事業者として我々は採択されているような形になります。
なので本当に、今まさしく国際生成AIを開発しているような会社になります。
よろしくお願いします。
畑 浩史
ありがとうございます。
この辺はいいですかね。
この辺はちょっと後で。
では白井さんお願いいたします。
白井 恵里
皆さんこんにちは。
メンバーズの白井と申します。
私は株式会社メンバーズという会社で、
当初プライム上場企業というところで、
スタートアップというよりは大きな会社かなというところなんですけれども、
そちらでもともと子会社の社長の立ち上げからやってまして、
今は親会社の資本政策でちょっと吸収するよということで、
社内カンパニーという形になって、そのカンパニー社長を継続してやっております。
この1月ですね、一般社団法人Generative AI Japanというものが立ち上がったんですが、
こちらベネッセさんとかウルシステムズさんが中心になって立ち上げた、
生成AIの社会実装を目指していくような法人なんですけれども、
そちらの理事も務めております。
私が見ている事業としましては、
メンバーズデータアドベンチャーカンパニーという組織なんですけれども、
お客様の企業の社内にあるデータを活用することを支援していくようなサービスをやっております。
弊社にはデータのプロフェッショナル、データサイエンティスト、データエンジニアなどが150名ほど所属してまして、
彼らがお客様の企業の中に常駐して、内側からデータを活用していくといったことをやっております。
今日はよろしくお願いします。
畑 浩史
ありがとうございます。
誰ですかね。はい、井上さんお願いします。
井上千鶴
改めます。インフォインフの井上と申します。
本日はこのような機会、ありがとうございます。
私はですね、皆さん見た瞬間、なんか全然違う業界って思われるかもしれませんが、
前田建設工業という、いわゆるゼネコンに入っております。
私自身、建築設計をずっとやっておりました。
その後ですね、弊社の方が建設業だけではなく、道路だとか運営するような事業をやっていくということで、
子会社の立ち上げやプロジェクトの立ち上げといったところをずっとやってきました。
その後ですね、前田建設がこの後ご紹介するインフロニアホールディングスということで、
大体8000人ぐらいですかね、の会社になりまして、
その中でどうしてもB2B企業すぎるというところで、B2Cが弱いというところがありまして、
昨年このインフォインフという会社を立ち上げたというところです。
次お願いします。
今申し上げたインフロニアって何かというと、インフラサービスを全般にやっていくということで、
建設業だとか舗装業だとか建設機械、そういったところ、最近では風力開発なんかのところを参加に入っている会社になります。
次お願いします。
業務としては、インフロニアは建築、土木、そういったものの企画から最後の運営までずっとやっていく一気通貫の仕事をしております。
皆さんこれだけでもイメージを分けにくいかと思うんですが、
その中でもですね、全国でいわゆるものを作るだけではなくて、
水道道路、それからアリーナですね、そういったものの運営といったことをやっております。
次お願いします。
イメージを湧いていただくのために、こんなことですね、仙台空港のコンセッション事業ということで運営事業であったり、
愛知の道路、有料道路の運営であったり、国際展示場、水道下水道、そういったところであったり、
昨今ではですね、国立競技場ですね、こちらの方、ドコモさんと有線交渉券ということでコンセッションに取り組んでいくというものです。
コンセッションって官民連携でそれを運営していきますという事業になっております。
私はこちらの方の仕事をずっとやってきました。
そんな中でですね、非常にBtoBで遠い、みんなから遠いぞという中で、なかなかインフラって劣化して、
どうしようもない状態になってきているというところで、市民の方々にこれを理解していただいて、
井上千鶴
そういったインフラ運営だとかに関わってもらいたいというところがありまして、
このインフォインフというのは、ゲーミフィケーションを使ってインフラデータを集めたり、
AIを使ってインフラを分析して、より良い運営に変えていこうということをやっております。
皆さん、きっとビジネス機械がフィールド実験とかもできますので、きっとあるかなと思うので、
そういった視点で聞いていただければなと思います。よろしくお願いします。
畑 浩史
はい、ありがとうございます。
畑 浩史
ではですね、早速ここから前半のテーマ、日本の生成AI基盤の現状というところに入っていきたいと思います。
生成AI基盤、LLM、大規模言語モデルとか、そういう言葉で基盤という表現が使われていると思うんですけど、
おそらく皆さんパッと思い浮かぶのは、オープンAIのGPTであるとか、アンソロピックのクロードだったりとかだと思うんですけど、
そもそも日本の企業でLLMを開発しているところがあるのとか、そもそもそういう大規模で開発しているようなところで、
本当に勝ち目があるのかと思われている方も多いんじゃないかと思います。
なので、いえいえ、実はそんなことないんだよというようなところをですね、まずは先にお話しできたらと思いますね。
ぜひですね、政府としてもその辺の取り組みですとか、あとは広くそういうところを見られていると思いますので、
全体的なところ並びに政府の取り組みというところにもぜひお聞かせいただけますでしょうか。
渡辺 琢也
この生成AIの話はやっぱり1年半前ぐらいのチャットGPTが出ましたよね。
あれがみんな大って感じになってて、それで政府も大って感じでしたと。
それでその後すぐに自民党やあるいは我々政府としてですね、いろいろ有識者の方からヒアリングすると、
ここ10年、15年はもうこれ生成AI続くよということが言われていた。
あとご存知のように今円安、こういうことにもなるだろうと。
そうするとやっぱり電気からデータセンターからAI基盤からアプリケーションから利活用って考えたときに、
もちろん国際連携は前提なんですけれども、なるべくこれからイノベーションを引っ張っていくサプライチェーンで、
なるべく日本から付加価値を出さないと本当にやばいという危機感がありました。
もちろん先ほど挙げられたようなオープンAIだとかGoogle、これすごいすごい。
これからも彼らどんどんすごいものを作ってくると思うんですけれども、
やっぱり今生成AIは黎明期だし、さすがにもう基盤のところを日本としてもうお手上げ。
つまり我々はAIの基盤を使うだけだということはですね、
やはりその時点でやっぱり取るべきじゃないというふうに政府全体で考えまして、
とにかくこれGPUだということで、まずはこの1年私としてはですね、
ハイパースケーラーの皆様やあるいはNVIDIAの協力を得て、
GPUをとにかく確保しようというところで来たということでございます。
畑 浩史
まさにこの生成AIの基盤を作るときにものすごいデータ量を学習させる、
それには今GPUの基盤が必要で、
まずは政府として日本としても基盤を作らなきゃいけない。
そしてそのためにはまずGPUを確保しようという、そういうようなところですね。
ありがとうございます。
有馬さん、そういう中、実際スタックマークさん自体もそうだと思うんですけど、
スタートアップとして見たときに、実際こうLLMを開発しているような御社も含めて、
実際どういうような動きがありますか今。
有馬 幸介
そうですね。もともと去年チャットGPTが出てきたときに、
弊社のサービスにもチャットGPTを組み込んでいって、
さっきのお客さんとかに使ってもらったんですけども、
やっぱりなんとなく答えられるんですけど、
仕事で使うとなるとやっぱりラストワンマイルが埋まっていないというか、
結局例えばオープンAIとかのLLMモデルだと、
日本語って0.1%くらいしか入っていなかったりするので、
ちょっと出力が機械翻訳っぽかったりとか、
細かい技術の知識とかが十分じゃなかったりするので、
そこでお客さんからもうちょっとなんとかならないと言われたので、
白井 恵里
そういう中で、
既存のオープンAIだったりとかGoogleさんとか、
畑 浩史
いわゆる海外のモデルがあると思うんですけど、
その日本のLLM、もしくは生成基盤への期待みたいなものはありますか?
多分まだ分かってない、
そこまで?
そうですね、その差があるとか、
日本語が特殊だから日本国産の方がいいよねみたいな認識は、
白井 恵里
言ったらそうだよねっていうふうにはなるんですけど、
皆さんの中にはあまりまだないと思います。
そうすると、まだ利用者側、大企業側の課題感と、
畑 浩史
とはいえ先ほどの政府だったりスタートアップのような、
先端を行っている方、もしくは先端を見ている方は、
これはまずいという危機感がある。
ただ、ひょっとするとそこにまだギャップがあるというのは事実かもしれないですね。
はい、おっしゃる通りだと思います。
ありがとうございます。
井上さん、今度お話をさせていただきたいと思います。
白井 恵里
はい、おっしゃる通りだと思います。
畑 浩史
ありがとうございます。
井上さん、今度大企業視点で見た時に、
当然この生成AI、LLMというところは、
もちろん注目が集まっていると思うんですけど、
どういった観点に今見られているかとか、
御社としての取り組みとして大丈夫ですので、
何かありますでしょうか。
井上千鶴
ありがとうございます。
比較的弊社は、ちゃんとGPT出る前からそういったことに取り組んできていて、
社内で実験しようみたいなことでやっていて、
業務では多分この規模の企業としては珍しくですね、
業務でかなり使わせてもらっています。
もちろん最終的なチェックとかしなきゃいけないんですけれども、
そういう基盤がある中で、この業界特殊なんですけど、
建設の設計とかやっていくとですね、
いろんなデザインを作るといったところから、
まずいろんなパターンを出していくわけですけど、
例えばそういったところに生成AIを使っていくということであったり、
実際に建てることになると、鉄筋だとか配管とかいろいろ干渉したりするんですね。
今まで3Dモデルにするっていうだけでも結構画期的だったんですよ。
それをさらに絵を使って解析していくということで、
あと砲器チェックだとか、そういったところに今使っていけるんじゃないか、
ということであったりっていうのを試みています。
なので実はベンチャーの方々が、
うちの先ほど紹介したコンセッション事業で、
フィールドとしていろんなことを実験していくっていう、
アクセラリティフィールドっていう募集を行っているんですよ。
そこでマッチングして、いいシステムがあればどんどん取り入れていく
なんていうことをさせていただいていて、
勉強させていただいているというところです。
畑 浩史
今、いろいろとこれまでの取り組みを含めてやられてきたってことですけど、
まだ実証実験の段階が多いのか、
もう通常の業務だったりとか、
そういうところにもう組み込み始まっているのか、
御社としてはどういうようなステージですか。
井上千鶴
そうですね、領域がいろいろインフラもあるので異なるんですけど、
基本的に社会実装が絶対だということで進めているので、
かなり実装されたものはありますね。
工事現場でもAIまで行かなくても、
例えばトンネルの中で人が入らないでも外で作業をしたり、
どうかの画像解析して掘っていったらいいんだっていうようなところであったり、
道路の劣化度合いだったり、
そんなところを画像解析でやっていくみたいなこともやっています。
畑 浩史
そうすると、生成AIまだそこまで詳しくない方だと、
今のチャットGPではテキストがベースだったところから、
やはりその画像、いわゆるマルチモーダルと言われているようなところも含めて、
かなり幅広くやられているということですね。
井上千鶴
そうですね、文字に関して言えば当然業務の擬似力だとか、
そういうようなことには相当使っています。
幅広く画像関係、できれば空間レベル、
そういったところにしていきたいというところでおります。
畑 浩史
ありがとうございます。
そうすると、先ほどの白井さんとの話を合わせると、
今の生成AI基盤、LLMを見て、さあ始めようという方は、
まだなかなかユースケースがない。
ただ、もともとそういうことを考えていて、
実際にやっている方とかはかなり進んでいるという、
多分その差はありそうですね。
ありがとうございます。
では、ちょっと2つ目のテーマとして、
生成AI基盤の状況の中での開発状況、
これ何かというと、もちろん先ほど、
日本としてこの生成AI基盤をちゃんと開発していかなければなりません。
そして、この生成AI基盤をちゃんと自分たちで作らなければいけない。
またそこにニーズもあるだろうという中、
とはいえ、じゃあ本当にオープンAIだったりとか、
Googleだったりとかに勝っていけるのか、
もしくはそこに何か差があるのかとか、
そういうところをぜひ、有馬さんもちろん最先端にやられていて、
その辺の感触ですね。
この辺はもう全然いける。
もしくはでもやっぱりこの領域は厳しい。
それはひょっとしたらもうそもそものGPUの供給量かもしれないですし、
だからそういう観点でもしぜひお聞かせいただければ。
有馬 幸介
じゃあ自己紹介でカットされたやつ。
畑 浩史
そうですね。
有馬 幸介
基本的にそのホリゾンタルに全てのユースケースを薄く。
畑 浩史
どの辺ですか。
有馬 幸介
もう一個前ですか。その前かな。
この辺ですね。
実際GPT-4と比べてどうなるのかというと、
僕らって、僕らのお客さんは研究会社とかですので、
技術とか市場の情報がすごく重要ですと。
なのでそこの市場とか技術の情報を僕らのCCIで徹底的に学習させたら、
その左にある状態のように、実はそのChatGPTだと
60点ぐらいしか答えられないところを90点ぐらいまで
ちゃんと答えられるようになってきていると。
なので、なんていうんですかね。
まんべんなくなんとなくいろんなユースケースに答えられるみたいな
ちょっと雰囲気イケメン的な領域だと絶対いけないんですけど、
どっかに絞ってユースケースに特化させてLM作っていくと、
でも全然オーバーパフォームしたというか、
リズムレベルになっていくようなものは全然ある。
畑 浩史
全然勝てると。
有馬 幸介
言ってますけどね。
畑 浩史
実際でもこの結果を見てもそういうことですよね。
有馬 幸介
そうですね。
畑 浩史
皆さんイメージで、本当にメディアにもたくさんChatGPTが出ていて、
かなわないんじゃないかなんとなく思っているかもしれないですけど、
全然領域を絞れば、実際この数字として勝っているスタートアップが
もちろん御社もそうですし、それ以外も含めて全然あるということですよね。
そうですね。
有馬 幸介
これまでのITの技術とAIの技術の決定的な違いは何かって思ったんですけど、
AIって忘れるんですよね、どんどん。
昔の情報を詰め込めば詰め込むほど、どんどん昔のことを忘れていっちゃって、
本当に覚えてほしかったものとか覚えてくれなかったりするんですよね。
なので、用途に特化したLMで、絶対覚えてほしい知識を覚えているLMみたいなものは
作っていく必要があるなというのはすごく感じている状況でございます。
畑 浩史
なるほど。
あとは有間さん、実際、例えば海外のエンジニアだったりとか、
海外でCCI、LMを開発している方と話すこともあると思うんですけど、
そこで日本のエンジニアと海外のエンジニアの差を感じたりとか、
そういうことがあったりしますか?
ぶっちゃけ、だから本当に大リーグと日本の野球ぐらい、
有馬 幸介
すごい差があるように感じるかもしれないですけど、
そうしたら、あれ、俺と一緒じゃないみたいな。
俺とあんまり変わらないじゃんみたいなのはちょっと思った。
技術的には優秀なんだよ、日本の人たちって。
畑 浩史
そこまでエンジニアレベル、技術的なレベルで別に差があるわけではなく、
全然それはもう対等にやっていけるというところですね。
有馬 幸介
そこはそう思いますね。
ただ資金調達の環境とかがすごく充実しなかったりとか、
GPがそういうことなかったりとかはあったんで、遅れとったんですけど。
畑 浩史
そういう資金のところは。
技術的なものだったりとか、そういう実際アルゴリズムを作るとか、
そういうところは別にそんなに差を感じないし。
いやもうアリマさんが大谷翔平に見えてきましたね。
もう全然行くぞと。
有馬 幸介
行けるんじゃないかなと。
渡辺 琢也
なるほど、なるほど。
畑 浩史
なるほど、ありがとうございます。
実際その今、プログラムを走らせて見られているところで、
あとちょっと後半で、
多分その辺のデータの話も出てくるところですね。
はい、ありがとうございます。
そしたらですね、
今度は3つ目のテーマで、
課題ですね。
今もいくつか出てきたかと思います。
その中で、
しらいさん、
先ほどデータ活用のところで、
どうしてもユースケースが生まれてこないという、
話もあったんですけど、
それに関連してもしくは、
何かこう、
データ活用の観点から見ての課題とかあれば、
他にもお聞かせいただければ。
白井 恵里
はい、ありがとうございます。
そうですね、
今、もしかしたら瀬戸際なのかもって思っていることがあって、
先ほどストックマークさんのデータで、
ストックマーク規制等率が0.9、
で、チャットGPだと0.6ちょいっていうデータがあったと思うんですけど、
0.6だととても業務には使えないアウトプットなんですね。
やっぱりこれだったら、
新卒の人に出してもらった方がいいわってなっちゃって、
そこから育てるっていうモチベーションが湧かない。
0.9あれば、
いいじゃんっていう手応えがあって、
ちょっと直したらいけるねっていう感じになるんですよね。
このラインが、
業務だったり会社によって違うんですけど、
おそらく70%、80%の辺りにあるだろうっていう感触は持っていて、
で、今チャットGPT使っている企業さんがすごく多いんですけど、
で、結構みんなが触れるようにして、
勝手に自分の業務を効率化してみてみたいな状態の企業さん多いんですが、
それで、やっぱ使えないじゃんっていう風に諦められちゃうっていう状況が
ちょっと出てきてるんじゃないかなとは思ってます。
なので、かといって国産のやつ、
すごい良いのありますよって言っても、
みんなが使ってないから、
それのデバッグじゃないけど、
リスクを最初に取る人にはなりたくないんですよね。
使ってみないと何が起きるか分からないんで。
なので、国内の事例が出てこないと、
なかなかそっちも活用済まないしっていうところで、
企業が勇気を持ってリスクを取って、
本当に良いものを普及度じゃなくて、
自社にとって良いものかどうかっていうのを見極めて使っていく。
そこを何となく導入して、
あとはみんなやってねではなくて、
経営がしっかりコミットをして、
これでちゃんとうちは成果を出すんだ。
そのためにちゃんと、
あなたはそういう役割を持ってやってくださいねっていう任命までして、
権限も与えて、
社内の成功事例を作っていくっていうことを
早くやらないと飽きられちゃって。
気づいた時には、
外国産のものに圧倒されてるっていう状況になるかと思うんで、
今ならまだ戦えるから、
そこはやっていかないとなって思ってます。
なるほど。
畑 浩史
そうすると、
制度とそれに伴う何を求めるか、
業務何を求めるかってそこの組み合わせで、
まだ全般的な業務でいくと、
そこまで制度が追いついていないんじゃないかというのが、
多くの大企業は見てるっていうところですよね。
後でも、
日本のLM、スタートアップのLMを使うみたいな時に、
先ほどリスクっておっしゃってたと思うんですけど、
逆に言うと、
どういうことをリスクと思われてるケースが多そうですよね。
どうですか、感覚としては。
白井 恵里
なんとなく怖いが多分一番大きいんですけど、
それはひも解くと、
社内のデータが流出しちゃうんじゃないか、
再学習に意図せず使われちゃうんじゃないかみたいなところ。
契約読むと別にオフトアウトはできるんですけど、
と言ってもやっぱり信じきれなかったり、
あるいはそのツールベンダーの方がハッキングされたりとかしたら
流出しちゃうわけじゃないですか。
そういったところまで含めて、
そこを怖がってらっしゃるっていうのが多いですね。
自社ではコントロールしようがないんですけど、
そのツールを導入することを決めたのは、
お前だみたいになっちゃうから。
畑 浩史
何かあったときにその人が責任を取るって考えると、
なかなか決断もできないと。
そうですね。
これはなんかあれですね、
生成Iのテーマというよりも別テーマで、
大企業のオープンイノベーション的な、
ちょっと別テーマかもしれないですね。
でもそこが当然生成Iみたいな新しい技術だったりツールを使う上では、
そんなことがリスクであったり懸念で多く入るってことですね。
分かりました。ありがとうございます。
有馬さんちょっと今の話から一旦離れながら、
逆にこのスタートアップで、
LAMを開発している立場としての課題ですね。
逆に今こういうことが大きな課題だとか、
こういうことを解消したいとか、
何かその辺ってありますか?基盤開発とか。
有馬 幸介
課題はめちゃめちゃいっぱいあるんですけど、
どうですかね。
最大公約数的な課題でいうと、
やっぱりなんていうんですかね、
僕らもう死に物狂いで日本中にあるデータを集めてきたんですよ。
3000億トークンくらいだったんですよ。
だから9000億文字くらいだったんですけど、
グローバルの生成Iモデルって15兆トークンとか学習してるんですよ。
45兆文字。
めちゃくちゃ死ぬ気で集めたけど、
やっぱり3000億トークンだったっていうのはあるんで、
単純にやっぱり日本語と英語って25対1くらいなんですよ、文字の比って。
実際そのくらいあるっていうのはあって、
なんていうんですかね、
食わせるべきデータがもっと工夫していかないといけないという課題は
すごく持ってると思いますね、みんな。
データそのものをどうやって集めるか。
畑 浩史
今までは頑張って集めたけどっていうところですね。
そうですね。すっげー頑張ったけど3000億でした。
そうなんだと思って。
そこはぜひちょっと後半のトピックで。
それ以外はありますか?
先ほどのGPUが足りないとか、
ひとしたらエンジニアが足りないとか、
スタートアップとしてですね、
その辺のLM開発っていう観点にいくと、
一旦データ以外に。
有馬 幸介
そうですね。でもなんかもう、
僕は起業者7年になりますけど、
畑 浩史
政府主導で、ここのスタートアップなり、
そういう製造業同士企業は、
これだけのちゃんと性能を出して、
ちゃんと安全性も担保されて、
実際こういう事例を回すというのを、
政府としても打ち出し、押し出していくというところですか。
ありがとうございます。
では、ちょうどここで前半の時間になりましたので、
ちょっと10分間休憩を挟んで、
今、だいぶ話も出てきました。
データの重要性、そこに後半は移っていきたいと思います。
では、これから10分間休憩としたいと思います。
それでは、後半のプライベートデータの重要性というところに
入りたいと思います。
そしたらですね、ここはしらえさん、
そもそも、このCCIで、
データデータと言っていると思うんですけど、
どういうものがあるかみたいな、
例えば業界だったりとか、
先ほどのテキストとかいろいろあると思うんですけど、
データってあまりにもバックリとしているので、
その辺、分かりやすく説明いただければと思いますが、
いかがでしょう。
白井 恵里
はい、承知しました。
そうですね、今多分活用が進んでいるのって2つで、
センシングデータ、製造業とかの工場だったりとか、
製品付いているセンサーからのデータと、
もう1つはデジタル上のトランザクションデータ。
それは、例えばウェブサイトを見たりとか、アプリを見たりとか、
1人1人の消費者が行動したものをデジタル上で追ったもの。
その2つと、あとあれですね、業務データですね。
業務データ、3つでした。
が、大きくはあるかなと思います。
畑 浩史
業界によっての特性だったりとか、そういうのってありそうですか。
逆に、例えば業界によっては非常にセンシティブな、
すごく機密性が高いものだったりとか、
あとはデータ量が多いとか、
そういうようなものってありますかね。
白井 恵里
ありますね。やっぱり医療業界とかは、
機微情報になるので、なかなか閉鎖的な環境でやらないといけない
みたいなのもありますし、
そういう意味でいうと、金融だったりとか通信もそこは固めです。
で、量でいうと、通信のサービスを持っているところは
トランザクションデータがすごく溜まっているので、
その辺の活用は昔から結構進んでいるかなというところですかね。
畑 浩史
なるほど。ありがとうございます。
有馬さん、大丈夫ですか。油断していました、今。大丈夫ですか。
実際に、先ほどデータが非常に重要だというところがあったんですけど、
LLMを開発する上で、どうデータを使っていくのか。
例えば、実際の前書類とかいろいろあると思うんですけど、
ちょっと非エンジニアの方にも分かるように、
データを集めてからモデルができるまでって、
どんなことが行われているかみたいなのを、
ざっくりご説明いただけたりしますかね。
有馬 幸介
集めるまで。
畑 浩史
最初から実際にLLMができるところまで。
データって、何がどう行われていくんでしょうという。
有馬 幸介
さっきの、僕のカットされちゃって、自己紹介しちゃいました。
カットやって。
もう少しですか。
これですね。
さっきおっしゃっていましたけど、
データってこういうふうにPDFとかで残っているんですよ。
ここからまず、文章を抽出してくるんですよね。
大量の文章を抽出してきた後、
読み込ませるみたいなところが、
第一段階の学習になります。
データが多ければ多いほど、
全然精度が上がっていくんで。
畑 浩史
抽出というのは、どういう観点で、
何をどう抽出するんですか。
渡辺 琢也
これですね。
有馬 幸介
この画像のままだと、
AIってまだ理解できなかったりするので、
ここにはこういうことが書いてあるよというのを文章で、
ピュアな文章に変換していくみたいな。
畑 浩史
これ自体は文章として。
ただ単にここにある文字を抜き出すだけで意味がないので。
そうですね。
有馬 幸介
結構ノイズとかあったりするんですよ。
例えば文章の下の方にヘッダーとか振ったとかあったりして、
どんな資料にもヘッダーが振ってあるじゃないですか。
だからすごい登場回数が多いんですよ。
だからAIが意外と勘違いして、
これって人間が大事だと思っている文章なんだみたいな感じで、
誤学習しちゃったりするので、
意外とそこをきれいにしていくとかがすごく大変だったりするっていうのはあったりしますね。
なるほど。
畑 浩史
実際に開発されていない非エンジニアの立場から見ると、
きれいなデータがボーンと投げれば、
何かポッと出てくるイメージがあると思うんですけど、
結構この前のデータを作るところがかなり大変で、
そこが肝だったりとかありますかね。
そうですね。
有馬 幸介
いろんな代表のお客さんと話していると、
今ここがスタックポイントになってますね。
意外とここからきれいな文章を抜き出すのが難しいみたいな。
なるほど。
意外とまだ難しいんですよね。
人間だとパッと見てわかるじゃないですか。
上から下に文章が流れているとか。
1個前のスライドも見てもらっていいですか。
そうですね。こんな感じで。
右側2番目のやつだと、
論文って二段構成になっているとかって
常識的にわかるんですけど、
畑 浩史
渡辺さん、はい。
渡辺 琢也
だけど、私は技術的なことはわからないですけど、
今まさに有馬さんが説明いただいたのが、
多分オープンAIにはできないことなんですよね。
つまり日本の資料って世界的に見てもかなり複雑だと言われていて、
まずひらがな、カタカナ、漢字があるのはもちろんですけれども、
縦書き、横書き、
またさっきもすごい複雑じゃないですか、
あれはあまり英語のデータにはないらしくて、
なるほど、構造的に。
畑 浩史
はい、そうです。
渡辺 琢也
資料の構造、これが相当やっぱり日本を独特にしているというか、
なるほど、なるほど。
だからこそ基盤のところからやるゾーンがあるとは我々は思っていますけどね。
なるほど。
畑 浩史
そうするとそもそも海外のエンジニアはそういう概念がないので、
そこに対してもっとやろうというモチベーションも働かなくて、
日本人はそれも分かっているから、
より良いデータを取ろうと思うと、
じゃあどうやって取ればいいかというところに入るってことですね。
そうですね。
渡辺 琢也
だけどもそういう企業のデータというものが、
多分基本我々がジーニアックで今まで支援をしている事業者さんは、
基本はインターネット上から取ってくるとか、
オープンなデータからやられているので、
さっきのデータ量が必要になってくると、
どうやってプライベートデータを信頼してもらってですね、
データホルダーから持ってくるか。
しかも同業種だったらA社とB社のデータホルダーのデータを
混ぜ合わせて学習することを許していただけるか。
この辺が鍵になると思います。
畑 浩史
なるほど。
その辺を政府として何か取り組みですね。
まさにスタートアップ並びにLM開発企業はデータが欲しいと。
でも大企業はそれはもちろん機密性もあるし、
自分たちの競争力もあるので出したくない。
だけどそれをまた使わないとLM開発もオープンデータだけだと進まないっていう、
その両面があると思うんですけど、
その辺で国として何かある意味大企業に出せって迫るのか。
渡辺 琢也
それは無理です。
畑 浩史
それは無理ですね。
渡辺 琢也
まず分かりやすいのは法制度があるところですね。
一番性性愛情大変だと言われているのは、
個人情報保護法との関係と、
あと著作権法。
この辺りが皆さん非常に大変です。
先ほどすごいってあげたGoogleさんとか、
ああいう会社さんって法制度が曖昧な中でも、
訴訟リスクと機械損失のリスクを冷静に分析をして、
機械損失のリスクの方が大きいと思えば、
多少の訴訟リスクがあっても踏み出すんですよね。
ところが日本の企業は、
これは残念ながらスタートアップも、ましてや大企業も、
訴訟リスクって極大なんですよ。
そうすると、個人情報保護法だと、
健康情報とかは取得するときに本人同意が必要だとか、
あるいは普通の個人情報だと第三者に提供するときにも
本人同意が必要だとか、こういうものがあってですね、
ちょっとでも取るつもりがないのに、
ちょっとでも取ることに対して、
あるいはそれを提供してしまうことに対して、
ものすごいヘジテイトしてしまう。
こういうことに関しては、
私どもが促進側にいる省庁として、
個人情報保護法だとか、保護委員会だとか、
文化庁みたいなところと橋渡しをしてですね、
どういうところだったら法律上クリアなのかという、
ホワイトゾーンというのを作ってあげるというのが重要というのが一つ。
あともう一つは先ほど、そういう法律じゃないところ、
企業として出したくないみたいな話。
これは強制はできないので、
もう事例を作って、
ほら、同じような業種のこの人がやってるでしょというような、
やっぱり日本の社会って非常に業種単位での活動って結構多いんですよ。
畑 浩史
化学業とか鉄工業とか、
渡辺 琢也
それを逆手にとって、
ほら、保険業の同業たちはこんなことをやられてますよというようなことを
事例として出していきたいと思います。