137. 【後編】GDP貢献トップ職種をAIに置き換えたら経済が回ってしまった！それでAIを評価しよう【GDPVal】

AIの評価方法の変化

さっきまで話していたような、そのハルシネーションある無しとかっていうところの評価が、今までは数学オリンピックの問題に対してどれだけ答えれるようになったとか、学術試験とかテストとかをさせた時の、なんか正当率で測っていたっていう世界から、もっとこう実際の仕事で使える力を測れたらいいよねっていうところに、徐々にAIの評価の仕方が変わってきていて

で、実際の仕事で使える力ってどうやって測るんだろうってなった時に、本当にこうリアルな職場とかで発生するタスク、例えばお医者さんとかだったら患者のカルテとかを読んで、こういう検査追加でした方がいいよねとかっていうのを提案して、その検査結果をさらにドキュメントとしてまとめるみたいな

なんかそういう一連のリアルな仕事の流れを実際にAIでやらせて、最後のアウトプットのこの説明資料というかドキュメントに対して評価をするっていう、そういう評価の枠組みを整えるみたいな

まさにじゃあ、AIに好き勝手連続的に動いてもらって、1日動いたり一定期間動いたであろう、最終的なその計自体で評価するみたいな

まさにそうですね、評価対象は最終成果物みたいなところ

はあ、仕事って感じだね

そうなんですよ

頑張りとかいらんの?

頑張りとかはいらない

僕、このトークン見てくださいよみたいな、1万トークンも使ってるんですよみたいなのないの

でも、どれくらいコストがかかるかとか、そのアウトプットまでの時間っていうところに対しても、もちろん出力はしていて

わあ、非常な世界だな

そういうメタ的な情報と最終成果物を、いろんな観点で評価してみたよっていう論文なんですけど

職業データベースとテスト結果

AIの成果と、あとは人間がもちろん同じような仕事をして、同じ成果物を作ってくるんですけど、その2つを戦わせて

どっちがAI、どっちが人間みたいな評価を、また人間がやってみるっていう、よくある

AIか人間かわからない状態で、その結果を見て

ブラインドテストみたいな

そうそう、優れているかを評価するってやり方で

結果としては、まだやっぱり人間の専門家がやった方がいいよねっていうのが出てるんだけど

もうほぼほぼ、ネアリーイコール、50%に近い確率で、AIか人間かわかんないっていうレベルまで来ましたっていうのが、ここの結果

マジ?GPT5?

そう、これGPT5だけじゃなくて、クロードとかのモデルでも評価をしていて

うんうんうん

で、いずれのモデルでも、また専門家が若干いい結果出してるけど、AIの成果物としても遜色ないくらいのレベルだし

その仕事のスピードに関して言えばもちろんAIの方が速いし、っていう状況

マジ?

だからね、これは、この評価の方法っていうのはより、AIの使い方としては今後有用というか

確かにね

え?AIが経済回せばいいじゃん、じゃあ

AIが経済回してね、なんかその、わかんない、俺はあんま詳しくないけど、そのベーシックインカムみたいなやつで

俺らには一定量のその経済活動のお金だけ振られるみたいな

はいはいはい

ね

いいね、それね、その世界観いいな

でももう、できるってことでしょ?

その

クリエイティビティでのなんかこう、なんていうんだろうな、人間の行動の変化というかリープみたいなものが

発生しにくい可能性はあるけど、それもわかんねえやな

まあそうね、ただまあ、まだこの、今現段階だと限られた業界の限られた職種にだけこういうテストをやってみたっていう話で

アメリカって職業データベースっていう、オーネットって呼ばれているものがあるんですけど

これがもうあらゆる肉体労働から知識的な労働まで含めてすべての職業をデータベース化されていて

職業ごとにこういう仕事をしますっていうなんかタスクみたいなのが整理されているものがあるんですね

そこからこう絞り込んできて、なんかアメリカの中でその報酬の規模、給料が払われる規模が大きいものを9業界44つの職種があってそのうちから取ってきたっていう

トップで高いのは、スコアが高いのは

不動産賃貸、はいはい

で、ガバメント、そうなんだ、マニファクチャリング、製造業、あとはサイエンティフィック&テクニカルサービス、なんかへーって感じだな

ヘルスケア&ソーシャルアシスタント、まあ医療とかね、上から順番に言ってるけどなんかさ科学とか専門家の方がすごいんだ

ファイナンス&インシャランス、リテールトレード、オールセールトレード、オーロシカ、でインフォメーション

まあその職種で多分テストをしたのかな、その結果をAIと人間科で比較をして、まあAIがほぼ人間の遜色ない制度を出しましたよっていうところ

で、そうこの論文でさらに面白いなと思ったのはそのいくつかのモデルでGPTとかクロードとか

GPTも昔のモデルとかもいろいろ使って評価したらしいんですけど、だからモデルごとの得意不得意も実際の職種に当てはめて評価されていて

わかりやすい違いとしてはクロードのオーパス4.1のモデルかな、こいつがかなりアウトプットとしてすごく綺麗で人間ぽかったって言われてるんですけど

視覚的にプレゼンを作ったりスライドを作ったりとかっていう、なんか人間がまとめるような綺麗なドキュメント生成においてはGPTのモデルよりかはクロードのモデルの方が良かった、評価が高かったっていう結果が出てますね

これは結構自分も使ってみてその裸はあっていて、クロードのモデルで作ったドキュメントとかそれこそインフォグラフィックとかで資料まとめるときもクロードはパッと作ってくれるし

人に共有しても違和感ないものができるんでそういう意味だとクロードのモデルは強いなぁと思ってますし一方でGPT5のモデルとかは内容がすごく正確性があるっていう結果として出てきてるんですね

なので今回の職種とかに当てはめたときに専門職の人が使う言葉や知識とかっていうところの正確性は他のモデルと比べるとより優れてたっていう結果が出ていて

経済への影響と置き換え

なんかモデル選定とかするときの観点でもこういうモデルの違い強み弱みみたいなのは理解していくのはいいよなというふうには思いましたね

これなんか今調べたら44種類の職業全部にやったって書いてあるよ

そうなんだ

各職種あたり5つのタスクを含んでやっているって書いてある

44種類の職業全てをカバーして5つのタスクを投げて220個のゴールドサブセットのタスクをやらせるみたいな

そうですね確かに

より汎用的な評価をしているって感じだね

業界でいうと9つの業界があってそこの中に44個の職種があって

その44個の職種の中で細かいタスクが各職種ごとにあるんだけど

最低でも5つのタスクがあるように設計したって話か

そうっぽいね

だからかなりの量のタスクをやらせてみたってことですよねAIに

そうだねいやもうだってインフォメーションとかニュースアナリスト金融業界だとインベストメントアナリストとかは含まれてるから

だからもういらないってことですね置き換えられるって言われてるものを具体的に置き換えてみましたって実験だもんね

そうです

きちーきちーそれ

セールスレポート作りか

セールスマネージャーえセールスマネージャーの仕事も?

そうですね

マジですかじゃあなんかマネージャーはAIでいいんだセールス自体は人がやるんだ

そうだね

きちー

だから本当に手先の部分を人がやって脳みそはAIでみたいな

そういう関係性ですよね

不動産の不動産のセールスエージェントもらしいぞ

困ったもんですねこれは非常に

これ読んだほうがいいよみんな

そうなんですよだからここまでできてしまうっていうAIでね

一個のアクションをAIで任せるは多分今もやってると思うんですけど

この先一個のアクションじゃなくてそのアクションが連なって一つのタスクを行うっていうのがAIが実現してっていう

本当にリアルの仕事で人がやってるようなところを置き換えられるレベルまで来てるっていうのはあるし

それを評価できるところまで来たっていう意味だとかなり進んでる

いやーそうだねそうだね

なんかできることあるよなとか言ってんの恥ずかしくなってくるなこう見ると

ないだろまだないだけで

しかもだから逆に言うとこのGDPとかをベースにして上から評価してるわけだから

その他でいやこれは人間だけでできるみたいな言っても

経済的なインパクトとか価値はね

インパクトはあまりないというか

なんかあれですよねそういう経済的なインパクトのあるところからAI導入していった方が

もちろんAIの振興企業的には儲かるから

そういうところを狙っていくのは当たり前でビジネスの観点では

置き換えられますよ

そうなんだ面白いな

不動産のブローカーなら仕入れとかも含めてで売るのもできるし

製造業のシッピングはできるでバイヤーパーティシングエージェンツもできる

ってことは買い付けもできんだよね

で売るのもできんだよねで発送もできんだよね

だから発送のトラックのうんちゃんとか仕事はまだ残りますよね最後まで

そうだねというところでこういう評価方法が確立されつつあるっていうところは

今回の話題になってますね

これを置き換えられるオープンエアの人たちがそういうのをバーって大量に作って

世界中のあらゆるところにこれの置き換えられる専門家みたいなやつらを散りばめたらなんかもういけるじゃんね

ただまあ最初の話に戻るんですけどこういうタスクをやっていくにしても

やっぱハルシネーションの問題は残り得るゼロじゃないっていうのはあるから

なんだろうな人の命に関わる部分とかそういうめちゃめちゃ繊細な部分では

もちろん家も間違えるんだけど家も間違えるってところはあるので置き換えの慎重さはより必要なのかなというふうにも思いますね

まあそうねちょっとまだその置き換えれますっていうところの衝撃から抜け出せてないわ

思ったより抜け出せるなんかいいねそのマイクロソフトが出してたような

なんかこの職業はなくなりますみたいなのよりは説得力があるね

そうですね実際に実験してみたっていう話だし

なんか今回のそのAIか人間かどっちがこの成果物を作ったでしょうっていうところの評価の時も

例えば不動産の専門家とかを呼んでその本当に専門職でやってる人にその評価をさせてるから

なんか素人がどっちがやったとかじゃなくて本当に専門中の専門の人が人間なのかAIなのかっていうところを

ジャッジさせてるっていう意味でもかなり信頼性の高い評価ができてるのかなというふうに思いますね

はいはいはいはい

いやーすごいねーこの中に含まれてない

やっぱリーダーとかは含まれないね

そうだねリーダーの仕事というよりかなか末端という言い方は悪いんですけど現場で働いている

メンバーの仕事の方が評価しやすいのかもしれないですね

なるほどね

なんか産業革命とか起こった時ってみんなこういう気持ちだったのかな

どういう気持ちですか今

いやそのあー仕事がなくなるんだっていう

本当に衝撃受けてるのね今

そうそうそうそう

なんかいやなくなるって言われるのは正直わかってるじゃん

そりゃそうだよみたいなAIだいたいできるもんみたいな

でなんか実際にAI動かして経済活動のシミュレーションをこうLLM同士でさせるみたいなところで回るんだったら

なんかその完全に人間がやってるような経済活動じゃない部分もあるかもしれないけど経済が回せることは確定してるわけじゃん

そうだね

っていうのはまあ普通にじゃあ本当に置き換えれるじゃんってなる

産業革命の頃は働いてて我が社も機械を導入していくぞ僕たちはどうすればいいんですか知らん

まさにそういうことか

でもなんかAIの流れがすごすぎて大きい会社とかだと現場でそれを検証しなさいっていうわけだよね

そうですよね

行けましたってなったら仕事がなくなるわけだよね

そうだね悲しいですね

悲しい話だね非常になんかそういう風刺画とかあんじゃないですか100年後とか

自分たちの職を減らすためのAIを検証させられる人々みたいな

で検証がうまくいったらその人々は職を失うと

ここにきて日本の雇用の強さ強さというか経営者にとっては怖い足枷なのかもしれないけど出てくるよね

本当なのか嘘なのかわかんないけどやっぱそのアメリカの特にジュニアレベルのエンジニアとかの就活市場が劇的に冷え込んでるみたいな話は見かけるっちゃ見かけるか

そうですね

まあ話半分ぐらいだと思ってるけど

最終ジャッジは人間がAIを導入するかしないかを決めて今の働いてる人たちをどうするかを決めてっていうことになってから人間が人間をねなんかこう締め出すというか

しかも日本じゃない国で労働者が守られてる国もあれば労働者があまり守られない

そうですね日本と比べたらアメリカは守られにくいですよね

そういう国そっちの後者の国のところはマジでAI時代エグいよね

エグいですね最近だとアクセンチュアがアメリカのアクセンチュアの方が人を大きく削るとかってニュースになってたりしますけど

AI技術の影響

えー日本でも巨大兵隊組織なのね

兵隊組織

まあ俺もその末端にいたうちの一人だから大丈夫言って平気

俺も兵隊だって側だから

はいそういう流れは起きますよねアメリカの方では特にわかりやすく

怖いねー

まあそうなんだよだから結局そうなっていくんだよね

なんかその後その雇う側の意識みたいなのもあるからさ

なんかあれこの間のエピソードで話したっけその人を増やしたいって言ってる自分が甘いんじゃないか問題みたいな

いや話してないと思うな

今一個のAI事業の責任者になって

まあなんかそれをガンガン進めていくみたいな責任を持って

で今まさになんか本当に

まあ実質一人起業状態みたいな感じなんだよね社内で

になって営業もいくし

最近めっちゃ出張多いのはまさにそれで

いくしなんかそのAIのツールの

ハンズオンの研修とかも俺がやるし

そもそも会社に来た問い合わせも全部俺がやるし

途中で作んなきゃいけないまあ契約書回りとかNDAとか

そういうのもやるしっていう状態なので今

まあ爆発しそうになってるんだけど

はい

まあしてるんだけど多分

まあ聞くだけでも多いね仕事がね

そうそうそう

ってなってて一人起業状態で

まあでもそうやって人増やしたいなって思うじゃん

思うね

回らなくなってきてるってことは

そういうのって大切な必要な対策の一つなわけじゃん

はい

それぞれの専門の人たちが集まって

3,4人になって回していくみたいな

けどなんかその

じゃあ全部

自分でAIのワークフローとかも組めるわけじゃん

技術的にも

いやなんか全部組んだっていう話になってくると

はい

いや

いや言われてないよ

そんなハラスメント的なことは絶対言われてないんだけど

その持ってる気持ち的にはさ

その

自分のお客さんにAI化の話をしてるやつが

人が足りないって言ってるのなんか

アホみたいに見えるじゃん

なんかね自分のやってること否定してるみたいになってますよね

そうそうそうそう

そうなんだよ

っていう

あの

なんだ

新規事業の一個持ってる身になった時の

変な意識改革みたいなのは生まれてる実は

なるほどね

それは変なジレンマだね

いやそうなんだよね

まあでもあれじゃない

結局

今のこれまでの働き方でいう

人を増やして仕事を分散させるというやり方と

AIをこれから導入していくという

これからの働き方をまずは混ぜながら

業務委託の重要性

解決していくしかないのかなと思っていますけどね

まあね

現状

あとは

だから

専門のその

契約書周りを作る仕事とかを

今までやったことない人がそこを自動化するよりかは

これまで契約書作りに特化した人たちが

それをAIに置き換えるっていう方が

ドメイン知識を持ったままAI化できるから

効率的だと思いますけどね

まず専門家に人を入れちゃうっていう方が

ってなってくると

たぶん今後

雇用は

業務委託がもう

最優先選択肢になってくるわけよ

なるほど

だってその人を3ヶ月業務委託で雇って

やってるとこ

一旦任せてやってもらって

やってるところを一緒にAI化したら

その人の契約切れるわけじゃん

確かに

で

雇用してたら無理なわけじゃん

っていう話になるから

なんかノウハウを吸い上げるだけ吸い上げられる

未来の働き方

専門家たちが増えるみたいなのはあるような気もするんで

確かに

会社のいろんな

あの

業務をワークフロー化できて

AIに任せれる

形を作れるやつは

なんか

2人目3人目の社員としていたらめちゃめちゃ最強だよね

みたいな

なんかでもすごい短い期間で必要となる

触手なイメージですね

その

契約で入る

仕事っていう意味だと

あーまあまあそうね

だから置き換えれちゃうからね

置き換え終わったら

彼らの仕事なくなりますもんね

そうそうそうそう

で置き換えれるような動きをしてくれなかったら

また別の人を

別の業務委託にするみたいな

多分

非常な世界になってきてしまうじゃん

はい

だからやっぱ

誰この人と働きたいなって

思ってもらえる人では

あり続けないといけないんだよね

なるほどね

AIコンサルタントが今

需要がすごい伸びてるのは

そういう背景があるのかもしれないですね

あー

それはでも単純に多分その

今みたいな話までたどり着く

手前か

うんじゃないかな

あとは普通に組織的にAI化するっていうのと

今の話とはまた別じゃん

まあそうだね

今のはなんかあくまで

自分が今その

一つの会社として持ってるっていう

体で考えたら

そうなるよな

みたいな

でもなんか

事業会社とかって結構そういう

普通に社員の使い方そうなってる

アサインのされ方とかあるじゃん

ちょっと3ヶ月だけ手伝ってほしい

ここ作ったらもう終わりでいいからみたいな

っていうのが

普通にもっと

社外とか

一般的に加速するのかな

みたいな

最終的には全てAI化されていくと

そして

僕たちはどう生きるか

映画も一回見直さないといけないか

ジブリで終わるの

最後

意味わからんもんね

そろそろお時間ですよ

確かに

残酷な現実を

見つつ

そもそも残酷な現実の

目の前にいる感覚もあるから

染みたし

今俺はこう思ってるよ

っていう話もできたし

いいんじゃないかなっていう

染みましたね

染みたね

不安を煽りたいわけじゃないですよ

何度も言いますけど

今の自分の立場を

照らし合わせて

世の中のお前らやばいぞじゃなくて

俺ってどうなるんだろう

って思ってるだけだから

そうだね

不安煽りまくるやつ嫌われるらしいね

この業界で

そんな煽ったって仕方ないだし

うざいもんね

いい気持ちは一人にもしないから

本当にそう

ただ今

自分に対してAI力にシビアになってるから

俺は

なるようになるよきっと

まさかデータサイエンティストやってる

と思ってなかったもん

学生の頃

たぶん知らん仕事してるわ

5年後

それでいい気がしますね

また今はない仕事を

もしかしたらしてるかもしれないし

作り出すわハイパーメディアクリエイター

なんか名前がダサいんだよ

違うでしょ

今ハイパーメディアクリエイターにピンと来てないでしょ

来てないですよ

ジェネギアかこれがジェネギアか

なんすかそれ

ハイパーメディアクリエイターだよ

ハイパーメディアクリエイター

タカシロツヨシだ

タカシロツヨシ

妻は沢尻理科

そう

なんかやった時に

肩書きハイパーメディアクリエイターで

世の中に浸透してった

時があった

ジェネギアですねこれは完全に

1個しか違わないけどな

ごめん

渾身のボケを拾えなかったですすみません

でもその

ピュアにダサいと思った感覚は大丈夫

よかった

世の中もうすでに

もう十何年前にみんな思ってるから

そこは変わってなかったですよ

じゃあ終わりましょう

次回の話はしときます

次回

何にしようね

SDDの話にする?

どっちもあり

じゃあどっちか

SDD

ピンと来てる人来てない人いっぱいいると思いますけど

次回話しましょう

グードリブンデベロップメントですね

じゃあいきましょう

じゃあ終わります

うーす

隣のデータ分析屋さん今回も面白いと思ったら

フォローレビューよろしくお願いします

番組の感想や質問は

ハッシュタグ隣の分析屋

隣のがひらがなで分析屋は漢字でお願いします

また概要欄に当てるお手紙ホームから

コメントを寄せてください

ではまた

バイバイ

スターの数

エピソードをシェアする

埋め込みプレイヤーのカスタマイズ

プレビュー

カラーテーマ

メッセージを送信

サマリー

目次

スターの数

コメント

こちらもおすすめ