AIの成果と、あとは人間がもちろん同じような仕事をして、同じ成果物を作ってくるんですけど、その2つを戦わせて
どっちがAI、どっちが人間みたいな評価を、また人間がやってみるっていう、よくある
AIか人間かわからない状態で、その結果を見て
ブラインドテストみたいな
そうそう、優れているかを評価するってやり方で
結果としては、まだやっぱり人間の専門家がやった方がいいよねっていうのが出てるんだけど
もうほぼほぼ、ネアリーイコール、50%に近い確率で、AIか人間かわかんないっていうレベルまで来ましたっていうのが、ここの結果
マジ?GPT5?
そう、これGPT5だけじゃなくて、クロードとかのモデルでも評価をしていて
うんうんうん
で、いずれのモデルでも、また専門家が若干いい結果出してるけど、AIの成果物としても遜色ないくらいのレベルだし
その仕事のスピードに関して言えばもちろんAIの方が速いし、っていう状況
マジ?
だからね、これは、この評価の方法っていうのはより、AIの使い方としては今後有用というか
確かにね
え?AIが経済回せばいいじゃん、じゃあ
AIが経済回してね、なんかその、わかんない、俺はあんま詳しくないけど、そのベーシックインカムみたいなやつで
俺らには一定量のその経済活動のお金だけ振られるみたいな
はいはいはい
ね
いいね、それね、その世界観いいな
でももう、できるってことでしょ?
その
クリエイティビティでのなんかこう、なんていうんだろうな、人間の行動の変化というかリープみたいなものが
発生しにくい可能性はあるけど、それもわかんねえやな
まあそうね、ただまあ、まだこの、今現段階だと限られた業界の限られた職種にだけこういうテストをやってみたっていう話で
アメリカって職業データベースっていう、オーネットって呼ばれているものがあるんですけど
これがもうあらゆる肉体労働から知識的な労働まで含めてすべての職業をデータベース化されていて
職業ごとにこういう仕事をしますっていうなんかタスクみたいなのが整理されているものがあるんですね
そこからこう絞り込んできて、なんかアメリカの中でその報酬の規模、給料が払われる規模が大きいものを9業界44つの職種があってそのうちから取ってきたっていう
トップで高いのは、スコアが高いのは
不動産賃貸、はいはい
で、ガバメント、そうなんだ、マニファクチャリング、製造業、あとはサイエンティフィック&テクニカルサービス、なんかへーって感じだな
ヘルスケア&ソーシャルアシスタント、まあ医療とかね、上から順番に言ってるけどなんかさ科学とか専門家の方がすごいんだ
ファイナンス&インシャランス、リテールトレード、オールセールトレード、オーロシカ、でインフォメーション
まあその職種で多分テストをしたのかな、その結果をAIと人間科で比較をして、まあAIがほぼ人間の遜色ない制度を出しましたよっていうところ
で、そうこの論文でさらに面白いなと思ったのはそのいくつかのモデルでGPTとかクロードとか
GPTも昔のモデルとかもいろいろ使って評価したらしいんですけど、だからモデルごとの得意不得意も実際の職種に当てはめて評価されていて
わかりやすい違いとしてはクロードのオーパス4.1のモデルかな、こいつがかなりアウトプットとしてすごく綺麗で人間ぽかったって言われてるんですけど
視覚的にプレゼンを作ったりスライドを作ったりとかっていう、なんか人間がまとめるような綺麗なドキュメント生成においてはGPTのモデルよりかはクロードのモデルの方が良かった、評価が高かったっていう結果が出てますね
これは結構自分も使ってみてその裸はあっていて、クロードのモデルで作ったドキュメントとかそれこそインフォグラフィックとかで資料まとめるときもクロードはパッと作ってくれるし
人に共有しても違和感ないものができるんでそういう意味だとクロードのモデルは強いなぁと思ってますし一方でGPT5のモデルとかは内容がすごく正確性があるっていう結果として出てきてるんですね
なので今回の職種とかに当てはめたときに専門職の人が使う言葉や知識とかっていうところの正確性は他のモデルと比べるとより優れてたっていう結果が出ていて
なんかモデル選定とかするときの観点でもこういうモデルの違い強み弱みみたいなのは理解していくのはいいよなというふうには思いましたね
これなんか今調べたら44種類の職業全部にやったって書いてあるよ
そうなんだ
各職種あたり5つのタスクを含んでやっているって書いてある
44種類の職業全てをカバーして5つのタスクを投げて220個のゴールドサブセットのタスクをやらせるみたいな
そうですね確かに
より汎用的な評価をしているって感じだね
業界でいうと9つの業界があってそこの中に44個の職種があって
その44個の職種の中で細かいタスクが各職種ごとにあるんだけど
最低でも5つのタスクがあるように設計したって話か
そうっぽいね
だからかなりの量のタスクをやらせてみたってことですよねAIに
そうだねいやもうだってインフォメーションとかニュースアナリスト金融業界だとインベストメントアナリストとかは含まれてるから
だからもういらないってことですね置き換えられるって言われてるものを具体的に置き換えてみましたって実験だもんね
そうです
きちーきちーそれ
セールスレポート作りか
セールスマネージャーえセールスマネージャーの仕事も?
そうですね
マジですかじゃあなんかマネージャーはAIでいいんだセールス自体は人がやるんだ
そうだね
きちー
だから本当に手先の部分を人がやって脳みそはAIでみたいな
そういう関係性ですよね
不動産の不動産のセールスエージェントもらしいぞ
困ったもんですねこれは非常に
これ読んだほうがいいよみんな
そうなんですよだからここまでできてしまうっていうAIでね
一個のアクションをAIで任せるは多分今もやってると思うんですけど
この先一個のアクションじゃなくてそのアクションが連なって一つのタスクを行うっていうのがAIが実現してっていう
本当にリアルの仕事で人がやってるようなところを置き換えられるレベルまで来てるっていうのはあるし
それを評価できるところまで来たっていう意味だとかなり進んでる
いやーそうだねそうだね
なんかできることあるよなとか言ってんの恥ずかしくなってくるなこう見ると
ないだろまだないだけで
しかもだから逆に言うとこのGDPとかをベースにして上から評価してるわけだから
その他でいやこれは人間だけでできるみたいな言っても
経済的なインパクトとか価値はね
インパクトはあまりないというか
なんかあれですよねそういう経済的なインパクトのあるところからAI導入していった方が
もちろんAIの振興企業的には儲かるから
そういうところを狙っていくのは当たり前でビジネスの観点では
置き換えられますよ
そうなんだ面白いな
不動産のブローカーなら仕入れとかも含めてで売るのもできるし
製造業のシッピングはできるでバイヤーパーティシングエージェンツもできる
ってことは買い付けもできんだよね
で売るのもできんだよねで発送もできんだよね
だから発送のトラックのうんちゃんとか仕事はまだ残りますよね最後まで
そうだねというところでこういう評価方法が確立されつつあるっていうところは
今回の話題になってますね
これを置き換えられるオープンエアの人たちがそういうのをバーって大量に作って
世界中のあらゆるところにこれの置き換えられる専門家みたいなやつらを散りばめたらなんかもういけるじゃんね
ただまあ最初の話に戻るんですけどこういうタスクをやっていくにしても
やっぱハルシネーションの問題は残り得るゼロじゃないっていうのはあるから
なんだろうな人の命に関わる部分とかそういうめちゃめちゃ繊細な部分では
もちろん家も間違えるんだけど家も間違えるってところはあるので置き換えの慎重さはより必要なのかなというふうにも思いますね
まあそうねちょっとまだその置き換えれますっていうところの衝撃から抜け出せてないわ
思ったより抜け出せるなんかいいねそのマイクロソフトが出してたような
なんかこの職業はなくなりますみたいなのよりは説得力があるね
そうですね実際に実験してみたっていう話だし
なんか今回のそのAIか人間かどっちがこの成果物を作ったでしょうっていうところの評価の時も
例えば不動産の専門家とかを呼んでその本当に専門職でやってる人にその評価をさせてるから
なんか素人がどっちがやったとかじゃなくて本当に専門中の専門の人が人間なのかAIなのかっていうところを
ジャッジさせてるっていう意味でもかなり信頼性の高い評価ができてるのかなというふうに思いますね
はいはいはいはい
いやーすごいねーこの中に含まれてない
やっぱリーダーとかは含まれないね
そうだねリーダーの仕事というよりかなか末端という言い方は悪いんですけど現場で働いている
メンバーの仕事の方が評価しやすいのかもしれないですね
なるほどね
なんか産業革命とか起こった時ってみんなこういう気持ちだったのかな
どういう気持ちですか今
いやそのあー仕事がなくなるんだっていう
本当に衝撃受けてるのね今
そうそうそうそう
なんかいやなくなるって言われるのは正直わかってるじゃん
そりゃそうだよみたいなAIだいたいできるもんみたいな
でなんか実際にAI動かして経済活動のシミュレーションをこうLLM同士でさせるみたいなところで回るんだったら
なんかその完全に人間がやってるような経済活動じゃない部分もあるかもしれないけど経済が回せることは確定してるわけじゃん
そうだね
っていうのはまあ普通にじゃあ本当に置き換えれるじゃんってなる
産業革命の頃は働いてて我が社も機械を導入していくぞ僕たちはどうすればいいんですか知らん
まさにそういうことか
でもなんかAIの流れがすごすぎて大きい会社とかだと現場でそれを検証しなさいっていうわけだよね
そうですよね
行けましたってなったら仕事がなくなるわけだよね
そうだね悲しいですね
悲しい話だね非常になんかそういう風刺画とかあんじゃないですか100年後とか
自分たちの職を減らすためのAIを検証させられる人々みたいな
で検証がうまくいったらその人々は職を失うと
ここにきて日本の雇用の強さ強さというか経営者にとっては怖い足枷なのかもしれないけど出てくるよね
本当なのか嘘なのかわかんないけどやっぱそのアメリカの特にジュニアレベルのエンジニアとかの就活市場が劇的に冷え込んでるみたいな話は見かけるっちゃ見かけるか
そうですね
まあ話半分ぐらいだと思ってるけど
最終ジャッジは人間がAIを導入するかしないかを決めて今の働いてる人たちをどうするかを決めてっていうことになってから人間が人間をねなんかこう締め出すというか
しかも日本じゃない国で労働者が守られてる国もあれば労働者があまり守られない
そうですね日本と比べたらアメリカは守られにくいですよね
そういう国そっちの後者の国のところはマジでAI時代エグいよね
エグいですね最近だとアクセンチュアがアメリカのアクセンチュアの方が人を大きく削るとかってニュースになってたりしますけど