隣のデータ分析屋さん。この番組は、隣の席に知らないことを気軽に聞けるデータ分析屋さんがいたらいいなぁ、を叶えるポッドキャストチャンネルです。
データアナリストのりょっちです。 データサイエンティストのたっちゃんです。
【AIに論文は書けるんですか?】 どうなんでしょうか。
【…って話ですね、今日は。】 はいはい。
【俺絶対に今日、声の調子悪いんだよね。】 なんかいつもと違いますね。
【そう、風邪をひいている。たぶん畜農症。】 逆にちょっと落ち着いてて英語になっている説もありますけど。
【あのね、妻にも言われまして、ポッドキャストの時と英語を喋る時だけA声っていう。】
いや、その方がポッドキャスト化は出ていいんじゃないですか。落ち着いて。
【なんかね、喋りづらいんで、やっぱ鼻が抜けない感じが。】 ちょっと滑舌悪いかもしれないですね。
【そうなんです。まぁちょっと許してもらいながら、こっから2本は我慢してもらって。】 頑張っていこう。
【でなんか、前回最後にさ予告した時に、なんかネイチャーの論文に、AIが科学論文をどうにかしていけるんかみたいな、自動化できるんかみたいな話乗ってたよっていう紹介したと思うんだけど、まぁその論文の紹介ですね。】
ネイチャーからですね。たまーにネイチャーからそういう話に持ってきてくれますよね。
【そう。なんかポッドキャスト、宇宙話の話、ネタを探す時に、週に1回は絶対ネイチャーのページを見るから。で、だいたい月間で、月間の月の中で何回か更新されていくやつの中に、まぁ宇宙系も絶対入ってるし、AI系もある程度入ってるみたいな。】
もうAI系の論文も入ってくるんだ、ネイチャーに。【そうね。でなんか、ネイチャーの中にも、世の中の情勢をちゃんと整理するみたいな、レビュー記事じゃないけど、そういうのがあって、その中に、Can AI review the scientific literature and figure out what it all means?】
だから、AIが科学の文献をレビューして、それが何を意味してるか、すべて明らかにすることができるんか、みたいなタイトルが出てたわけですよ。【なるほど】
で、なんかさ、あるじゃん。論文、AIで、もう書けんじゃねーすかー、みたいな流れ。【あるある】
周りに論文書いてる人いる?【論文書いてる人、会社】
あー、現役で書いてるって感じの人はいないかなぁ。【大学とか行ってる人はいるから、あ、いるね、そういう意味だと。あのー、何博士っていうの?】
社会人博士。【そうそうそう、やってる人はいるから、その人はじゃあ、最終的に論文書くのか】
あ、まあそうだね。えー、いるんだ、社会人博士システムみたいな、あんの?そういう仕組みみたいな。
仕組みはないけど、自分でやり、やってますっていう人はいますね。【あー、そういうことか】
平日夜行ったりとか、まあフレックスなんで、別に、何だろうな、時間帯は自由に決めれる働き方をしてるから、それに合わせて、【確かに確かに】
自分でスケジュール組み込んだりで行ってますね。【やばいよな、そんな人。俺絶対両立できないわ】
【あんなん、あんなん片手間に取れるか。俺らがうつむみたいになってるからね。似たような、あれだったらいけたりすんのかなぁ】
いきなりコンピューターサイエンスの博士取ると、結構しんどそうだけどな。いやまあ、俺もだから、あれなんだよね。仕事の中で、やる気さえ出せば、論文を書くネタはいくらでも実はあって。【うん】
書かないとねーって言って。下半期の間に書こうねーみたいなことは言ってるんだけど。それで、まあだから、AIが勝手に論文を書いてくれるってなったら、それはまあ素晴らしいことなんだけど。【うん】
人間の労力的にはね。ただ、まあちゃんとこう論文に向き合ったことがあって、特に自然科学とかの分野で、論文をやっていた身からすると、いやそんないけるかって思うところが、割とネイチャーに書いてあることはしっくりくる。
【あー、なるほど。そっち側なんだ。逆に自分は、え、書けるんじゃね?と思ったんですけど】いやなんか、書けんのよ。書ける。ある程度は書ける。【うん】と思ってて。で、なんか、例えば、この論文をAIが書いてくれるみたいなのだと、魚AIってあるじゃん。【日本のね】なんか、トランスフォーマー作った人がCTOなんでしょ?【あ、そうなんだ】確か確か。トランスフォーマーだっけ?【すごすぎん?】の論文書いた人がCTOなのよ。外国人の。
で、日本人の人もいて、みたいなので、世の中の大規模モデルを作ろうっていう流れじゃなくて、いろんなところが作ってるモデルとか、なんか小規模なモデルを組み合わせて、一個のこう、スペシフィックな問題に対処しましょう、みたいな。
っていうので、それで十分、今後やっていけるじゃん、みたいな発想で、いろんなソリューションを提供していくっていう会社だよね。【確かに最近そういうニーズ増えてきてますよね。ちっちゃいモデルでっていうところ】あ、他にもあるんだ。そういうのが。
何か特化したっていうモデルを作っていくって話もそうだし、今までずっと大規模なモデルを作っていくって方向に対して、いや、そこまでのパラメーターなくても同じ性能出るよねっていう、中規模、小規模でも大規模と同程度のモデルの性能が出るみたいなところの研究が結構盛んだったりするから。
なんかその方向性は、最近の流行りというか流れだよなと思いますね。
あ、そうなんだ。
そう、で、なんかさかなAIがThe AI Scientistっていうサービスを出していて、これ何かっていうとLLMを使って研究開発プロセスそのものを自動化するっていうので、一応The AI Scientistは論文として発表もされてるし、それのソースコードも提供、開示されてるんだよね。
うーん。
だからもう、簡単に言うと研究開発プロセス自動化できるよみたいな。
そういうもんだ。
そう、で、これは結構確かにすげえとこ出してきたなと思ってて、アイデアの創出からね。
そこから?
そう、アイデア創出から実験の実行と結果の要約で論文の執筆とピアレビューまで含め。
そのなんか研究の一番根幹の部分でそのアイデアみたいな仮説立てるとこだったりするじゃないですか。
あ、まあそうね。
それができちゃうともう半分決まったようなもんだったりするんじゃないですか。
いやまあ実際そうだよね。だからなんかブレストをするらしいな、AIと。
AIとブレストして、で、こう探求してもらいたいトピックだったりとかっていうのをテンプレートに当てはめたものを提供すると、
研究の方向性を探って、で、アイデアが斬新かどうかっていうのを確認して、で、その確認するために文献調査とかも行ってくれてみたいな。
で、なんかそのアイデアが固まったら、多分コンピューターサイエンスとかの分野が一番なんだろうね。
で、その実験の反復をしてみたいな、実験してプランアップデートしてっていうこうPDCAのサイクルみたいなのがバーって回って、
よりソフィスティケイティブな結果を出して、で、その結果を元にペーパーライトアップをするみたいな。
そっか、できるのか。いやなんか結局論文書くってことは、その新規性があるかないかが一番のポイントじゃないですか。
うんうんうん。
誰もやったことがないこと。だから01作るところをもうAIができるってなると、とうとうなんか人間の英知超えていくよなって思ったんですけど、
そこの今の話だとサポートまではできるというか、ブレストでアイデアをこう、一緒に人と出していくみたいな、そういうことをサポートしてくれるっていうイメージですか、サガナンAI。
あ、まあそうだね。で、そっからもう論文執筆までも、もう全部フォーカス的にサポートしてくれちゃうみたいな。
まあ確かにできそうな気もするな。
そうそうそう。まあなんか仕組み的には確かにすごいしっくりもくるし、ある程度はいけるんだろうなと思うんだけど、
このネイチャーの論文で、まあ課題ってやっぱ残るよねみたいな。で特にその論文がどれだけ良いかというか、
掲載されうるものですみたいなところを判断するのって、結局やっぱレビューなわけだよね。
なんか論文のシステムって、そっか、知らない人もいるかもしれないけど、
一般的なプロセスとしては、研究者が論文を書いて、大体が教長っていう形で、
まあ著者が3人とか5人とかいて、でまあその人たちの中でちゃんとこの方向性で大丈夫だよねっていうコンセンサスを取って、
じゃあいけるねって言って、まあもともあらかじめ決めていた論文雑誌に対して投稿する。でその提出したものが、
論文誌側がレビューをして、で掲載するに値するかどうかっていうのを言われて、
まあ大体はそこで、めっちゃいい感じにできてるやつっていうのは、指摘が返ってきて一往復で終わるとか、
あとは逆に最初のその渡したのの完成度が低かったりすると、掲載できませんって言ってリジェクトされるっていうパターンもあるし、
やり取りを重ねてたら半年以上、掲載全然許可されなくて予約掲載されるとか、
っていうのでまあレビュープロセスが結構複雑だったりするわけだよね。
そうのね、いわゆるレビュー、茶読のやり取りで、大学博士とか博士課程の学生は卒業ができないとかありますよね。
俺結局、博論に含む論文のジュリーが、博論の大学の締め切りの1週間前とか、
ギリギリだったとかね。
やばかったよ、マジで。マジでやばかった。
そういう意味でのメンタルブレイクみたいなのもあったりしますよね、絶対。
あったね。それをポッドキャストで喋ってたから、ポッドキャストのリスナーたちが応援してるというか、面白がって伸びたんだね。
当時の宇宙話ですね。
そう、100話ぐらい。このね、もう1500話いったからさ、ポッドキャスト。宇宙話1500話いったうちの100話ぐらいの時だね。
ちょうど隣のデータ分析屋さんはこれが92話目ぐらい。
そう、1500台。やばいよね。
すごいよな。
やめ時を失ってるよね。
それもそうだね。
で、なんかその、そのネイチャーのところって、レビューを自動化できるかどうかっていう話だったわけよ、論文自体が。
あ、そうなんだ。
記事自体が。
でも、じゃあ魚AIのやつと照らし合わせると、結局は最初のブレストも、言ってしまえば業界全体を批判するというかレビューして、
文献見てレビューをした上で、この路線だったら学術的な意義があるよっていう提案がされて、
論文制作がスタートしていくみたいなプロセスじゃない。
だから結局そこのレビューのところって本当にAIに任せて、科学的に意義のあるものが出てくるんでしょうかっていう。
ネイチャーが掲げてるのは、一個はやっぱり理解力の限界があるんじゃないっていう話があって。
理解力。
文章自体は理解できると。で、それに紐づいた情報を世の中にあるものからピックアップしてくることもできると。
けど、それらを、それらがちゃんと整理されて、科学的な概念だったりとか文脈っていうのを完全に理解できているような感じは、今のところ完全ではないよねっていう。
あー、なるほど。
その概念自体の理解とか、研究に大事なところってやっぱその歴史的にこう紡がれてきた部分とか、
どこが評価された上でどの研究があってっていう、なんかそのチェーン的に積み上げられてきた、つながってきたものというか積み上げられてきたものというか、
とかっていうのを完全に理解しきれてなさそうだよね、まだみたいなところが、
まあこれ多分ネイチャーレベルのレビューっていう話でもあるかもしれない。
なんかそんなにインパクトのないカンファレンスのペーパーとか、
あのー、ほんと軽い砂毒のところとか、だったら、なんかもしかしたら大丈夫なのかもしれないけど、
ほんと科学の真髄だぜ、俺らはネイチャーは、みたいな目線からすると、っていうことなんじゃないかな。
物理の研究とかしてると、結構仮説の上に仮説を重ねて、そうとしか言えないみたいな結論の持ってき方するじゃないですか。
そこら辺の理解とかが、ちゃんとこの仮説があって、次の仮説があるみたいな流れを汲み取れるのか、みたいなイメージなんですかね。
あーそう、多分そうだと思う。
宇宙とか多いっすね、そういう話って。
多い、めちゃめちゃ多い。でも確かに天文の中で、ほんとにAIでいけるかみたいなところって結構むずいと思ってて、
その、業界全体を理解して、ここがまだ解明されていないっていう、その構造化というか、穴を見つけるというか、は全然できると思うのよ。
でも、それを解明する意義みたいなところを、しっくりバッチリくる、研究者が誰もが、あー確かにねって思えるものを作れるかで言うと、まだ怪しいんじゃないかなっていう気がする。
結構難しい話してますね。
そう、なんかその、なんだろうな、よくさ、科学研究のその題材の決め方とか、そういうのを整理するときに、
俺もめちゃめちゃ苦手だったし、いまだにちゃんとできるか危ういんだけど、
その、誰もできてないっていうことには価値はないんだよね。
誰も知らなかったこと、誰も解明できてなかったことができたっていう独立の事象については、
誰、誰も興味がないというか、科学的な価値はなくて、
えっと、それって、なんか、人がやってないことをやれば出せるものではあるんだけど、
科学的な意義があるかっていうのとは別の話で、
例えば、技術力が足りなくて、今までブラックホール、例えばブラックホールとか見たときに、
こういうブラックホールの形までは見えてたけど、視力が悪いから見えなかった。
だから、視力のいい人工衛星、望遠鏡を作って見ることで、今まで抜けて見えてこなかった、
この解像度の情報まで見えるようになった、とかはいいんだけど、
なんか、ブラックホールをAじゃなくてBっていう見方をしてみるのって、
ほら、過去の研究見ても誰もやってないでしょ?だからいいんですよ。
っていうのは、科学的に意義のあることではない。
意味がないからやってないっていうだけで。
まあ、確かにそのブラックホールの作造の技術が上がってっていうところで、
マネージャーの論文になりましたもんね。
仕事とかに置き換えると、なんか、それは目の前のタスクを解決するのに、
いろんな方法ってあるじゃない?別にアプローチの仕方は一つじゃなくて。
で、じゃあ、リソース無限にあって何でもできるって状態の時に、
じゃあ、とりあえずAIの予測モデル作ります。
まあ、確かにそれでも解決できるけど、別に求めてるのそうじゃないんだよね、みたいな事象とかってあるじゃない?
まあ、それに近い。
そうだね。なんか、作っても意味ないものを作ってみて、誰もやってないでしょっていうのって、
実、それ、意味価値がないからやってないんだよってことですよね。
あ、そうそうそうそう。
っていうので、だからその複雑に入り乱れている情報の中から、
なんか、こういう理由があってこの角度で見る意義があると思うから、
このアプローチを取ったっていうのが、特に自然科学とかだと非常に重要で、
その理解力の限界っていうところは多分そこ。
そのAIは複雑な科学的な概念や文脈を完全に理解することが難しいっていうのは、
一個一個の論文の繋がりとかはなんとなく分かるんだけど、
じゃあ本当にこう網羅的に調査できて、業界全体の流れとか、
構造とか、そういったのまで把握しきれているかいなっていうところ。
それがネイチャーで出てるってことですもんね。言われてるんですもんね。
らしいよ。
そうなのか。
ちょっと批判的な人が書いてるっていう可能性もあるけどね。
とはいえさ、なんかこうアプローチのコンピューターサイエンスとか、
強調で出したことあるやつで言うと、
計算社会科学とか、コンピューテーショナルソーシャルサイエンスって呼ばれる分野とかは、
なんか割と世の中にあるアプローチをこのサービスに当てたらこうなったよとか、
逆にこのサービスをこういう形で理解するとこういうふうな解釈得られるよねとか、
っていうのでも通ってたりはするから、
なんかその大きな斬新さが必要なのかどうかっていうのも、
分野によってはまあ疑問ちゃ疑問。
本当に分野によってその一本の論文の価値というか、
なんか人類をどこまで前進させたかみたいなところの歩幅ってちょっと違ったりしますもんね。
そうね。
それはもう業界問わず、なんか研究のインパクトっていうのはそれぞれだと思うから。
だからソーシャルサイエンスとかコンピューターサイエンスとか、
そういったところは結構なんか横幅が広がりに広がってもいいみたいな、
そういう感じもちょっとあるから、
なんかそういうパターンはもしかしたら論文の自動化とかは結構簡単なのか。
確かにそれこそ地丸あるじゃないですか、アニメの。
その天動説から地動説に果たしてAIがその時代にあったときに言えるのかっていうと、
言わないだろうなとも思いますね。
確かにね。そうだよね。
そうしたら多分天動説だって言われているところに対して、
天動説の中での定理とかの発見とかをしに行こうとするよね。
そう思いますね。だってそれまで学習してきている文献ないし、
例えばその当時の地球上にある全てのドキュメントを読んだとしても、
読んだAAがあったとしても、それをもとに、いや、これ全て違う。
正解は地動説ですって言えるとは思えないんですよね。
それがね、それでそう、すごい、
まるで俺が提示した論文を読んでいたかのような指摘なんだけど、
その課題3つ一応掲げられていて、
1個目がそのさっき言った科学的概念とか文脈の完全理解っていうのができるかっていう話で、
もう1個はバイアス、やっぱり。訓練バイアス。
だから既存の情報に対して学習をして、それに依存した結果を出すから、
やっぱり既存のバイアスを引き継ぐ可能性があるよねっていうのはまさに、
今の天動説、地動説めちゃめちゃいい。
で、あとは透明性の欠如っていうのはやっぱりAIの判断プロセスっていうところが、
まあなんか、どこまでクリアに出せるかっていうところは、
特に自然科学とかだとやっぱこの、この透明性に俺らは悩まされたわけじゃん。
機械学習を、衛生データに使おうとした時に。
っていうやっぱ相性の悪さって引き続き残ってるよねみたいな話。
あー、説明性とかっていう話にも繋がるんですかね、その透明性っていうのは。
そうだね。
はい、説明可能性みたいなところですよね。
まあでもこういうのがあるから、簡単に一言で言えば、
まだ完璧に自動化はやめといた方がいいよねみたいな。
けど、別にじゃあ、論文、ある程度結果を、
体系だった文章にまとめてあるものを、
ネイチャーに掲載できるように整えてくださいとか、
そういうのは多分全然できる。
AI使う時ってほらなんかさ、Human in the loopとかっていう言葉もあったりするじゃん。
人間の目でチェックした上で、
なんかこう、よりなんか、
全部勝手にやらせるようにしないで、
磨き込んでいって、