-
-
スピーカー 2
近藤淳也のアンノウンラジオ。
こんにちは、アンノウンラジオです。
今日のゲストは、数学やAIを研究されているという長瀬さん、長瀬准平さんにお越しいただきました。
こんにちは。
スピーカー 1
こんにちは。
ようこそです。
スピーカー 2
ありがとうございます。
先ほどね、初めてお会いして、初めましてだったんで、ちょっと僕も初めましてっていう感じですけれども。
スピーカー 1
あんまりないですか、初めましては。
スピーカー 2
そうですね、アンノウンに滞在している方にお声掛けして、ちょっとどうですかみたいな事前の知り合う過程があることが多かったんで。
今日はね、ちょっと人のご紹介で、あなたたちちょっとラジオ撮ってみたらどうですか?
スピーカー 1
レアケースだったんですね。
スピーカー 2
感じだったんで、ちょっと本当に初めましてというか、いろいろ教えてくださいっていう気持ちで収録に臨んでおりますが。
アンノウンはもうでも何日か既に泊まっていただいている。
スピーカー 1
そうですね、多分4泊とかさせてもらいました。
はい。
周りの京都の街並みというか含め、なんか久しぶりにめっちゃ静かな、どこでゆっくりしたなって感じ。
普段はもう都内なんで。
スピーカー 2
はい。
スピーカー 1
なんか騒がしいなみたいな感じなんですけど、京都いいなと思って。
そうですか。
また普通に泊まりたいなと思いましたね。
スピーカー 2
よかったです。今回は学会で来られてるんですか?
スピーカー 1
そうですね、今回は学会で。
何学会ですか?
日本応用数理学会。
スピーカー 2
日本応用数理学会。
スピーカー 1
という学会の年会、毎年9月ぐらいにやってるんですけど、会場は毎年バラバラで、今年はたまたま京都だったんで、紹介いただいて、そういえば京都、泊まれるやんと思って、泊まらせてもらったって感じですね。
スピーカー 2
なるほど。大丈夫でしたか、滞在は。
スピーカー 1
そうですね、なんか久しぶりに、何て言うんですか、ちょっと言い方あるですけど、なんかおじいちゃんおばあちゃん家みたいな、昔ながらの家みたいな感じの感じで、そうですね、だいぶリラックスしてましたね。
スピーカー 2
よかったです。古い建物なんで。
スピーカー 1
これ余談なんですけど、たまたま僕の研究室の先生があの京都知ってて。
え?なんで?
なんか誘惑をリノベしたのと、1階にワーキングスペースがある場所みたいな感じで、先生も知ってて、近くに梅雨あるよねみたいな感じで。
来られたことあるってことですか?
スピーカー 1
取ろうと思ったけど、直前ではいっぱいあったから泊まらなかったけど、みたいな感じで、なんかめっちゃ知ってて。
スピーカー 2
結構先生ってことは上の方じゃないんですか?
スピーカー 1
そうですね、もう50代後半とかの先生なんですけど、結構サウナ好きだったり、いろんな近く施設とか好きな先生なんで、なんか話してたら、え、それ庵野の京都ですか?みたいな。
僕そこ泊まりますよみたいな感じで、結構先生にも知られているかもしれないです。
スピーカー 2
ああ、そうなんですね。それは光栄です。
じゃあちょっとね、そもそもどういう方なのかっていうことで、じゃあ軽くまず自己紹介からお願いしてもいいでしょうか。
スピーカー 1
名前も出るですよね。
長瀬潤平と言います。
出身は栃木県で、栃木と言いつつ一番南の方なんで、田んぼしかない、何もなくて、あんまり県民意識もないんですけど、
割とすぐ都内、栃木って言うと驚かれるんですけど、都内出やすいような一番近いところに住んでたんで、大学は柴原工業大学で大宮キャンパスなので、埼玉の大宮まで出てきていて、
柴原工大で4年間数学というか数理科学を学んで、そのまま都内出たりとかもしてたんですけど、基本埼玉、都内、栃木あたりを行き来してる生活で、
その後大学院に柴原工大で進学して、修士博士と5年間、数学だったりAIだったり、最近流行りの機械学習だったりっていうものをちょっと数学的に研究するみたいな学生生活を送り、
今は電気通信大学のデータ教育センターというところに去年の4月からですね、着任して今2年目になります。
なので社会人歴で言うと2年ぐらいなんですけど、ちょっと大学院時代にインターンとかで結構いろいろ企業の研究所行ったりとか、いろいろしてました。
スピーカー 2
なるほど。じゃあお年は?
スピーカー 1
今、20代ですね。
スピーカー 2
若いですね。
スピーカー 1
じゃあどうしようかな。どんなことをされてるかをまず聞きますか。
本業研究ですかね。
本業自体はデータ教育センターというところにいるので、データ分析の講座を作ったり教材を作ったりとか、
あとは最近全国的にデータサイエンス教育を普及しましょうみたいな話があって、そういうのを推進したりするっていうのが一応本部でやってます。
あとは実は電気通信大学、社会人向けのデータサイエンス講座みたいなのをやっていて、
めちゃくちゃ高校で電通大の宣伝してもあれなんですけど、そういう講座をやっていて、それの運営のお手伝いとかも自分の仕事としてやってるって感じです。
スピーカー 2
そうなんですか。データサイエンスっていうのは何ですか?情報工学とかとは違うんですか?
スピーカー 1
最近そうですね、たぶん2010何年ぐらいから結構流行ってるんですけど、結構統計とかは前々からあるんですけど、その統計のモダンな統計というか、
最近結構注目されて機械学習とか呼ばれるような分野とか回帰分析とか、そういうのをちょっと最近そういったものをまとめてデータ分析とかデータサイエンスとか呼んだりするんですけど、
データ集めて何か未来の情報を予測するとか、データ集めてその統計的な傾向から、
そうですね、何かを予測するとか分類するとかいうのが基本的な機械学習、データサイエンスのやることかなと思います。
よく例題でされるのだと、今日の温度は何度だからおそらくお弁当はいくつ売れるだろうみたいなのを予測してモデルを立てて、それに合わせてお弁当作るとか、
そういった分析をしたりマーケティングの分析をしたりとか、そういうのがデータサイエンスとかデータ分析とか呼ばれたりしますね。
ある種AIも何かかなり広い言葉ですけど、AIって言ったときに最近はかなりデータサイエンス的なことを指していることも多いのかなと思います。
スピーカー 2
なるほど、だいぶ産業に結びついてそうな印象ですね、そういう風に。
スピーカー 1
サイエンスって言葉ついてるんですけど、結構データ分析、あんまり必ずしも学術的な内容ではないかなっていう気はしますね。
何かデータサイエンスって言われて、ちょっと自分もデータサイエンスの歴史とか、データサイエンスの専門家じゃないのでデータサイエンスの歴史とかはわからないですけど、
データサイエンスとかデータサイエンティストと呼ばれるような仕事が最近もてはやされていて、それの社会人向けにこうやって機械学習のモデル作りますよとか、
こうするとデータをビジネス活用できますよとか、実際に社会でこういう事例がありますとか、
企業さんでこういったデータ分析のプロジェクトが立ち上がって、こんな風にビジネスにデータが使われてますみたいなそういった話を、
僕が全部やるわけじゃないんですけど、企業の人とか呼んだりして講座としてやってるって感じですね。
スピーカー 2
なるほど。確かに気温とかいろいろ駆使したらお弁当の売り上げがあれば、いろんなお店とかでいいだろうなと思うんで、
スピーカー 1
ビジネス側のニーズってのは大きそうだなと思いますけど、そこの解決法としては主にそういう真相学習みたいなことが手法として使われてるんですか。
そうですね。真相学習はめちゃくちゃ、なんだろう、データサイエンスの一分野でしかなくて、
データサイエンスって大きい分野があって、機械学習っていうちょっと統計的な、数学使ったり予測、いわゆる予測をしたりするっていう分野があって、
その中の一つに、ディープニューラルネットワークと呼ばれるものとか、真相ニューラルネットワークと呼ばれるようなモデルを使ったものが真相学習って呼ばれることが多いかなと思います。
スピーカー 1
自分は特任助教ということで、データ教育センターに特任で着任して人気があるんですけど、助教の先生は言ったらまだ一人前の先生ではないと。
博士を取ったので一人前の研究者ではあるけど、一人前の先生となる、ちょっとこれは僕の主観も入ってるんですけど、一人前の先生ではないから、授業は持たせてもらえないし、もちろん研究を頑張って、
自分の業績を上げて、人気のない教員に頑張って上がっていきましょうみたいなポジションだと思ってて、なので結構さっき言ったデータサイエンスの講座とかやるのと合わせて、
スピーカー 1
自分の研究も結構頑張ってくださいっていうふうに言われていて、僕はさっき言った機械学習の中の一部の真相学習っていう分野が最近すごい流行ってまして、
画像解析も流行ってるし、自然言語処理も流行ってるし、チャットGPTとか色々ありますけど、いわゆる最近AIって呼ばれてるものとか、すごい急に性能が上がったなって言われてるものの、
根底の技術には結構真相学習的なものがあって、2012年、2015年ぐらいからすごい急に発展してるんですけど、
それなかなか理論的なことが解析されてない、数学的なこととか理論的な仕組みみたいなのってかなりまだ分かってないギャップがありまして、
ちょっとそれ気になるなっていうことで、僕は学部ぐらいからなんで、2017年、8年ぐらいからわりとずっとその分野で研究してるっていう感じになりますね。
スピーカー 2
なるほど。じゃあ本当にそういう真相学習って言えばいいんですか?
はい、真相学習。
その辺りをずっと研究されているっていう。
スピーカー 1
ちょっとかっこよく言えば、真相学習の理論とか真相学習の原理解明、数学的な研究みたいになりますけど、
日本にはその分野で素晴らしい先生たちがいっぱいいるので、さすがに比べるのはおこがましいですけど、
分野的にはそこに属してて、もちろん数学の専門家の人もいれば機械学習の専門家の先生もいて、
それぞれがコラボレートしたり、あるいはそれぞれ独立にめちゃくちゃいい成果をあげてたりされるんですけど、
僕はどっちかっていうと、ずっと簡単な数学って言ったらあれなんですけど、
そんなに高度な数学は使わずにですね、できるだけ簡単な数学でもできるような仕事と言いますか、
ある真相学習のモデルとある真相学習のモデルは何が違うんだみたいなことを、そんなに難しい数学じゃないんですけど、
誰もやってないし、あんまり重視されてないと言ったらあれですが、あんまりかっこいい仕事じゃないんですけど、
そういう地道な仕事をコツコツ一応自分の研究としてはやっている形になります。
スピーカー 2
なるほど、ちょっと素人でもわかるようにって言うと大変かもしれないんですけど、軽くその真相学習とは何かっていうものをちょっと解説していただいてもいいですか。
スピーカー 1
どこから話してどのくらい時間かけるか悩むんですけど、すごいまず基本的なところとして機械学習っていうのがあります。
機械学習っていうのは何かっていうと、英語ではマシンラーニングとか言いますが、自動的に何か学習して決めたらいいわけですね。
ちょっと素人のレベルがいろいろあって難しいんですが、例えば一応小学生でもわかるようなところからいくと、
一時関数っていうのを習ったと思うんですね。YイコールAXプラスBっていう直線の方程式がありまして、線形の式がありまして、
この線形の式っていうのはAっていう値とBっていう値がいろいろ変わればいろんな線になりますね。
例えば傾きが急になってる線、Aが大きいと傾きが大きい線になりますし、Bが大きいとどんどん上の方に移動しますねっていうふうに、
Aっていう値とBっていう値によってその一時関数っていう関数がいろんな様子を示すと。
例えばそれこそ小学校中学校の時にやったのって、この2点を通る直線を求めなさいみたいなことをやったわけですね。
そうするとある2点っていうデータを使って、それを通るような線を探す。線を探すっていうことはつまり、
AっていうパラメーターとBっていうパラメーターを決める問題を解いているわけですね。
一時関数ぐらいだったらAとBしかないんで簡単なんですけど、中学校入ったり高校入ったりすると、
二次関数って言ってパラメーターが3個になってるやつとか、もっとパラメーターが多いやつとか、
多分高校生で数学3とかをやると3次関数が出てきたりとかしたりして、パラメーターが何個か増えたりするわけです。
2つ観点があるんですけど、1個はパラメーターを単純にいっぱい増やしたら良さそうっていう、
一時関数よりも二次関数の方がいろいろ表現できるものが多そうだし、じゃあパラメーター数が大きい方が単純に良さそうだねっていう観点でパラメーターを増やすことも考えられますし、
スピーカー 1
あとは線形性っていう観点で言うと、一時関数はただの直線なんで、直線で予測できるものってあんまりなさそうですよね。
例えば身長と体重の関係を線で表そうとした時に、もしその関係が正しければ身長がマイナスの人は体重マイナスとか、身長が300の人は体重めっちゃ大きいみたいなことがあって、
絶対現実じゃありえなくて、そこはちょっと工夫が必要になってくるので、そうすると非線形性が必要になってきて、
ただの直線じゃなくて、ちょっと途中から曲がっていくような線とかが使えると、色々予測、より高性能な予測ができるというような背景があって、
基本的には一時関数みたいに何かAXプラスBみたいなモデルを用意して、そのモデルのA、Bっていうパラメーターを何か決定するっていうのが機械学習なんですけど、
その決定する時にデータがいっぱい入ってきて、そのデータをうまく予測したりデータにうまく適合するようにうまくパラメーターを決めて線を引くっていうのが機械学習の問題で、
その時にパラメーターをすごいいっぱい増やそうとか、一時関数じゃなくてもっと複雑なものを使おうとか、直線じゃなくて波打っている非線形なものを使おうとかっていうのを、どんどん色々高度なモデルとかを使っていくのが機械学習になりまして、
これはまだ深層学習の手前の、その一個前の世代の機械学習で、とにかくパラメーターをたくさんやるっていう。
一時関数っていうのがパラメーター2個しかなくて、もうちょっと複雑なものになると入力の数に応じてパラメーターが増えたりとか色々するんですけど、
パラメーターの話はちょっとフライング気味に出しちゃったんですけど、要は色々な曲線とか複雑な線を使って、そういった予測とか分類をしましょうっていうのが機械学習の根底にありまして、
どんな関数使ったらどんなデータに対してうまくフィッティングして、うまくそういった線が引けるのか、予測する線でもいいですし、グループAとグループBを分けるような線を引くでもいいですし、
分類問題、回帰問題って言うんですけど、そういった数値を当てたりするようなものに機械学習が使われるんですが、
このモデルっていうのがどんなモデル、つまりどんな関数でパラメーターAとB以外にどんなパラメーターがあって、どんなものを使えばいいのかっていうと、色々なモデルが当然考えられますので、
サイン関数使ったりコセン関数使ったり色々めちゃくちゃありますけど、そこでディープニューラルネットワークっていうモデルを使ったものが最近の深層学習になります。
何がディープなのかっていうと、ニューラルネットワークって呼ばれるモデルをどんどんどんどん繰り返して、めちゃくちゃ繰り返しているのでディープニューラルネットワークって呼ばれますし、
ディープニューラルネットワークの特徴としては、パラメーターがもちろん場合にもよりますけど、さっき1時間数はAとBの2個でしたが、1万とか10万とか100万とか1000万とか、最近のものだとGPTとかそこら辺のでかいものであると10兆あるとか言われたりするんですけど、
10兆分ぐらいのそういった決めないといけない数値が、データから決めないといけない数値があって、そこに大量のビッグデータとかすごい計算機とかをいっぱい使って頑張って10兆ぐらいのパラメーターをバチって決めたら、うまくいったねみたいなのが深層学習のイメージにして。
もちろん10兆とか使わなくても深層学習って呼ばれるような技術はありますし、実際に最近だとAIカメラとか音声認識とかそういういろんなところにディープラーニング的な技術が使われてますし、そこに10兆のパラメーターが入っているとは思わないですけど、
スピーカー 1
そうですね、言うならそういうふうに解釈することもできます。
なるほど。
スピーカー 2
そのじゃあ浅いやつでも同じ精度の猫の判別ができたとして、それは猫特化みたいなことになるってことなんですか?
スピーカー 1
すいません、それは一個ギャップというか説明があって、従来のやつが浅いと言ったんですけど、ディープニューラルネットワークは深いものから浅いものまであって、浅いディープニューラルネットワークでもそういうことができる。
なるほど。
従来の機械学習で猫がそんな綺麗に予測できるかというとかなり難しいんですけど、深いディープニューラルネットワークじゃなくて、めちゃくちゃ層が短い、従来の機械学習と同じぐらいの層の数しかないニューラルネットワークモデルでも予測ができる。
スピーカー 2
僕、松尾さんの本読んですごい驚いたのが、結局各層が学習したとして、その学習っていうのはどういう意味があるのかがよく分からないっていう、学習させてるのに何を学習したかがよく分からないんだっていうことにちょっと驚きを覚えたんですよ。
例えば機械学習だったらパラメーター調整していって、さっきの式のこの点とこの点を通る式はこういう形だったんだねっていう何か学習結果みたいなものが分かる、理解できるっていうのが普通だと思ってたんで、それがよく分からない。
今のご説明でも、結局中に何が起こってるかよく分からないみたいなところは未だにやっぱりそういうものなんです。
スピーカー 1
それはかなりあって、機械学習モデルの中にはよく使われるのと決定器って呼ばれるようなモデルとかがあって、ある入力データがある値以上だったら猫としましょう、猫じゃないとしましょうとかそういう判断をしていくようなものがあるんですね。
例えば毎月の餌の金額はいくらとかいろいろデータは考えられそうですけど、お金持ちの家に住んでるかどうかとかいろいろ大きさとかあると思うんですけど、そういうので段々分割していくような機械学習モデルだったらちょっと説明、理解しやすそうじゃないですか。
ある状況を満たしてるから猫ですっていうふうに言えたりするんでいいんですけど、最近の深層学習とかは全くそういうことに関心がないというか、もちろん分野的には関心があって説明性大事だとかセキュリティの問題とかがあって、いろいろ研究はされたり進んだり注目されたりは最近それをしてますが、
スピーカー 2
それこそ当時の2012年とか2015年ぐらいから出てる深層学習の分野っていうのは全くそういうことに要は興味がなくて、自分の理解なんですけどもともとは画像認識のコンペテーションで、これは猫ですかみたいなそういう大量の画像を当てられるものを作りましょうっていう、すごい工学的なというか、そういう発想から発展しつつ。
スピーカー 1
そういうところから発展してきた要素が大きいと思ってて、それも多分あると思うんですけど、そのせいで結構だいぶ性能先行で分野の研究が進んでいるんですね。
なので中身がどうなってるかとかはあんまり気にしないと言ったらあれですけど、とにかくいいものができたらいいっていうかなり産業的な観点で研究がガーッと進んでしまって、それをちょっと追従するように一部解析したりとか、一部説明性をつけたりとか、そういう研究が進んでて、
実際には中身がどうなってるかっていうのは結構ギャップがあったり全然わからなかったり、今でもなかなかいろんな研究者たちが頭を悩ませているところかなっていうふうに思います。
部分的にちょっとわかるとか、こういうことはわかるみたいなことはあるんですけど、じゃあ深層学習で予測したときに、例えばちょっと社会的な話をすれば、自動運転とかでピピって言われて止まったときに、
なぜ、もちろん人が移りましたって言って止まることはできるんですけど、どこをどう見て人だと判断したのかみたいなのまで解釈するのは、なかなか今の深層学習だけだと難しいと思います。
スピーカー 2
そこが面白いですよね。要は、なんか人間が作ったものなのに、中がどうなってるかよくわからないけど、とりあえず結果だけは出ているみたいな状態がいまだに続いている。
スピーカー 1
そうですね。結構よく勘違いされるがちなんですけど、AIっていうとあまり間違いがなくて正確な結果を出してきて、何回やってもミスしないみたいなそういうニュアンス結構持ったっていうと思うんですけど、
最近のAIって言ったときには、そういった深層学習とか機械学習的な統計的なものでビッグデータをベースにしたものがAIって呼ばれがちなんですね。
何をAIって呼んでるのかとかは結構注意が必要なんですけど、少なくとも最近話題のAIって言ったときには、そういった技術を指していることが多くて、
その場合って、今まで話してきた通り、必ずしも正確性が高いものではないし、曖昧なものも多かったりするんですよね。
それって何かっていうと、データいっぱい入れて、おそらくこうだろうとかなんとなくこうだろうっていうのをAIたちがやっているからであって、
スピーカー 1
例えるなら、計算ドリルをひたすら当たるまでずっと解き続けて、うまく当たったからこれでいいんだって言って、計算の仕方を暗記するみたいなものに考え方に近いんですよね。
猫っていう写真集をいっぱい見せて、これは猫だ、これは猫じゃないっていうのをバーってずっと見て、1万枚とか100万枚とか猫と猫じゃない画像を見たら、
もちろん答えつきですよ、裏に単語カードみたいなのをバーってずっとめくって、単語カードを1万枚やったからだいたい猫っていうものがわかって、
おそらくこれ猫だろうって言ったら猫じゃなくてライオンだったみたいな、そういう思考をしていって、
猫科の動物とは何かとか、四足歩行とは何かとか、そういう背後にあるロジックみたいなものってあんまり考えない学習を今のAIは知ってると。
これは良くも悪くも曖昧で、人間の直感的な思考みたいなものに近いんですよ。
なので正解がないものとか、あんまり論理的じゃなくてもいいものとかって、人間だけの強みだみたいな感じがなってますけど、実際には最近のチャットGPTとかもそういう技術を背景にしてるんで、
平気で嘘ついたりするんですよ。数学の証明とかやらせるとめちゃくちゃ変なこと言ってきたり、さも当然合ってるかのようにドヤ顔でチャットGPT答えてくるんですけど、
いや合ってないよと、お前論理理解してないなっていうと、私はAIなので間違いませんみたいなことを言ってきて、
いやでも間違ってるよって言って手をすると、すみません間違ってましたみたいなことを言ってきたりするぐらいで、なんとなくそれっぽいことを返してくれるだけなんですよね。
なのでAIって言ったときに、昔のそれこそプログラミングとかでカッチリ作ってるものとか、ルールベースって呼ばれるものとかは間違いないっていうふうに作られてますけど、
最近のものは統計的なものをベースにしてるんで、意外と曖昧だなっていうところが。
スピーカー 2
なんかが同じ質問しても違う答えが出てくるんで、何か今までと違うものでやるっていうのは皆さんもだんだん気づいてると思いますけどね。
スピーカー 1
結構今のAIはそういうところがあって、なので難しいですね。ざっくりAIって一言で言ったときに、それがどういう技術が背景にあるのかによって、
めちゃくちゃカッチリしたものなのか、めちゃくちゃ曖昧なものなのかって、どっちの意味でもAIって取られてるんで、そこが結構今の闇であり面白いところかなって。
スピーカー 2
闇。どんどん細かい話になっちゃってるかもしれないですけど、ちょっと興味があるんで聞くんですけど、
画像を見てこれが猫か犬かとかわかるっていうのは、なんとなくたくさん画像を覚えさせて、それが正解かどうかっていうのを覚えさせた中で、なんとなく覚えていくっていうのがイメージができて、
しかもそれが、もしかすると人間の脳の構造に近かったりするから、いい結果が出てるのかなみたいなのも思うんですけど、
最近のチャットGPTみたいな、画像を見てこれは猫かとかっていうレベルではない言葉を、質問書いたら答えてくれちゃっているっていうものが、
あれがその同じ仕組みで動いているっていう理屈がよくわからないんですけど、どういうふうにああいうものができちゃうんですか。
スピーカー 1
いくつか考え方というか、いくつか手法とかはあると思うんですけど、自分もいわゆる生成系のAIって言われるものの専門家じゃないので、
飲みにされると困るところがあるんですが、すごいざっくり言うと、もともとのAIっていうのは計算ドリルをいっぱい解かせて、
答え合わせをして合ってるふうにパラメータを決めていくっていう問題なんで、過去もばっか解いてて神経功の問題には対応できないみたいなことが結構あったりされてきたんですけど、
最近のAIっていうのはもちろんそれをすごい頑張ってやらせて、例えばもうネット上のデータ全部取ってきて全部入れているから、
なんとなく次にある単語が予測できるとか、そういうレベルでうまく回答を返してくれるものもありますが、なかなか難しいと。
たとえるなら、言語がどういった確率で出てくるかみたいなのを当てにいくというか、つくる。
会話の応答の答えを当てるんじゃなくて、会話ってどういう確率で生成されてるんだろうみたいなのを当てにいくような学習をしているっていうほうが、
最近のそれこそチャットGPTに限らず画像を生成してるAIとかもいっぱいいますけど、そういうやつらもそういう仕組みを使ってるのかなと思ってて、
単に答えを当てるんじゃなくて、答えが出てくる箱みたいなものをつくる。
例えば猫の写真を描いてくださいって言ったら、猫っていう写真の入れ物というか猫っていう写真がいっぱい入ってる箱みたいなのをだんだんつくっていくみたいな感じに近いですね。
画像を一個見せている答え合わせをするんじゃなくて、その答え合わせをしながらだんだん猫っていうものを覚えていって、こういうものたちが猫なんだみたいななんとなくぼんやりとしたそういうイメージみたいなのを獲得して、
スピーカー 2
そこから一枚猫を取ってくるとか、こういった入力がされたらこういう応答をするべきだっていう言語に関する箱みたいなのを持って、それをポンって一個そこから答えを取ってくるみたいなことをしているのに近い。
たくさんの、じゃあその、チャットGPTが質問したら答えてくれるっていうのは、たくさんの文章を組ませて、そうするとこういう質問の後に続く会話はきっとこういうものであるだろうっていうものが自動で出てくる。
スピーカー 1
そうですね、だんだん形成しているので、なんかその結果一度も学習してないものとかに関しても、おそらくこれはこういうものだろうみたいなのを、なんとなく曖昧に返してはくれるようになってる。
スピーカー 2
そこがちょっとすごいことですよね。
そうですね。
スピーカー 2
そんな理屈で本当にこんなものが出てきてるのかっていうのがちょっとにわかに信じがたいレベルになってきてると思うんですけど。
スピーカー 1
それは僕も思っていて、僕は言ってもAI研究者の顔をしてますけど、実際は数学者、実際はって言ったらちょっとあれですけど、数学も専門ですし、AIは数学的に研究したいと思っているので、ずっと紙とペンを使って研究してたら、なんか急に2020年くらいからチャットGPTが大盛り上がりして初めて、なんか窓を開けたらめっちゃ騒いでるみたいな、そういう感じなんですよね。
まさかこんな早く、そういう生成AIとかの技術が発展するとは思ってなくて。
そういう感覚なんですね。
そうですね。自分も最先端の情報を常にキャッチし続けてたかって言われるとそうじゃないんですけど、でも少なくとも専門家が思っているよりも早く進んでるんじゃないのかなっていうのがあって。
スピーカー 2
やっぱりそうなんですね。
スピーカー 1
すごいなっていうのがあります。
自分は仕組みとかが興味があるんで、仕組みが全然わかんないものとか、あとはさっきもありましたけど、計算ドリルみたいなものをひたすらやらせてるだけなんですよ。
僕はどっちかっていうと、数理モデルだったり、数学的な仕組みを作る方が興味があるので、この写真の猫らしさってどこなんだろうとか、猫度合いの数値化とか、あるいはヒゲがあることと目があることと耳がとんがっていることを猫の定義とするみたいな、
そういうことの方が僕はやりたいですし、AIとかでそういうので自動的に猫の定義みたいなものを抽出してくれて、猫の構造みたいなのを発見してくれて猫っていうふうに予測しているんだったらいいですし、
そうなってもらいたいんですけど、そうなってるかわかんないままうまくいっているし、
少なくともデータを学習させるときには教えてないんですよね。猫の定義を頑張って見つけてくださいとか、何が猫なのかを考えてくださいとか、AIには全く命令してなくて、
これが猫ですよ、これが猫じゃないですよっていうのを、それこそ赤ちゃんに食べていいものと食べちゃダメなものを教えるとか、犬にお手させたら餌あけるみたいな、
そういうレベルの知能の学習をさせてるだけなのに、猫のことを理解しているかのようにGDPTは回答してくるので、そのときに本当に背後で猫というか概念を理解しているのか論理を理解しているのかってわからないですし、
人間が本当に論理を理解しているのかっていうとわからない、それっぽい回答をしてるだけで僕もさも論理的に振る舞ってますけど、実際は論理っぽいものをこれが論理だというふうに申しにして振る舞っているだけなんじゃないかみたいな、
ちょっと怖い話というか思想的な話、哲学的な話もありますけど、割とそういうテーマに結構GDPTとかは踏み込んでいるというか切り込んでいるような気がして、面白くもあり怖くもありっていうところはありますね。
スピーカー 2
たしかに永瀬さんがおっしゃるように、分かったって気持ちになるのって、例えばね、物体の運動の運動方程式みたいなのが理解できて、だから物体はこうやって動いてるんだって分かった気になるみたいな、理屈が分かったときに初めて本当に分かったって気になるみたいな実感っていうのがあったりすると思うんで、
たしかにその、それを抜きにして、答えが出てるからいいじゃないかっていうのは、なんかこう、なんか踏み落ちないものがあるっていう気持ちもなんかなくはないけど、でもね、もう確かにその、じゃあ全部本当に分かってたのかお前はって言われると。
僕らは運動方程式を感じながら歩いたりしてるわけじゃないんで。 そうそうそう。あの車とあの車ぶつかりそうだなとか、まあ見てるだけで、思ってるだけみたいな。
スピーカー 1
僕は結構直感だったり、なんかなんとなくで推論してるところもあったりするんで、あの、なんかまあちょっと繰り返しになりますけど、僕はAIの研究者であって数学の研究者であってみたいなことを言ってますけど、やっぱ知能っていうものに結構関心、AIのアーティフィシャルインテリジェンスの部分に結構興味があるなっていうのは思っていて、
はい。 もちろんその僕は神経科学者とか認知科学者とかではないですけど、ずっとそういう認知、人間の認知機能とか知能のメカニズムみたいなものに興味があって、でもそれを数学的な、僕がたまたま使える道具というか好きな、できる分野が数学だったので、数学的なものを使ってそういう知能とか認知構造みたいなものを解明しようとしてるなみたいな気持ちがあります。
やっぱその、より良いものを作ろうとか、より良い性能で猫を予測しようとかには正直あんまり興味がなくて、かといってじゃあとにかく今のAIの仕組みを数学で解き明かすんだみたいなものをもちろんやりたいですけど、強いイメージがあるわけじゃなくて、どっちかっていうとじゃあ猫とは何だろうとか、人間は何を持って猫を、猫研究者ではないですけど、何を持って人間はそういう判断をしてるんだろうみたいなことに関心があって、ずっと研究をやってる。
気がしますね。
なるほど。
スピーカー 2
じゃあ結構その人間の脳みたいなものに、仕組みみたいなものに興味があるみたいなところもあるんですか。
スピーカー 1
結構そうですね。
しっかりと思います。
ただ脳の研究ってなかなか多分大変だし、お金もかかるし、僕はたまたま学部からずっとそういう分野ではなかったので、
今は自分の周りにあるものというか、自分が持っているもので脳の研究をするにはどうしたらいいかっていうと、データサイエンスが一番自分は近かったというかできた分野って感じですね。
スピーカー 2
なるほどね。そうするとAIの研究をしていると人間の不思議に迫れるみたいな部分もあるかもしれないですかね。
スピーカー 1
そうですね。特にちょっとだいぶ前のデータサイエンスの話に戻りますけど、人間が何が好きかとか、ある商品とある商品があったときにどっちを買うかとかってかなりそういう認知の問題だと思うんですよね。
例えば僕ちょっと一時期、造造研究所でファッションの研究をしてたんですけど、例えばどっちがより良いファッションかとかってかなりなんとなくだし、かなり理論化されてないし、数値化の余地があるんですよ。
でも、知りたいじゃないですか。ファッションの理論を知りたい。
スピーカー 2
何を作れば売れるかに直結しますからね。
スピーカー 1
もちろん。ビジネス的には何を作れば売れるかっていう観点重要ですし、僕個人の感覚として何をおしゃれとしているのかとかってわかんないですよね。
その人間の推論の仕組みとか、あるいは人間が作ったものを人間がどう判断して何を良しとしているのかみたいなのを持って結構いろいろ、
例えばこのホテルは良いホテルだったとかいう時に何を持って良いと判断しているのかとか、僕は結構そういうなんて言うんですかね。
スピーカー 1
なんとなく直感みたいなものをどこまで数学的にだったり論理的に突き詰められるかみたいなことに関心が結構ずっとあるので、今のチャットGPTとかとは戦わなければいけないですね。
スピーカー 2
戦うというかそっちの進化も横であるからこそ逆に分析できる対象も増えていくみたいなのもあるかもしれないですね。
スピーカー 1
逆に言うとチャットGPT、もうちょっと広く言うと深層学習がすごい広がって、機械学習がすごい発展していく、AI技術がすごい発展していくなどの時に、
僕が研究をしている理由でもあるんですけど、AIの中身を調べ尽くす数学が作れれば、AIが調べ尽くした猫の構造とか、AIが調べ尽くした言語の構造みたいなものを僕がAIの構造を把握すれば、じゃあ猫の構造も分かるし、言語の構造も分かるやんみたいな気持ちがあって、
スピーカー 2
ちょっとずるいですけど、AIにいろんなものをやらせて、そのAIを、AIさえ僕が理解できればいろんなものが分かるな、みたいなことが結構モチベーションというか研究の全体像かなって感じますね。
なるほど、面白い。今その永瀬さんの研究っていうのは、どういうところを対象とされていて、どういうことが分かってきているんですか。
スピーカー 1
僕は、すごいざっくり説明すると、さっきあのディープニューラルネットワークがどんなモデルかっていう話、多分全然できてなかったと思うんですけど、すごいざっくり言うと神経細胞とか神経回路網を数学的に模倣したりしているモデルなんですね。
それがニューラルっていうところですよね。
ニューロンをいっぱいつなぎ合わせたものというふうになるんですけど、ニューロンの決まったモデルってなくて、例えば軸作神経細胞があったときに、ある入力が入ってきて、ある入力が入ってきて、ある入力が入ってきてっていうふうに何個が入力が入ってきて、それがある値を超えたら発火するみたいになるわけですけど、
この時にも入力が何個入ってくるのかとか、どうやって入ってくるのかとか、どこに重きを置くかとか、あるいはどのくらいで発火するのかとか、あるいは発火の仕方とかもいっぱい、いくらでもそのモデリングの仕方ってあると思ってて、
ましてはそれがいっぱいくっついてるもの、それこそ10兆とかくっついてるものがニューラルネットワークになってる、ディープニューラルネットワークになってるんで、そうするとどうやってくっついてるかとか、例えば神経細胞1,2,3は並列につながってるけど、その後に4,5,6をつなげて、7,8,9はその横に置いといて、7,8,9と4,5,6をくっつけた先に神経細胞10があって、神経細胞10から神経細胞9にもう一回回路が戻っててとか、
そういうネットワークの構造って無限にあるじゃないですか、各ニューロンの種類もいろいろ変えたりしていいわけですし、こいつはナトリウムチャンネルの方が反応強いなとか、いくらでもそういうことが考えられて、ちょっと今のは生物学的な背景におりましたけど、工学的な観点からも、とにかくこういう接続をした方が性能が高いからこうしてやれとか、そういう流れもあるので、
要はいろんな方向からニューラルネットワークっていうモデルってめちゃくちゃいろんな種類考えられるわけで、言ったら無限種類のニューラルネットワークが存在するんですよ。
点が10丁もあれば、結び方なんてめちゃくちゃありますよねって話ですよね。
で結び方もですし、結ぶときに点線使うのか直線使うのか波線使うのかみたいなレベルでいろんなモデルって考えられるわけなんで、それってそもそも僕はAIの仕組みを研究したいのに、AIがいっぱいあったら困るわけですよ。
スピーカー 2
なるほど。
スピーカー 1
いろんなAIがいっぱいいたら、AIの統一的な解釈をしたいのに、AI自体がそもそもいっぱいあったら困るので、
すごいざっくり言うとさっき言った10丁通りの点をいろんな結び方をしてるって言ってるけど、ある結び方をしたときとある結び方をしたときで、
本質的に違いがあるのかとか、そういうのをネットワーク絡まっちゃってるんで綺麗に並べ直して、スタンダードな形に直すみたいなのが僕のメインの研究で。
スピーカー 2
スタンダードな形。
スピーカー 1
そうですね。一番シンプルなものは全部繋がってるやつ。例えば1点から始まって10丁後に全部並列に繋がってて、そのまま10丁後がもう1点に繋いで終わりみたいな。
全部並列にバーって並んでるやつとかが一番シンプルじゃないですか。
そうですね。
あとは全部同じ数で均等に並んでるとか、例えば1丁後並列に並んでるのが10個並んでるだけとか、ポンポンポンって並んで終わりみたいなのとかって多分綺麗じゃないですか。
じゃあそういう形とぐちゃぐちゃしてるやつって本当に違うんだっけとか、ぐちゃぐちゃしてるけどこれって綺麗に並べ直したら、
なんかもっと綺麗な正方形長方形みたいな、そういう形に並べ直せるんじゃないかみたいなことが結構メインの研究ですね。
数学的なところはだいぶ端折ってますけど、考え方としてはそういうことをやりたいですし、そういうことをして世の中にはびこっているいろんなディープニューラルネットワークを整理して、
スピーカー 2
性能落としてもいいから、ここの部分はこういう役割をしてたんだねみたいなことが分かるっていうことがやりたいっていう。
なんかまた細かい話ですけど、ちなみに今のさっきの一番単純な形だと入力から出力まで一方向だと思うんですけど、実際ぐるぐる回るんですかね。
スピーカー 1
それは大事な話で、実際の脳は多分ぐるぐる回りそうですよね。そういうのは、再起的な結合を持っているニューラルネットワークといって、リカレントニューラルネットワーク、RNNとかいったりするんですよ。
一方で猫の予測をするみたいなのとずっと真っ直ぐ進んで、純伝播していくネットワークっていうので、フィードフォワードネットワークってFFNLとかいうふうに呼ばれたりしてて、これはすごいざっくり言うと、
フィードフォワードネットワークって純伝播してるやつは、純伝播してるだけなんで、情報が戻ってくる必要がない。
逆に言うと、画像を見て、これは猫かどうかを判断するときに、わざわざ目を見た後、ひげを見た後に戻ってきて、やっぱりこれ目じゃないかもみたいな、そういうことをする必要はないんですよ。
だから、予測する分類するっていうときには、純伝播型のだけで全然いいんですけど、もちろんリカレント型のほうがうまくいくケースとか、フィットするケースとかって、すごいいっぱい問題によってはあって、
例えば、すごい雑な例ですけど、自然言語処理とかの分野で文章を当てるときに、先を読んでから前に戻ってきて文章の意味を保管するとかってあるじゃないですか、文脈を捉えるとか、あとは文章の穴埋め問題とか考えたらそうですけど、
そういう場合って必ずしも一方向に進んでないので、そういう場合は戻ってきて考えるとか、そういうことをさせる必要もあるので、そういうモデルのほうがいいんじゃないかとかは実際にあります。ただ、正直な話をすると、リカレント型のほうが圧倒的に解析が難しいので
スピーカー 2
影響がずっと無限にループしちゃいますもんね
スピーカー 1
大平 なので、僕は放置していて、フィードフォアなものの整理だけをまずはやっていくところがあります。ただ、リカレントは実際に使う上でも結構難しいところがあって、例えばリカレントなものを許すので、自由に接続を何でもやってくださいっていうと、本当に無限通りかつ一生ループが終わらないような接続が作れてしまうので、それって計算する上でも困るんですよ。
そうすると、結構最近流行ってるリカレントなものだと、もうほとんど固定してしまって、ループの部分は固定して、ループしてない部分だけを学習するとか、結構そういうリカレントなネットワークとかもあったりしていて、リザバーコンピューティングとか、いろいろ結構リカレントなものが自由すぎると学習が分からないから、ある程度制約を入れようみたいな話があったりして、
そうすると、じゃあ制約されてる部分だけを整理するとか、逆に制約されてない学習する部分だけを整理するとかできると思っていて、リカレントなものを一から全部やるのは大変だけど、今やってることが活かせたりすることはあるだろうなという気はします。
スピーカー 2
僕はポッドキャストの配信サービスのリストっていうのも作ってるんですけど、それで音声の編集とかたまにいじるんですけど、ノイズキャンセリングのフィルターでRNNのフィルターがあったりするんですけど、あれは言葉っぽいものかどうかみたいなのを後ろに戻してるんですかね。それでRNNって見るんですけど。
スピーカー 1
おだしょー 僕はノイズキャンセリングが詳しくないので間違ってたあれなんですが、基本的にそういう時系列情報っていうのは時間の発展を見ていかないといけないんで、1秒目に入力された情報と2秒目に入力された情報と3秒目に入力された情報っていうのに連続的な意味がありますよね。
たとえば今喋ってる連続的な意味があってた時の、れっていう言葉とんっていう言葉とぞっていう言葉は繋がっているわけですよ。なので、その後ろに続く言葉を予測できないと意味がないというか、時系列的な関係性を捉えるためにリカネントなものの方が都合がいい。
たとえば連続的なって言った時の連続的なまでの情報を持ってて、その後に来る単語は何ですかっていうふうに予測するんだったら全然違うんですけど、ずっとこう時系列的に次の情報を入力し続けるってなると、れっていうものが入ってきて、これはれだなっていうのを予測しながら次の情報は何かみたいなのをずっと再クリックに情報として持っておかないといけなかったり使わなかったりしないといけなくて、
そうするとヒードフォワードなニューロネットワークだけでそういう分析をするよりは順番に入ってきたものからガンガン処理するみたいな形のほうがデータとして多分フィットしている使いやすいモデルだったのでノイズキャンセリングとかの世界では、あと音声認識、自然言語処理とかそういう時系列性を持っているデータに関してはリカネントな構造が入っているほうが使いやすいし、
実際性能も上がりやすい。逆にヒードフォワードのものだけでやろうとすると、結構工夫がいるところが大きいのかなって思います。
スピーカー 1
かなり応用数学者がやってそうな研究
スピーカー 2
一応近いものではあるってことですよね
スピーカー 1
そうですね、いうのがあったりしますね
スピーカー 2
じゃあ当たらずとも当たらずというか近い、
ちなみにそのネットワークの表現っていうのは、式としてはどうやって表現するんですか、式とかでいけるんですか
スピーカー 1
ディープニューラルネットワークですか
スピーカー 2
そうですね、ネットワーク自体を入力に使うっておっしゃったりする
スピーカー 1
ネットワーク自体を使う場合の話
スピーカー 2
されたと思うんですけど、ネットワークを何かで表現しなきゃいけないと思うんですけど、それってどうやって
スピーカー 1
一番やりやすいのは、ネットワークって行列というか二次元配列で表せるんですよね
例えば点が10兆個とかあったら困りますけど、5個しかなかったら1,2,3,4,5って振って1,2,3,4,5って振って
1から1にネットワークの線があれば、1に成分を1にすればネットワークって二次元配列とかで表現できて
スピーカー 2
何と何がつながってるかは点の数かける点の数の配列に入る
それはそうですね
スピーカー 1
っていうのを入れるケースもありますし、最近のディープニューラルネットワークはずるいので
もう画像データとして入れちゃうとか、結構何でもありだと思います
一番シンプルな方法は二次元配列として入れるのが一番きれいかなと思いますけど
スピーカー 2
何でもありですね、いろんなディープニューラルネットワークは
スピーカー 1
強いとか弱いとかもね、点線か実線かみたいな
そうですね、なので二次元配列の中に1、0で入れるんじゃなくて
1、0.5、0とかで入れればそういうのも一応表現できるということですよね
スピーカー 2
すみません、細かい話で興味のままに聞いても
あともう一個思うんですけどね
脳ってシナプスとか解剖してそもそも構造って調べられないものなんですか
スピーカー 1
倫理道徳的な問題を無視すれば多分できる
スピーカー 2
科学的にというか技術的にはできる
スピーカー 1
多分できるんですけど、最近はやってないですよね、世界的に
スピーカー 2
倫理的にやってない
スピーカー 1
多分やってないと思います
スピーカー 2
死体解剖とかでも無理なの?
スピーカー 1
死体とかだったらやってるかもしれないですが、死体だとある程度
僕は専門家じゃないんで間違ってたあれなんですけど
倫理道徳的に少なくともやってないはずで
やってるとしたら死体の解剖ですけど
死体の解剖だけだとやっぱりどうしても把握しきれないところが大きい
実際に電気が流れないから
死んだ死体の脳みそに電気流すかみたいになると結構
また倫理道徳問題か
思考が走ってしまって痛いとか思うかもみたいな
ちょっとそこら辺は難しい
スピーカー 2
でも例えば細かすぎて全くわからないとかじゃなくて
一応別にそこは調べられる
スピーカー 1
いろいろやってたのはあると思います
そうなんですね
人間じゃないので言うと
今何かそれも倫理道徳的にいいのかわからないですけど
よく分野で出てくる
応用数学の分野で出てくるのは
イカの神経軸鎖に電極ぶっ刺して電気流して
それの反応で微分方程式数理モデル作るみたいなのはやられていて
ある反応とある反応がこことここが反応してるから
この2つのタームが必要で
それと入力として別の出力があってっていうような倫理図方程式みたいなのを作って
それで神経細胞の活動電位のつまりニューロンのモデルを作ったりとか
そういうのは実際にやられたりするので
人間じゃないですけど全く不可能ではないかなと思いつつ
じゃあその活動電位を測れるっていうことと
脳解剖していくかどこが至高してるかとかを測るのはだいぶギャップがあるかな
スピーカー 2
分解能的に全然違いますよね
そうですね
でも長谷さんがやられてるのはそういう実際の絡み合ったネットワークをちょっとほぐして
これはこんな形してるねみたいなことをとにかく分かりたいみたいなことだっていう
スピーカー 1
なかなか人体ではできないので
スピーカー 2
そうですよね
なるほど
それは世界的には結構やられてる方いらっしゃるんですか他に
スピーカー 1
整理するってことですか
僕の知る限りはあんまいなくてっていうのも別のモチベーションで似たようなことやってる人はいるんですけど
例えば整理してちっちゃくすれば計算機に乗せやすいとかは結構あって
例えば10兆個パラメーターあったら計算できるとかないですけど
それをなんだかんだガチャガチャって整理していったら
実際に必要なパラメーター100個でいいやんとかなったら
ちっちゃい計算機とかにも乗せられる可能性があって
モデル圧縮性みたいな観点とかで似たようなことやられてる人とか