1. 研エンの仲
  2. #49 AIにコピペされても許せる..
2021-07-14 53:57

#49 AIにコピペされても許せる? 最近の研エンニュース

AIがgithubのコードを学習して続きを書いてくれるサービス、Github Copilotの著作権問題を皮切りに、eSportsへのBCIの応用、巡回セールスマン問題、統計の運用など、最近気になっている研究やソフトウェアエンジニアリングに関するニュースについて語りました。

00:05
はい、それでは最近のニュースを紹介していこうと思います。
え、そういう番組でしたっけ?
いや、ちょっとね、たまにはいいんじゃないかなと思いまして、我々がTwitterで見たりとか、誰かに紹介してもらったりとかで、気になったニュースをね、噛み砕きだから、皆さんに紹介できたらなと思っております。
まじっすか?そんな…
どうなんだろう。
たぶんニュースっていうよりはもうちょい、我々の興味を持った話についてダラダラ話すという感じになるかなと。
そうですね。
一つ目、GitHub Copilot、これ見ました?
いや、見てない。一応なんか概要だけ見ましたけど。
GitHubっていうコードをアップロードして、バージョン管理したり、ソースコードの共有ができるサービスがあって、世界中で使われてるんで、いろんなプログラムのデータがあると。
それを機械学習させたら、コード書けるんじゃね?っていうことですね。
なるほど。
もともとエンジニアが使うツールで、エディターにこのクラスにはこのメソッドありますよみたいなのを保管してくれるツールがあるんですね。
例えば、この配列っていうのはこういうメソッドを持ってますよっていうのを、頭一文字を打ったらGoogleの保管みたいな感じですよね。
その続きを保管してくれるっていう仕組みがあって、それのもっと賢い版ってことで、コードコンプリートってその仕組みを呼ぶんですけど、AIベースのコードコンプリートみたいなのをやってくれると。
で、割と例えば1個の関数、10行、20行プライの関数を、その名前を入力しただけで保管して作ってくれるみたいな例があって、
これは誰でも使えるわけじゃ今はなくて、多分ベータ版の登録を受け付けているので、そこに申請すると使えるようになるっていうサービスがあります。
これは革命的じゃんっていう人もいるんだけど、結構いろいろな突っ込みどころがあって、
一つは結構コードの中に、本当はいいこととはされてないんだけど、パスワードみたいな秘密鍵を埋め込むっていうのがあるんですね。
で、例えば秘密鍵っていうのは、それは他の人には知られちゃいけないようなものですよね。
で、それもでもアップしちゃってる人がいて、それ自体は別に誰にもバレなければ、悪用する人はいなければ、
それを使うって悪いことしようとする人はいないわけですけど、GitHub Copilotは全てのライセンス的に利用できるものだけを使ってると思うんですけど、
03:00
クロールしてそれを学習してるわけなので、当然そういうバレちゃいけないようなコードも使ってしまうと。
それはパブリックなやつだけじゃなくて、プライベートなやつも使ってる?
パブリックなものをさすがにベースにしてると思うんです。
ただそのパブリックの中でも、全然みんな誰も気にしてないから、うっかりパスワードとかキーを書いちゃってるっていう例も当然あるんですよね。
なるほど。
で、それ自体は別に誰も悪くないと。GitHub Copilotも別に公開されている、ライセンスでおそらく問題ないはずのものをクロールしているので、いいと。
で、秘密カギを書いちゃってる人も当然ちょっとうっかりさんだけど、別に誰も見てないし今まで問題は起きてなかった。
ただ問題はそれを学習しちゃったことで、例えばパスワードイコールとかって打つと、そのうっかり誰か書いちゃった人のが保管されちゃうんですよ。
で、それをエンダーとかってやっちゃうと、実際そのAPIに、その人のしか知らないはずのパスワード、トークンを持ったクエストが飛んじゃうっていうセキュリティの非常な問題があったりとか。
じゃあ勝手にその人のサイトで、APIで例えば課金されるタイプのやつだったりとか。
それはあり得ますね。
それはやばいですね。
あとはより多分、秘密カギの問題はパスワードっぽい文字列を表示しないようにするとかっていうふさぎはあるんですけど、
もっとあるのは著作権のあるコードっていうのは当然あるんですけど、それを学習してコピーしてしまうっていう問題があると。
例えば有名なアルゴリズムで特許を取られているものとかも勝手に実装しちゃってる人とかもいるんですよね。
それ自体は別に特許を持ってる人と勝手に帰っちゃった人の問題、その二人の間の問題なので、
それは訴えられたらその人は何かしなきゃいけないかもしれないんですけど、
それは置いといて、でもAIがそれを学習しちゃうってことがあるんですよ。
で、例えば平方根のアルゴリズム、ルートを取るようなアルゴリズムでものすごい早いけど特許的に保護されているものとか、
特許はないけど著作権があるコードとかを勝手にコピーしちゃって、
例えば平方根っていう名前を打つと、それが保管してしまう事例もあるわけですよね。
なるほど。
それは誰が責任を持つべきなのかっていうのは、結構AIで学習して何かをするっていうプログラム共通なんじゃない?っていうのは割と、
昔からある議論だけど、コードっていうものになった途端、割と現実的に侵害しちゃうことは全然あるよなっていう。
そうですね、そもそもコードの著作権ってどれぐらい保護されているのか、要するに結局著作権があるものがGitHubのパブリックにあるってことですよね。
06:05
そうですね、それはあり得る話ですね。
例えば商用利用だったらライセンス料取るけど、商用じゃなければ使っていいですよみたいな感じになってたりするってことですか?
はい、そういうこともあるし、商用に限らず誰に対してもそういう権利を主張しませんっていうライセンスもあります。
ただ、それが実際に本当にそういうコードかどうかを保証することはできないわけですね。
勝手に誰かがパクったコードを緩いライセンスで、誰でも使っていいですよライセンスで公開するっていうのはあり得るわけです。
それは別にGitHubもチェックできることは現実的にあり得ないですし、それがデータセットに含まれちゃうっていうのはあり得るわけですね。
なるほどね、そこに間に人が挟まれているからコントロールができないってこと?
フリーだと思ってクロールしちゃって、それを元に学習したんだけど、実はっていうのはある話だし、当然パブリックのデータセットを使ってやっている研究で起こり得るじゃないですか。
そうですね、あらゆるAI研究で起こり得ることですね。
イメージネットとかでも、イメージネットとかはちゃんと弾いているのかもしれないんですけど、あるんじゃないかな。
データベースを本当にライセンスフリーのところに限定するってことが比較的しやすいのかもしれないですね、画像に関しては。
フリーのサイトっていうのがいくつかあるじゃないですか。
作権フリーのここのサイトとここのサイト、いくつかの組み合わせの中の画像しか使えませんみたいな風にすれば無理ではないのかなって。
この辺なんかAIの人呼んで話聞きたいですね、実際のとこどうなのか。
あと完璧にフリーな、例えばデータセット、画像で言うと、あらゆる画像、かつあらゆる画像のデータベースなんだけど、そういうセンシティブなものは含まれていないみたいなデータセットを使って、
本当にその僕らの画像の認識の能力が再現できるのかっていうと、結構なんかだんだん怪しくなってくるじゃないですか。
今の段階では問題ないけど、よりAIが高度になっていくとそこには問題があるんじゃないか。
そこに壁ができてくるんじゃないかと。
例えばミッキーマウスだけは認識できないモデルとかできるわけですよね。
まあできるでしょうね、それはね。
例えばより自然言語とかだと、ある小説の引用とかは認識できないみたいなのもやっぱりあるというか、
僕らが結局そういう能力を発達させていく過程で、当然別にライセンスがあるないとか関係なく学習していくわけなので、それはどこまで可能なのか。
だから著作権によってAIの知能が限定されるってことですか。
データセットのそういう性質によって限定されていることは当然ある。
それはあるでしょうね。
そういう完璧なクリーンなデータセットを作ることの不可能性みたいなのもあるのかもしれないなと想像はしますね。
09:07
でもそういえば、ダリーって呼んだらいいんですかね。
たぶんウォーリーってディズニー、それこそディズニーですけど、をオマージュしてっていうことだと思います。
ダーリーっていう、その自然言語を打つと絵を作ってくれるっていう、そういうGPT-3を使った自然言語から任意のイラストみたいなのを作ってくれるやつ。
あれピカチュウ使ってましたよね、そういえば。
ピカチュウ使ってました。
だからそういう意味では大丈夫。ピカチュウはフリーのピカチュウがいたんですかね。
わかんないですけど。
著作権フリーのピカチュウがいたんですかね。
いや、ピカチュウ学習は別に、確かクローリングとかは少なくともアメリカではフェアユースなんですね。
だから著作権、ピカチュウに著作権がないわけがないんですけど、でもそれをクローリングしてにじりをするっていうのは、ピカチュウの元の映像をそのままコピーして出すのでなければ大丈夫。
なるほど、そういう感じになってるんですね。
バイクに乗ったピカチュウって入れると、勝手にバイクに乗った、今まで存在していなかったバイクに乗ったピカチュウの絵を作れるとか、それはまだ現実にありそうですけど、
例えばアボカドみたいな椅子みたいに入れると、世の中に存在してなかったものを組み合わせで作ってくれるっていう、それはなんかすごいデザインに革命みたいなのが起きそうな感じで、
本当にあれがうまくいったあれだけ見せてるのかどうかわかんないんですけど、すごく個人的に面白いなと思って見てた技術でしたね。
一応このダーリーのウェブサイトに行くと、インタラクティブなデモがあって、完全にその好きな文章を入れて試すことはできないんですけど、
イラストレーションオブピカチュウインパジャマメイキングアスノーマン、これはパジャマを着たピカチュウが雪だるまを作っているっていうテキストを選ぶと、実際に結構それっぽい画像が出力されます。
オープンAIが作ってるやつですね。
そうですね、オープンAIっていう団体が作ってるやつですね。
で、このピカチュウの部分をいくつかの選択肢から選ぶことができて、赤ちゃんのカピバラがとかってやると、赤ちゃんの実際にカピバラの絵がパジャマを着て雪だるま作っている。
で、パジャマを着ているっていう部分もなんかいろんなありますね。
ヒゲが生えたとか、ヘッドフォンをしている。
だから主語と?
主語、まあそうですね。
形容詞と動詞とそれぞれ選ぶみたいな感じなんですかね。
うまくいくものだけ取り出しているのかもしれないですけど、でもそれなりに表現力が当然あるってことは、これを見ればすぐ分かるデモですね。
そうですね、なるほどな。
その辺の著作権と、どこまで学習データとしていいかっていう問題は、本当にあらゆるものでありますよね。
12:09
コードに関しても確かにあるな。
GitHubのやつって、一時期デモが話題になってた、自然言語を入れたらコードを書いてくれるっていうやつとは、
GPT-3を使って自然言語を入れたら、コードを自動生成してウェブサイトを作ってくれるみたいなやつもありましたね。
それとはまた別ですか?
GitHubコーパイロットもオープンAIがパワードバイって書いてあるので、GPTを使ってるとは言ってないけど、関連する技術は絶対使ってるだろうなと思います。
それとは別に、確かに過去にあったデモとして自然言語を入れると、こういうウェブサイトを作りたいっていうと、HTMLとかを出力してくれる。
そうですね、ありますよね、すでに。
それはそうですね、それもオープンAIなのかな?ちょっと詳しいことはわかんないんですけど。
そうですね、コードってやっぱり自動生成とかはしやすい構造があるし、タイプの成果物だと思うんで、どんどんこういう研究は進んでいくんだろうなと思いますし、
当然、構造化できているってことは、次元数が少なくて、オリジナリティがある意味ないってことですよ。
だから、パクられたときに、完全にこれはコピーだってのがあり得るわけですよ。
なるほど、そこをより結構危惧してるっていう。
そうそう、てのはあり得るんじゃないかなって。
なるほど、確かにそうですね。
なんか小説とか絵を作る、そういうクリエイティブにAIを活用する流れっていうのはかなりありますけど、
コードに活用するとガチコピペになっちゃうっていう。
ガチコピペが起こり得るし、なんかでもそれが厳密にそれを本当にコピペしたんじゃないけど、そうなっちゃうっていう。
結果的に同じものが生まれてしまうとも言い訳しようがある。
まあ、そうですよね。だってその構文じゃないと動かないわけですからね。
だから、なんかこうちょっと燃えある話。
燃えある話、確かに。一応GPT-3は補足しときますか?
そうですね。GPT-3って何ですか?
Generative Play Training 3っていう。
そんな名前あったの?
そうそう、オープンAIが開発してる言語モデルの最新版だそうです。
なんか45テラバイトのテキストデータのコーパスを使用して学習している。
これなんか私もよくわかんないですけど、1750億個のパラメータを使用して学習しているらしくて。
次元数はそんだけあるってこと?
で、まあかなり人間が書いたような文章を生成することができるような言語モデルだそうです。
15:02
なんか結構広い応用が、一つのモデルをいろんな方に応用して研究がなされていて、
有名なのが、例えばブログの記事のタイトルを入れると中身を保管してくれるっていうやつがあって、
それを勝手に作って、使って作ったブログ、偽ブログですね。
中身があるようでない、あるんだけど自動生成。
本当にもうそのタイトルだったらこういう内容がくるよなっていう納得感があるけど、
よく見るとちょっと不自然なブログとかを作って公開して、
実際にGoogleのランキングに出てくるようなブログが出てきて迷惑になるって言われてますよ。
それと同じノリで言うと、Twitterのシューマイボットさんっていうのが。
ありますね。これ結構昔からあるボットで、多分2009年ぐらいからあるのかな。
これは個人開発なんですか?
個人開発らしい。
すごいですね。
なんかタイムラインの人の発言を学習して似たようなことをしゃべる。
すごい。最近の発言を学習してしゃべる。
20万人ぐらいフォローしてますけど、20万人分のツイートが…
多分じゃないかな。
多分。
結構ね、面白いこと言ってますね。
だから結構ジジネタにも添えるってことですよね、つまり。
なんかあれですね、13分前のツイートで、馬娘っていうワードが。
みんな馬娘の話をしてたら、馬娘ってワードが出てきたりとか。
帰りなさいなんとかさんとか、月とか、おはとか。
だから、おははやっぱ朝にツイートしてくれるんですかね。
そういう、それぐらいの、どれぐらいの事実性があるのかわかんないですけど。
馬娘ぐらいだったらね、何ヶ月前からのデータから学習してても大丈夫ですけど、
おはは、適切な時間にツイートするのめっちゃ難しそうですけど。
僕結構、このしんわゆくんたまにバズってるのを、最近はそんなないですけど、
昔はもうちょっと存在感あったんで、まずボットがそんな珍しかった時代だったかな、その頃は。
だから、見てたんですけど、たまに本当に面白い発言をパクツイして、
つまり、入力と出力全く同じってことですよ。
で、発言して、それを自動生成したのとみんなが思い込んで、めっちゃバズる。
AIってこんな面白いこと言うんだ、みたいな。
でも検索すると、実は存在してるんですよ、同じことを言ってる人。
で、その人は1いいねとかなんですよ。
めっちゃかわいそうだなと思って。
かわいそう、それはかわいそう。
AIが言ってるって言っても、めっちゃみんな、いいねして、リツイートして。
それはめっちゃ面白いね。
でも、なんかボットが学習してパクツイされたんだって、なんか文句言えないような気がしちゃうけど、
18:00
別にそれ全然文句言っていいってことかも。
まあ、確かに、インプットアウトプット一緒ってことはね、そうです。
でも、おはとかは、まあもうしょうがないわけじゃないですか、おはようみたいなのは、
いや、一緒だけど、でもいい例はあるよね、っていう。
じゃあ、パクツイって何なの?みたいな。
っていう、だんだんその境界になると思うんですね。
なんか、おはは当然いい事例だとして、
なんか馬娘面白とかは別に、まあいいじゃんっていう気もするし、
でもなんかちょっと、こう、なんだろう、あるじゃないですか、
ツイッターでうまいこと言って、ガハハみたいな感じのことを言って、
で、それをそのままパクっちゃうみたいなのは、
うーん、みたいな。
その境界線どこにあるんだろうな。
法的に著作権がどっから発生するのかとは別として、
なんかこう、AIがやって欲しいことやって欲しくはない、
ちょっともうやってしまうことみたいな境界はありますよね。
なるほど、なるほど。
まあ、結論がある話じゃない。
ちょっと思い出した、古典的な例として。
確かに、確かに。
いや、すごいそれは、考えさせられるというか、
まあ、コーディングで同じことが起こってもおかしくないなってすごく感じますね。
はい。
まあ、ちょっと取り留めのない話でしたが、ギターアップコーパイロットの紹介でした。
なんか、そういうAIに関して思い出したんですけど、
あの、ジェネラティブの方だとやっぱそういう問題が多いと思うんですけど、
ようやくの方は、なんかまだ、文文のようやくとかサイトが最近あって、
それはかなり面白いなと思ったというか、
どうやって重要な情報だけどう抜き出してくるかみたいな。
で、今きた産業をしてくれるわけですよ。
で、なんかそういうのだとまだ、でもそれもデータはたくさん使ってるわけですよね。
まあ、そうですね。
なんか、あとはなんか論文のライティング補助とかもあるんですよ。
なんかこういう表現にしたほうがいいとか。
で、そこにコピペがある、サジストされる可能性もあるわけですよね。
たぶん、今までいろんな論文を学習してサジストしてくると。
でも、内容はオリジナルだったら、そこはいいんじゃないかなと思いますけど。
いや、でも、なんか全く同じ一文が急に登場しちゃったりする可能性はあるわけですよね。
なんか、具体的なこういう名詞が入ってない文章があるわけじゃないですか、論文の中にも。
で、そういうときに、なんかこの結論をこういうふうに言いたいっていう感じで書いて、
で、サジストが出て、こっちのサジストのほうがきれいな表現だなと思ってそっちを採用しちゃったら、
それがなんかあるってことがありそうだなって、今ちょっと聞きながら思いました。
まあ、仮定として人間がこう選んで選んで生まれたって言うんだったらいいんじゃないかなとは思ってしまうな。
まあ、そういう文脈に限りますけど、科学的な論文で、内容がオリジナルで、表現の方法が自由であると。
内容が主で、科学的なことを記述するのは主で、で、その表現の方法は自由であるときに関しては、まあいいんじゃないかなと。
21:07
いや、なんかそういうのが標説チェッカーとか書けたときに、標説として引っかかってしまうっていう可能性がある。
まあ、著作権より言ってみればどっちかというと、そっちの心配かな。
本人は全く標説してるつもりはないわけですよ。自分でオリジナルで文章書いて、なんかもうちょっとこうやったほうがいいですよって。
でも、それも標説チェッカーのポジティブじゃないですか?
だって、標説してないじゃんっていう。
でも、全く同じ文章が来ちゃってるわけですよ。
でも、読む人が読めば、それは標説じゃないよねと判断されるけど、オートにはそう見えてしまったってことですね。
そうですね。だから、まるまる一文同じ表現があったときに、多分標説チェッカーには引っかかると思うんですよ。
何単語以上一章、連続して一章みたいな基準で取ってきたら。
だから、そういうときに、もちろんそれを後で人が見ればいいんですけど、我々が意図せずやってしまう可能性があるなってことです。
そういう疑われるようなことを。
確かに。
そういう意味では、いろいろ考えさせられるというか、
コーディングでもそうだけど、論文でもそういうストラクチャードな文章を学習して吐き出すってときに、
多分結構、こういうことを言いたいときはこうしたほうがいいとか、こういうことを実現したときはこういうコードを書いたほうがいいっていう最適解みたいなのが、
だんだん修練してしまう。
そう、修練してしまって、ただそこに権利なり標説なりみたいなことが出てくると、問題が起こってくるのかなっていうふうに思いましたね。
確かに。
まとめありがとうございます。
いえいえ。
高い予約でした。
はい。
じゃあ、次のニュース。
次のニュース。
まあ、ニュースというか、興味を持ったこととして、
なんか、eスポーツにこう、ブレインコンピューターインターフェースを使うっていうことを、
えーと、なんていうか、話題になっていて、
カーネルっていうスタートアップがあるんですけど、
カーネルって2つぐらいプロダクト作ってて、
1個は、脳地図、MEGっていうやつを、
今まですごいでっかい装置の中に座んなきゃいけなかった。
ガボって。
巨大ヘルメットの。
そうそう。
脚入れて、で、あんま動けないっていう状態で、手ぐらいは動かせるけど。
だから、要は血流なんですか?測るのは。
いや、あれはあれですね、脳地図なんで時期を測ってます。
血流ではない。
時期っていうのは、要は。
電気活動を、地場の変化として捉えてっていう、そういう。
脳波の、まあ、より精度よく取れる版みたいな感じ。
で、それを、なんだろう、部屋の中で動き回れるんだけど、
部屋がめっちゃなんか時期シールドがある、すごい特殊な部屋じゃなきゃいけないっていうところに限界があるんですけど、
でも、そういう、なんというか、特殊な時期を、あれする部屋の中では動き回れるMEGを作ったっていう。
24:04
情報型なものを作ることができた。
まあ、ヘルメット型の歩けるやつを作ったっていうのが一つと、
もう一つは、血流変化を測る方、カーネルフローっていう方ですね。
ニルスです。
いわゆるニルスです。
で、まあ、結構精度よく取れるらしくって、
で、そういうデバイスを作ってるスタートアップなんですけど、
そのスタートアップが、なんていうか、エイムラボっていう、別の、これはスタートアップなのかな?とパートナーになったと。
そこが何やってるかっていうと、
Eスポーツのパフォーマンス向上みたいなことをやっているところで、
で、なんだろう、そのEスポーツのパフォーマンス向上にどう、そうやってそういう、なんだろう。
ニューラルフィードバックを使うかみたいな。
で、これ見たときに、一番なんか現実的だなって思ったんですよね。
スポーツにどう使うかってなったときに、さすがにむっちゃ頭を動かすというか、すごい高速に運動するようなときは、
もうノイズだらけで、たぶん全然データとか取りようがないと思うんですけど、
すごい瞬発力とか集中力とかを要求されるじゃないですか、Eスポーツって。
でも、頭はそんなめっちゃ動かないじゃないですか。
まあ、多少はもちろん動けるように、まあ、そういう技術提供をカーネルがするんでしょうけど、
まあ、でもそういうことができたら面白いかなっていうふうに思って、
で、まあ結構相性がいいのかなというふうには思いましたね。
まあ、あの、なんだろう、脳活、脳領域ごとの血量変化とかを見て、
それを選手にフィードバックしたりしたら、
より、なんというか、素早く状況判断できるようになったり、
まあ、なんだろう、うまく集中の入り方とかそういうのをコントロールしたりとか。
いい状態のときの脳と、あまりパフォーマンスが良くなかったときの脳の血流の状態を記録しておいて、
で、今どっちだよっていうのを、それをフィードバックしてあげたりとか、
こういうことをすると、いい状態の脳に近づけることができるよと。
まあ、それ必ずしもパフォーマンス上がるとは限らないんですけど、
そういうフィードバックができるようになるということが、スポーツの上達につながるんじゃないかってことですね。
こういうエキスパート脳系って前からちょいちょい研究があって、
例えば、昔、理研で行われたのが、将棋脳。
ありますね。
将棋脳っていうプロジェクトがあって、
エキスパートはどうやって考えて将棋を打ってるのか、脳活動にどういう違いがあるのかみたいな、
そういうことを調べたりするのがあって、
その流れとして、より商業的に、より実際的に使えるようになる可能性があるっていう意味で、
いいスポーツは着目したらいいのかなっていうふうには思いました。
27:01
他のスポーツでこういうことができるってかなり、
それこそ自転車比較的、マシンの上に乗せてっていうんだったら、
そうですね。
実際のレースにフィードバック、レース中にとかは結構厳しい気がしていて、
射撃とか、それこそFPSではあるけど、
スポーツの中でのバーチャルの射撃なんですけど、
リアルの射撃競技も比較的できるのかな。
確かに確かに。
ゴルフとか、あとは。
ゴルフね。
ゴルフも頭動くけど、ある空間の中ではあるわけじゃないですか。
でも結構衝撃大きいから厳しいんじゃないかなと思いますね。
そもそも体がこうグワンって動いて、
そのせいで脳血流の変化なので、
ノイズがめちゃめちゃ大きくなるっていうのはありますね。
FPSとかマウス、キーボードのゲームだったら、それはかなり少ないはず。
私が留学したときに、
GO、NO GOシグナルと関連するような、
NO MEGか、NO Gsの活動とか見てたりしてたんですけど、
そういうのが、何だろう、
eスポーツだとめっちゃ出てくるじゃないですか、
ここでGOするかNO GOなのかみたいな、
すごい判断、意思決定のすごい連続みたいな感じだから、
そういう意味ではやりやすいのかなっていうふうには思いますね。
確かに。
それの遂行のために本当は体を動かす必要があって、
その理念によるノイズが生まれるはずだけど、
FPSとかであれば結構純粋に、
GOだったら前に進むみたいな感じで、
あんまりそれにまつわるノイズが乗らず、
解析しやすいっていうのは結構ありますね。
そうですね、たぶん。
その辺はちょっと興味深い流れだなと思いながら見てました。
そのとこでしょうか、PCRに関して。
僕はこの前見つけて面白いなって思ったのは、
巡回セールスワン問題っていう、
コンピューター科学の中でよく出てくる問題があって、
これが意外と解けるっていう、
現実の時間で解けるっていう話なんですよね。
これが出てくるのは非常に難しい問題の例として出てくるんですね。
これは典型的なNP困難っていう、
多項式時間で解けないよ。
多項式時間で解けないよっていうのは、
どう説明すればいいのかな。
点が増えると急にすげえ難しくなったって、
宇宙の年齢よりも長い時間かかってしまうんだみたいな、
そういう話ですね。
計算時間の問題ですね。
計算時間が爆発してしまうっていう問題。
たまに図で出てくる、説明の隣に差し入れとして出てくるのが、
ニューヨークじゃない、アメリカのいろんな都市がドットで示されていて、
30:05
巡回セールスワン問題ってどういう問題かっていうと、
その都市、例えば日本で言うと県庁所在地47個ありますけど、
それを最短経路で結ぶ、経路を解く、経路を計算するって問題なんですよ。
セールスマンがその47都市を最短で全部回り切るためには、
どういうルートを通っていけばいいかっていう。
言ってしまえば単純な問題設定なんだけど、
でもそれを厳密に解くのはすごく難しい。
いろんな組み合わせがあって、
組み合わせの数が爆発してしまうので非常に難しいってはずだったんだけど、
でもこの問題ってすごく有名で、
ものすごい努力が費やされていく、この問題を解くのに。
結果としてNPコンナンであるっていうのは変わりないんです。
なので実際にその組み合わせ数を増やすと、
指数的にかかる時間がどんどん増えていくんですけど、
それを現実的な係数を減らしていって、
現実的な時間で解くことができるアルゴリズムってのは実は結構あって、
実際に宇宙にある13億ぐらいの星を3次元にプロットして、
で、その13億の星をどう回ると最短経路のかっていう、
それって絶対指数的に爆発しちゃって解けないじゃんっていう問題も、
現実的にもうすでに解けている。
だからどのぐらいの時間かかったのかわかんないんですけど、
年とか1ヶ月とか1日とかそういう時間で解けているっていうのは、
結構僕は驚きでしたね。
それは計算方法を減らす過程を見つけたっていう、
そういう発見ってことですか?
なんか実際、例えば指数時間かかるって言われてても、
まず当然その、例えば指数時間かかるっていうのは、
例えばN都市に対して整数問題を解くのに、
例えばKのN乗の時間がかかるとか、
Kの2N乗の時間がかかる、
で、そのKの部分、その係数のかかる部分とか、
Nの頭につくまた定数の部分とかっていうのは、
どういう値であっても指数時間っていうふうに分類されると。
それはNP困難だよねっていうふうにカテゴライズされるんだけど、
その定数を実際にすごく減らしていけば、
現実的な時間で現実的なサイズ、
例えば1億とかであれば解くことは可能だよねっていう、
アルゴリズムを提案することはできるんですね。
それはNP困難である問題を、
簡単にクラスを下げるっていうことにはならないんですけど、
でもその現実的なNの個数に関しては、
33:03
現実的な時間で解くことが可能なアルゴリズムを提案するということは、
その範囲内でもできるわけですね。
定数を減らすっていうことで。
それをすごく頑張った人たちがいて、
結果的に13億の星でもできるようなアルゴリズムが提案されたと。
なるほど。
やっぱり家庭のところをもうちょい聞きたいんですけど、
どうやって減らしたんですか?
近似式がいろいろ混ざるらしくて、
近似式っていうのは最適解とは限らないけど、
でもこれは十分最適解に近いよねみたいなのが、
すごく複数あったらしいんですよ。
その複数の近似解を、
いろんな多分、
星でいうと星のサブセットについて適用したりとか、
いろいろ組み合わせると、
最適解はこれよりも低い数はずだ、
これよりも短い距離で回れるはずだ、
上限、上回をたくさん設定できて、
だんだん減らせる。
で、それを満たすような解にかぎちぼって考えると、
とても少ない思考でたどり着くことができるっていう、
そういう話なんじゃないかなと思ってます。
現実的に、
前あたりをしなくても、
この辺だけ調べればいいよっていう部分を、
うまく決めたっていうことになるんですかね。
だと思いますね。
僕が元にしている動画のリンク紹介を貼っておくので、
興味がある人はそれを見てみてください。
最適化のプロの人、
我々の先輩みたいなもんですね。
いや、我々の最適化なんてあれですよ。
研究の最適化は全然違う話ですよ。
ツーリーに全く基づかない最適化ですか。
ツーリーの方の最適化を研究している方が、
サプライチェーン最適化チャンネルっていう、
すごいニッチなチャンネルを。
めっちゃ面白い。
めっちゃ面白そうですね。
それめっちゃ面白いね。
チャンネルをしていて、その人が、
巡回セールスマン問題の最先端っていう動画を上げてくれてるんですね。
面白そう。
ここで紹介されてるのは、
巡回セールスマン問題に関する解法をまとめたウェブサイトがあって、
その中のものを紙くだりで紹介してくれてる動画なんで、
もし興味がある人は読んでみてください。
結構これはね、教科書ではめっちゃ難しいって言われてた問題が、
全然解けてるみたいな、
1億の星で解けるみたいなのが、
結構マジかよみたいな。
衝撃のニュースだった。
衝撃のニュースだったという感じですよね。
なるほど。
じゃあ、やかさんから最後のニュース。
これニュースって言っていいのかわかんないですけど、
最近ちょっと話題になってた話で、
心理学的研究における重回帰分析の適応に関わる諸問題っていう論文が出てて、
36:00
すごいSNSで大きな話題をさらったんですよね。
どこのSNSですか、ちなみに。
僕のSNSでは大きな話題じゃなかった。
研究者界のツイッターでってことですかね。
重回帰分析ってすごく心理学者にとってはなじみが深い。
心理学者に限らず、そういういろんな、
たくさんのパラメーターからどれが重要そうかみたいなのをやるような分野。
経済学とか、軽量系の社会学でも使われてると思うんですけど。
よく論文に載ってるでっかい表ですね。
そうそう。
で、よく使われてる方法に関して批判的に論じた論文で、
しかもその批判の対象が心理学研究っていう、この雑誌ですね。
それに実際に載っている、さどく済みの論文であると。
で、その問題提起を心理学研究っていう雑誌に載せてるっていう、
すごい挑戦的な、
めっちゃ挑発的じゃん。
そう、挑発的な。
だから、業界の大御所の人が普通に使ってる手法なわけだよね。
まあ、そうですね。
だから、実際なんか、問題意識を、実際みんなたぶんうすうす思ってたことを言葉にしたみたいなところがあって、
で、それを考えるチャンスとして、まずこの論文が出て、それが騒ぎになって、
そのあと、YouTubeライブで、批判された研究者と批判した研究者が出てくるっていう、
すごい、そうそう、めっちゃ豪華だったんですけど、
そういう会があって、さらによりプロというか、心理統計、統計学の専門の人にも登壇してもらって、
その問題に関しての意見交換をしようっていう、そういうYouTubeライブの会を、しかも公式でやってたんですよ。
なんか、日本心理学会みたいな、すごいちゃんとした学会が、それを主催してやっていて、
それはすごい、私の周りでは話題になったんですけど、
やっぱ、統計ね、実際どうやっていくのが、結局やっぱり、このYouTubeライブ、私も全部はしっかりは見てないんですけど、
飛び飛びでちょっと見て、で、やっぱり、ちゃんとそういう統計学者の人に相談しながら、
あとはもう、言いすぎないっていうことかな。
結局、その、なんだろう、著者の人たちも、いや、なんていうか、因果的なとこまで踏み込むつもりはなかったし、
なんていうか、まあ、そんなに、なんだろう、これはまず探索的な研究として、解析としてやったんだっていう話はされてて、
まあ、なんかすごく、それは私もわかるというか、私もそういう使い方をするので、
でも、結局なんか、探索的なことをやってるんだけれども、仮説検証的なことを、なんか言わないといけないような、
39:02
さどくのされ方がしてるってことが、まず問題だよねっていう話もあって、まあ、それは本当にそうなんですよ。
だから、まあ、何回か今までの回でも話してますけど、
よりその、事前登録する、プレレジみたいなことができるようになったりすると、いいなっていうふうには思ったりはします。
まあ、あとはやっぱり、なんかもうちょいカジュアルに、統計学者の人とコラボできるようになったらいいなって、私自身すごく思ってて、
大学、特に臨床研究、医学系の臨床研究においては、医学系の臨床、統計学、医療統計の専門家にコンサルを依頼できるようなサービスを大学側が提供してたりするんですよ。
まあ、そもそも実務官に近い人が論文を書く文化があるから、当然そういう人は統計詳しくないよねってことで、
その人たちが論文を安全に書けるように、サービスを提供されているってことですね。
そうですね。やっぱ普通に臨床も研究もされてる方々が臨床研究とかする場合が多いので、そういう時はやっぱりそういうプロが入るし、
あと企業はちゃんと統計は統計で依頼することが多いですよね。
だから、もちろん自分の中にも勉強してる人たちは必要なんだけど、なんかその適切にプロフェッショナルに頼めなくて、
結局なんかこう、チームプロジェクトになかなかできないっていうのが、結構アカデミアの問題としてある気がしてきて。
で、まあだから、そうやって統計学者にとうまくコラボレーションできないっていうのが、
まあ心理学でもあるんですけど、絶対生物学でもめっちゃあって、
特に臨床医学じゃない生物学の研究ですね。
で、その辺とかって効果量をそもそもなんかエスティメートして、そこから円数を決めてみたいなのも、
特に動物実験だとあんまりちゃんとやられてない文化があって、
できないこともありますよね。
まあやっぱそれだけのためにデータを取るわけにはいかないみたいな感じだったりして、
あれなんか心理学研究ですごく統計に関して責められてるのを見ると、
こうなんだろう、神経科学系の人たちはすごいなんか宣戦強強としちゃうというか、
なんかやりたくてもできないことをすごい責められてるから、辛くなっちゃうんですよ、見てると。
で、なんか、
それは例えば円数を決めるために、効果量を決めるために、
例えばマウスが何匹必要な、まあ要はそのマウスたちは犠牲になってしまうわけで、
それは倫理的に大丈夫なのかっていうプロセスを踏まないと、それできない。
現実的にはやっぱりそれは難しい。
そうですね、なかなか今までの論文のデータをもとに、
だいたいこれぐらいが必要かなっていうふうにやっていくしかないみたいな事情があるんですよね。
42:00
たくさん個体数を取れないっていうのはやっぱりあるので、
猿とかは伝統的にNイコール2なんですよ。
2個体でだいたい同じような結果が出たら大丈夫っていうふうになっていて、
それは倫理の観点からそういうものだと思いますし、
ヒューマンの研究に比べると、そもそも効果量が大きめのことが多いというか、
そういう現象を追っていくものだと思うので、
それで何とかなってた節があると思うんですけど、
特になんか、脳活動の変化とかって難しいなっていうか、
効果量を事前にエステミートするのが結構厳しいなみたいなことは思ったりしていて、
その辺を反省しつつ、
でももうちょっと統計学者の人たちにいろいろ相談しながら、
私自身やりたいなと思うことがあるなという意味で、
いい回だなと思いました。
こういう語り合える場があるっていうのは。
心理学でこういう再現性の危機みたいなのも言われてますし、
こういう統計手法の適用に関する懸念が、
より生物学に比べると活発に行われてるっていうのは、
心理学で対象にできる現象が大きくいってしまえば、
効果量が小さめなギリギリのところを攻めるしかないっていうか、
中身について脳をパカッて開けられない、
すごく高次なことを対象にするからこそ、
分散に比べて効果の量が小さくなってしまう。
でもそういうことをやるのが心理学なので、
当然そのボーダーギリギリアウトみたいな研究がたくさん出てきてしまう。
それはあるのかなと思います。
やっぱり個人差が大きいっていうのが一番あるのかなと思います。
コントロールがしづらいじゃないですか。
例えばマウスとかだと何時間絶食してとか、
そもそも遺伝子バックグラウンドが相当そろってて、
その前にどういう処置をしてみたいなのがあるからいいですけど、
人の場合はそもそもみんなどういう状態で来てるかっていうのが結構バラバラだし、
そもそもどういう、すべての人に当てはまるみたいなのって結構難しいわけで。
確かに。
そういう意味では、やっぱり心理物理っぽいものに比べると、
いわゆる心理学でどう感じるかみたいな、
そういう主観的なところとかまで踏み込むようなものだと、
より難しくて、やっぱり統計的にって話になるじゃないですかね。
生物学の中でも、より医学みたいな仮説検証があって、
臨床試験みたいな方向に行くと、またちょっとそっちはそっちで、
今までたくさん問題があったし、人の命に関わる分野だから、
45:00
すごくこうやって研究していきましょうっていうガイドラインが結構ピシーって決められてて、
私その辺は企業で研究してみてよかったなって感じる点で、
この辺きれいに整理されてるなっていうか、
臨床試験ってこういう風になってるんだなっていうのが学べてよかったんですけど、
それをひるがえて基礎研究だと、やっぱり結構その辺まで1個1個検証していくのが難しいし、
逆に言うとかなり効果量が多いものを扱おうとしていることにはなるので、
なんだろうな、そういう感じで運用されているっていう感じだと思うんですけど、
実際なんだろう、どれぐらい事前の実験デザインとか、
最初から最後まで決めた上で作っていかなきゃいけないのかとか、
なんかハーキング、仮説をデータが出てから仮説を考えるみたいな、
そういうのもすごく問題だなって思ってるんですけど、
実際結構神経科学のいわゆるシステムニューロサイエンスみたいな、
もうなんでもやる、こう、ビヘビアもやるし、すごく行動を見るし、ニューラーアクティビティも見るし、
なんでもやりますよみたいな論文だと、なかなか最初からそれを全て予見して書くっていうのが難しかったりして、
じゃあなんか1個1個分けて出せばいいのかっていうと、それもまたちょっと違うのかなっていう感じで難しいなって思いながら、
私の中の統計的倫理がなんか戦ってるので、そういう意味ですごい面白かったです、この話を。
ハーキングは結果が判明した後に仮説を作るってやつでしょ?
うん、そうです。
まあまあ避けるべきだと言われつつも、実際ある程度のまとまりのある論文だと、
まあことを主張するためには、避けることはなかなか難しいっていうことでもある。
まあそうですね、最後に全体のストーリーみたいに求められちゃうと難しいなって思うんですよ。
きれいなストーリーが必要なんだよって言うけど、それってでも事後に作れってことって思っちゃうんですよね。
そうなんですよね、だから1個1個、もちろん実験1個1個やる前に、こういう仮説があるからこの実験をするっていうところはいいんですけど、
それを全部まとめて1個のあれにしようと思うと、
いや、こういうふうに考えてたんだっけ、もともとみたいなとこはあるのかもしれないですよね。
いい研究に、そういうなんか事前に立てたストーリーがあって、それを元にやるとすごくいい発見ができたっていうのはあっても、
じゃあそれがない研究に対してそれを求めることが、必ずしもそれをいい研究にするかっていうと、
まあ違うわけですね、当然。
それはアドバイスみたいになってたり、基準になってたりするのが、もしかしたらちょっとそういうのプレッシャーを生んでいる原因になってるんじゃないかなとは、
なんとなく思うかなとは思うんですね。
48:01
そんな感じですかね、はい。
コンピュータ科学で再現性の危機ってのがあるのかってちょっと興味があるんですけどね。
でもなんか結構AI研究、前半ちょっとAIの話はしてましたけど、機械学習系は全然なんていうか、実装がないものに関してはほぼ再現できないかったり、
1回しか出てないパフォーマンスが報告されてたりして、え?みたいな。
まあそこはなんか結構新しい分野だからこそ、かつ競争がものすごい激しいから、そういう、なんだろう、こう事情作用じゃないですけど、
そういうのに突っ込みを入れて、ちょっと後戻りして、なんかやり直そうみたいなのが起こってるのかっていうのは、
まあなんか勝手に言ってるだけなんで、もう既にやってられたら申し訳ないですけど、
まああるのかなっていうのはちょっと実際に興味がありますよね。
そうですよね、やっぱその辺はなかなかどの分野も難しいことなのかもしれないなとは思いますね。
特にめちゃくちゃ新規流入者が多いじゃないですか。
で、論文書いてる人も例えば企業に行ったり、いろんなところで活躍してるっていうことがあるから、
そういう意味でもなかなかね、論文だけに集中してるっていうわけではないし、
なんかすでに論文出して卒業しちゃってエンジニアになってる人が出した論文をみんな引用してるけど、
実はそれは初期資源でみたいなこととかもあるんだろうなっていう。
あとは再現性の機器ですごくわかりやすい例で言うと、
なんかなんだっけ、SDカードとかベンチマークってのがあって、毎日を何メガバイト書き込めるよっていう、
いわゆるスペック値みたいなのがあるわけですね。
でもあれって当然あんな速度で出るの見たことないじゃないですか。
それはすごく理想化された環境でこのぐらいの並列数で書き込むとなるっていうんですけど、
当然普通のアプリケーションでファイルをここからここにコピーするっていうシナリオですら、
その並列数を使いこなせるっていうのはなかなかなかったりするんですよね。
あとはパソコンのどっちが速いかみたいなベンチマークみたいなのもありますけど、
でもあれも実際そのベンチマーク通りの結果って結局出ないので、
そんなことはわかってるけどでもみんな気にするから、
ギグ再現できないけどこんなスペックが理論上は出るはずだよっていうことを広告せざるを得ない。
そういう事例もあるみたいな話はありますよね。
なかなか難しいですね。
やっぱりコンピューターが複雑になりすぎちゃった。
機械学習でいうとモデルがすごく複雑になりすぎちゃったせいで、
それのパフォーマンスを表す一つの指標をうまく作りにくい。
51:05
実際に初期値に移動するとか、
実際にはこういう条件をもとに取ったパフォーマンスだよっていうのはあるんだけど、
でも結局機械学習でいうと結果、ビジュアルとか出てきたGPTでいうと文章とかが
やっぱりすごくアイポッピングというかすごく目を引くものなので、
それだけが流通しちゃうっていうのは結構なかなかコンピューターでもあるというか、
再現しやすいじゃんって、
例えば生物系に比べるといくらでも実験できるしっていうのはあるかもしれないですけど、
それでうまくいってるってわけではないんじゃないかなと思うんですね。
なるほど。
やっぱりね、新しいことを言うのに比べて、
それの正しさを検証するコストっていうのが高いし、
それによって得られるコミュニティからの報酬っていうのがちょっと足りてないのかなっていう風に。
そうですね、結局誰が得するのかってことですね、それやってっていう。
でもやっぱりそういうふうにちょっとずつ検証していくことでしか上には積み上げられないので、
確かに確かに。
やっぱりなんかその辺は、なんかもうちょっとそういうことが認められていくようになるといいのかなというふうには思います。
はい。
あーでもなんか、こんなの気になる人いるのかなっていう気になるニュース。
まあちょっとハイコンテクストだったかもしれない。
まあでもこう権縁ぽい笑いを選んだというのはある。
ありますね。
なんかこんな感じでカジュアルに論文を紹介してもいいかなと。
そうですね。
今回はあまり論文紹介って感じじゃなくて、なんかニュースの紹介みたいな感じだったんですけど。
まあ、がっつり筋を打っというよりは、こんな論文が話題になってましたねみたいな。
とかこんな記事がありましたね。
これぐらいの分量だったら別に論文なんか紹介できる気がする。
なんかたまにセキュリティ関連のなんか面白いプルスオブコンセプトというか、
こういうふうにすると、例えばすごい古いiPhoneをハッキングできましたみたいなのがあって、
現実には問題ないからもう公開されちゃってるんだけど、
結構その手法を紹介すると面白いみたいな記事もあったりするので、
そういうカジュアルな、カジュアルなかどうか分からないけど、
聞いて分かるぐらいの難しさの記事とかまた紹介できたなと思います。
はい。
というわけでニュース紹介会でしたが、いかがでしたでしょうか。
はい。
ハッシュタグ経営の中などで感想をお寄せいただければ、
もしくはこのニュースを紹介してほしいなのに。
そうですね。そういうの嬉しいです。
頂ければ嬉しいです。
それではまた次回も聞いてください。
さよなら。
さよなら。
53:57

Comments

Scroll