1. 研エンの仲
  2. #44 オープンで構造的な知の蓄..

Ayakaが開発するデータベース、CPSYMAPのメジャーアップデート記念として、オープンソース的な貢献に関する考え方、アカデミアでのデータベース開発、計算論的精神医学という新しい分野について語りました。オープンソースは科学の後輩?理想の論文、データシェアの仕組みとは?など後半は研xエンっぽい話になりました。

CPSYMAPとは、計算論的精神医学の論文を 神経科学、精神医学、数理モデルの観点で整理し 可視化できるデータベースのこと。

計算論的精神医学:数理・理論的手法を精神医学研究に応用して新しい知見をもたらそうとする研究領域

データベース:https://ncnp-cpsy-rmap.web.app/

説明スライド:

https://speakerdeck.com/cpsymap/ji-suan-lun-de-jing-shen-yi-xue-falselun-wen-detabesu-cpsymap-falsekonseputo-29dbd26a-2ac4-4e87-a90d-70bfb91181d3

2021年6月メジャーアップデート

  • 半自動的に計算論的精神医学の論文を収集するクローリング機能の実装
  • 神経科学、精神医学、数理モデルのキーワードを元に自動的にタグ付け
  • 機械的な半自動タグ付けと人手でのチェックが入った論文を分けて表示
  • 除外するタグを選ぶことができるフィルター機能の追加
  • 論文が人手で登録されると自動で呟くTwitter連携
00:04
いや、梅雨ですね。
梅雨ですね。
今年は早いよね、すごい。
なんか、じみじみしてきたし。
なんか、過去2番目ぐらいに早いらしいですよ。
あ、梅雨入りが。
まだ関東は梅雨入りしてないんですけど、
確か中国地方とか九州とかでも全部梅雨入りしてて、
で、それが先々週、5月の中旬ですでに梅雨入りらしくて、
ね、そういう時期ですね。
そうですね。
梅雨入りが早いと梅雨明けも早いのかな、と考えてしまう。
え、本当に?
それは今までのデータから裏付けられてるんですか?
どうなんでしょう。
でも、もしそうだとしたら、もう今年の登山シーズンというのは非常に長いっていう、
期待が高まりますね。
だいたいね、梅雨明けの7月頃から、
北アルプスとか結構標高高いところは、
9月下旬ぐらいまでが、結構短いんですね。
だから、7、8、9月。
で、それが過ぎるともう台風とか始まっちゃうんで、
なので、そのゴールデンタイムがね、今年は長いとすると結構…。
でも台風も早く来ちゃうってことないんですか?
あー、それはあるようです。
まぁまぁまぁ。
でもね、登山シーズン、去年はあんまり登りに行けなかったんで、
ね、今年は行けるといいですね。
はい。
まぁみんなね、結構去年は登山してる人も、
まぁ割とね、山小屋とかバスとかで接触する生き甲斐があるんで、
まぁ、あんまりみんな我慢してる人は多かったと思うんですけど、
まぁそういう時にね、みんなが言うのは、山は逃げないって。
山は逃げないから、来年行こうよ、とか、再来年行こうよって言うんですけど、
まぁ本当かと思うこともあるんですよ。
山は逃げると。
山は逃げるっていうか、山は噴火するんですよね。
分かりやすく言うと、分かりやすいところで言うと。
まぁ、例えば、御滝山とかはすげぇ分かりやすい。
ね、登れなくなっちゃったりとか。
ルート、あるルートが、こう、いつも登れるとは限らないですからね。
だからなんか山頂にはいけないから、
まぁ、ピークとして認定されるポイント、別のポイントに行って、
登ったことに忘るとかね、言う人もいるみたいで、
それで、こう、不運なのは、御滝山の事例で実際に、こう、あったと聞いているのは、
百名山を全部登りたいっていう人がね、いるんですよね。
で、こう、百名山っていうのは、昔の人が、こう、日本のね、美しい山を100個選んでて、
まぁ、リスト化しているものなんですけど、
もうそれに全部登りたい、コンプリートしたい、みたいな人はいるんですけど、
そういう人のセオリーとしては、やっぱ、傘の先に登っておくっていうのは、あるらしいんですよね。
いつ噴火するかわかんないから、
噴火した実績のあるところは、早めに登っておこうと。
03:03
で、まぁ、そうこう言ってるうちに。
セオリーとかあるんだね。
でも、実際それで、たぶん、なんか、数年レベルで登れない期間があると、
もう、百名山全部登るって、たぶん、結構、人生レベルで10年、20年とかかかるんで。
人生プロジェクトですよね、基本的に。
だから、5年待ってると、もう、なんか、自分の腰側みたいな、足側みたいなので、
登れなくなっちゃうって、結構、あるらしいんですね。
特に、退職してから始めたとか、そういう人に関しては。
そういう人に関しては、本当に、こう、傘から登っておくと。
山は逃げるっていうのがね、これはセオリーなんだというふうなことを、山の登る人から聞いたことがありますね。
なるほど。
でも、まさか、こう、何だろう、こんなにみんな山に登らないというか、登れないというかっていう時期が来るとは思わなかったんで。
あー、そうですね。
そういう意味ではね、百名山みんな登ってる人は、このせいで、記録が途絶えるってことはないといいんですけどね。
はい、そうですね。
あと、結構、去年は、台風も実はすごかったじゃないですか。
天候的に?
そう。それでね、登山道が結構崩れちゃったりとかってあるんですね。
あー、まあ、それで勝つ人も来ないから、そのままみたいな。
うん。やっぱ、人が来るから、山小屋にスタッフが集まって、で、基本的な登山道の整備って、そういう人たちがこう、自主的にやってるんですよね。
で、そうじゃないと、もう壊れたら壊れっぱなしで、もう今後はここは登れません。
で、廃堂になりました。で、廃堂になったらもう、あとは自然のね、その草木がそこの道を追って、もう道でもなんでもなくなっちゃいました。
道がほんとになくなるっていうのは、登山道では結構あることなので、でも、それでちょっと、何だろう、話題になってるのは南アルプスっていう、まあ、日本アルプスの結構有名なそのエリアなんですけど、
そこの北沢峠っていうところに通ずる林道が台風で、こう、崩れちゃって、で、そこに、まあ、こう、人手を避けないわけですよね。
そのボランティアとかが、普段に比べると来てくれないみたいなのもあるのかな。
うーん、なるほど。
うん。で、なんかバスが通らないから、結局今は結構歩かないと、あの、何だろう、ある山に登れないみたいなのがあるらしいですよ。
うーん、なるほど。大変ですね、それは。
ね。まあ、今年は、その林道は直すっていう予定は一応あるみたいなので、また登れるといいですね。僕は、あの、南アルプスは行ったことないんで。
おお、じゃあ、それは早めに行かないと。
ね、今年は、こう、行ってみたいなと思ってますね。
うん、なるほど。
じゃあ、そろそろ本題に入りましょうか。
そうですね、だいぶ枕長くなりましたけど。
まあ、山といえばということでね。
山といえばってわけじゃないんですけど、まあ、もともと何の話をしようとしたかというと、まあ、データベースを私が作ってるものがあるんですけど、
06:08
そのデータベースのロゴに、ちょっと山っぽいデザインを採用してるってことで、まあ、そっから山の話になったの、それは全然関係なくて。
全然関係なくて、今したい話をしたってだけ。
ただ山の話がしたかっただけ、はい、あの、そうですね。まあ、山の話がしたかったので、山の話をしましたと。
えーと、まあ、私が作ってるっていうデータベースは、計算論的精神医学っていう分野の論文を、神経科学と精神医学と数理モデルの観点で整理して可視化できるものっていうのを目指して作ってます。
じゃあ、研究のデータが集まってる、で、それを可視化してるんじゃなくて、研究そのものとか論文を可視化してるってことなんですかね。
そうですね。うん。論文が、まあ、どういう研究が、なんかどれぐらいあるのかとか、なんか逆にどういう病気のモデルは少ないとか、なんかそういうのがわかるように。
まあ、そもそも計算論的精神医学ってあんま聞いたことない分野と思うんで、そこから説明したいなと思うんですけど、
まあ、計算論的精神医学って、読んで字のごとく、数理とか理論的な手法を使って、精神医学に応用して、新しい知見をもたらそうみたいな研究領域なんです。
で、大きくなんというか、理論ドリブンのやつと、データドリブンみたいなやつと、まあ、モデルドリブンか、モデルドリブン、データドリブンみたいなあって、
で、モデルドリブンって言ってるのは何かっていうと、脳におけるその、知覚とか認知っていうのを、ある種、脳でなんか計算をしてるわけじゃないですか、その情報処理プロセスを数理モデルとして理解すると。
で、例えば、ベイズとか強化学習とかがよく使われるんですけど、それで、そのパラメーターのここが、健常な人とある疾患の人では違いがあるんだよみたいな感じで、
まあ、その精神疾患への理解を深めるっていう、まあ、認知を理解することで、さらに病気を理解するみたいな。
なるほど。そのモデルの入力と出力っていうのはどういうものなんですか?
まあ、それはもうタスクによるって感じですね。だから、あるタスクをした時に、脳でどういう計算をしてるのかっていうのは、まあ、モデル化するっていう感じです。
で、まあ、さっき言った入力出力とかにもっとイメージ近いのはデータドリブンの方で、まあ、大量のデータを、例えば脳画像とか脳の神経活動であったり、そういう、まあ、大規模データに対して機械学習を使って識別モデルとかを開発して、まあ、みたいなそういうやり方ですね。
あ、じゃあ、その、あるこう、精神疾患を持ってる人と持ってない人、両方から集めた、まあ、いろんな脳画像とか、例えばタスクの、まあ、成績だとかを入れて、で、モデルを作るよっていうのがデータドリブンってことですか?
09:06
はい。まあ、そういった、主に2つぐらいのアプローチがあって、まあ、両方一応、計算論理、精神医学って呼ばれてる間には、まあ、入るんですけど、まあ、でも、この辺の定義っていうのは、まあ、やや、まだ、こう、比較的新しい学問なので、あの、あんまり、なんというか、あの、確立してないんですけど、どこまでがその範囲なのかって、もともと計算論的神経科学っていって、脳を擦りモデル理解しようっていう流れが、まあ、それ、これはもっと昔からあって、
で、そこで積み上げた、できた知見でもって、神経疾患を、今度は、まあ、精神疾患を主に理解しようみたいな、そういうふうになってきたっていうのが、まあ、最近の流れで、まあ、コンピテーショナルサイキアトリーっていう、まあ、計算論的精神医学という分野で、
サイキアトリーって言うんだ。サイキアトリーってのは精神、精神医学か。
そうですね。
えー、聞いたことなかった。
まあ、そういう分野で、それこそ本当に最近、マックス・プランクというCLがセンターを作った、これは2010何年とかだと思うんですけど、
あー、でもめちゃめちゃ最近だね、じゃあ。
で、今年、ニューヨークのマウント市内かな、の大学だかどっかに、そういうコンピテーショナルサイキアトリーのセンターができたんですね。
で、そこのトップの人もかなり若くて、で、まだそのコンピテーショナルサイキアトリーっていうのに、こう、PhDぐらいの人、時触れた人たちがやっと独立するぐらいのタイミングなんですよ、その学問のフェーズとしては。
へー。
だから、めちゃくちゃ若いくって、で、日本だと多分、その、そんなにこれをど真ん中でやってますっていうラボは、そこまで多くなくて、
まあ、5、6ラボぐらいかな、まあ、興味持ってちょっとやってるみたいな研究室はたくさんあると思うんですけど、
あの、これをメインでやってますっていうところはそんなに多くないです、実は。
ほんと?
はい。で、まあ、あの、実はこの分野に関する日本語では初めての本が出てました、2019年かな。
で、計算論的精神医学の、えーと、書籍があるんですけど、その書籍をこう書いた4人の先生と一緒に作ったのが今回のデータベースです。
はい。
で、名前はシーサイマップでしたっけ?
はい、シーサイマップなんですけど、これ何て呼ぶんですかってよく言われるというか、
シーサイとは、
C-P-S-Y-M-A-P、シーサイマップ?
マップはね、まあ、意義として、まあ、最初のシーサイの部分はコンピュテーショナルサイキアトリーの略ではあるんですけど、
ちょっとね、わかりづらいですよね。
何かとマップ作りがちな夫婦かもしれないですね。
ああ、確かにね。
えーと、じゃあ、まあ、なんでデータベースが必要かというと、
12:02
まあ、この分野ってかなり学際的で新しい分野だっていうのは、まあ、さっきの説明でなんとなくわかってくれたんじゃないかと思うんですけど、
えーと、まあ、この分野を理解する上で、まず神経科学の知識と、あと精神医学、病気、どんな病気なのかっていう知識と、
あと数理モデルの知識っていう、まあ、いろんな分野の観点が必要になってくるんですね。
で、それぞれいろんな分野の人が、あの、例えば臨床系のお医者さんが、
えーと、まあ、数理モデルを使ってみようっていうことでコラボしたり、
逆に神経科学を今まで主にやっていた人たちが、
あ、じゃあ、この現象って疾患の人たちはどうなってるんだろうっていう風な感じで、
神経科学側から行ったりするっていうケースもあるし、まあ、いろんなケースがあるんですよね。
で、そういう研究っていうのは、まあ、一人じゃできないってことですか?
まあ、一人で、というか、一グループでやってるところももちろんあるんですけど、
まあ、コラボレーションでやってるところも多いですね。
まあ、実際の、こう、症例とか、まあ、見てる臨床のお医者さんから、
こう、お願いしないとデータが取れなかったりもするんですかね。
それはあると思います。やっぱりコラボレーションしないと難しかったりっていうのはありますね。
で、まあ、そういった複数の分野の知識が必要になるんですけど、
それぞれの観点が結構接続が不十分で、
なんか、こう、どの辺が実際研究として盛り上がってて、
この辺、どの辺が盛り上がってないのかとかっていうのがパッとわからないというか、
分野のオーバービューみたいなのを、こう、作るのが難しいっていう問題があるんですよね。
で、その神経科学って言ってるのが何かっていうと、
まあ、どんな認知機能とか行動とか回路を分析対象にしているのかっていうのがまず必要だし、
まあ、どんな脳Vを対象にしているのかでもいいんですけど、
それとか、精神医学だとそれこそ、どんなその精神障害とか、どんなその症状を実際の。
たとえば鬱病とか。
そうですね。鬱病とか、統合失調症とかですね。
で、その辺のどんな美容器を扱ってるのかっていうのも、
まあ、数理モデルとか神経科学をやってる人からすると、
まあ、それぞれの疾患がどんなものなのかっていうのがあまりよくわからなかったり。
というか、なんか全体を見通すってことが難しかったりするんですよ。
で、数理モデルに関してはどんな方法論とかデータを使っているのかっていうことですね。
まあ、あの、純粋なシミュレーションのものもあれば、
人のデータを使っているものもありますし、
まあ、あの、モデルもそれこそさっきちょっとお話ししたような、
ベースとかを使っているものもあれば、
まあ、もうちょっとクラスタリングとかそういう方向性もありますし、
まあ、その辺も全然整理できてないっていうのもあるので。
15:01
その分野だと1個の研究っていうのは、基本的には例えばあるモデルを使って、
ある精神疾患をこういう手法で分析しましたみたいなのが、
データポイント1つとして論文になると。
で、それがいっぱい、なんかいろんなところに論文があるみたいな感じですかね。
そうですね、そうですね、そういうイメージです。
はい、で、まあ、あの、さらにまあ、計算の時、精神学っていった時は、
結構その脳の中でどうっていうところまで踏み込むことが結構多くて、
脳とかどんな認知課題において問題があるかっていうのを含むことが多くて、
まあ、だから最低限こうやっぱ病気ともするモデルっていうのがあって、
で、さらにそこにどんな認知機能とか行動を対象としているか、
例えば、あの、注意、まあ、アテンションって言ったりするんですけど、
まあ、注意がなかなかこう保てないというか、注意三枚になってしまうみたいな症状と、
まあ、疾患の結びつきみたいなところに行ったりとかするんで、
まあ、その3つを、えーと、まあ、今それを三角で結んでるんですけど、
そのニューロサイエンス、コンピュテーション、サイキアトリーっていう、
その3つを、えーと、結んでデータベースにしたいと、
で、それがその3つの三角形を使ってロゴを作ったので、
山みたいなロゴになったと、
すごい前置きの回収が遅くなりましたけども、そういうことですね、
で、まあ、それを解決するためにデータベースを作りましたと、
で、何ができるかっていうと、
まあ、その論文を精神、あの、医学と神経科学するモデルの観点でタグ付けができますと、
で、ある論文に対して、
これは、この病気と、この、このモデルを使って、
まあ、こういう認知機能を調べてますよ、みたいな、
そういうタグが付いてると、
で、そのタグに沿って、
2次元マップ上に、こう、研究領域の状況が見えるようになってるんですよね、
色が濃いところは、論文が多い、
少ないところは、まあ、色が薄いところは少ない、
で、そうすると、こう、一目で、
あ、ここめっちゃニッチじゃん、とか、
ここは結構、あ、すでにもうデータが結構たまってるんだな、とか、
そういうことがわかってくると、
で、まあ、最終的にそれをウェブアプリケーションの形にしていて、
誰でも、その、どんな研究があるのか検索したり、
しかも登録したり、まあ、全体を概観したりすることができるっていう、
そういうのを作りましたと。
まあ、ぽちぽち遊んでますけど、
なんか縦軸と横軸があって、
で、表の形のヒートマップみたいなのがあって、
その縦軸と横軸を、なんかね、データのタイプとか、
あとは症状、疾病の分類なのかな、
18:02
DSM5っていうのは、
あ、そうですね。
疾病の分類ですかね。
はい、疾患の分類のことです。
で、それを縦軸横軸入れ替えると、
こう、ダイナミックにヒートマップが変わるっていう感じですかね。
そうですね。
へえ。
まあ、これは研究者がそれぞれいろいろタグ付けして、
使うことができるという感じになってて。
僕、なんか山の形になってんのは、こう、投稿線だからなのかと思ってました。
ああ、いや、そういうわけでは。
三角形は、なんかそういう、三味一体みたいな感じの三角形なんですね。
そこから出てきましたね、ロゴの意味としては。
で、まあ、これから計算論的静止医学、興味あるな、でもやったことないなっていう人にとっては、
研究を始めようとしている領域が、どれぐらい先行研究がある領域なのか、みたいなのが外観できて、
どこがニッチなのか、みたいな、ある疾患に関してやりたいけど、
このモデルを使ってあまり検討されてないんだな、とか、
この疾患に関しては、このモデルがよく使われてるんだ、みたいなのがわかったりすると。
で、まあ、すでに論文を書いた人にとっては、
ある意味、宣伝の場所として使ってもらいたい、みたいなのがあって、
まあ、そんな感じで登録してもらえたらなっていう感じで作りましたと。
今、ちなみに何本ぐらい、こう、論文が入ってるんですかね?
今ですね、たぶん2000本ぐらい入ってる。
すごい、2000本ってどうやって入れたんですか?
あ、そう、そこからちょっとアップデートの話になるんですけど、
なんでこのタイミングで撮ったのか、
あの、あれですね、このデータベース自体は去年に公開したのかな?
去年、ちょうど1年ぐらい前に作って公開していて、
で、最近になってメジャーアップデートをしましたと。
で、まあ、メジャーアップデートの内容なんですけど、
まず一番大きいのは、その半自動的に、
その、このデータベースに登録するのにふさわしいような論文を収集するようなクローリング機能を作りました。
すごい、どっから撮ってくるんですか?
あ、PubMedっていうデータベースから撮ってくる。
なんか聞いたことある。
論文のデータベースから撮ってきてます。
医学系の論文が集まってくるサイトみたいな。
そうですね、そうですね。
NIHがやってるんだっけ?
はい、はい。
で、えーと、まあ、ある疾患カテゴリーとモデルの名前の組み合わせ。
例えば、あの、まあ、ニューロディベロメンタルディジーズ、まあ、発達障害みたいな感じですね。
で、と、えー、例えば、教科学習の組み合わせで、論文を取ってくるみたいなことをして、
で、自動的に、その、それぞれのタグも付くみたいな感じになってますよ。
で、あるいは、その、実際計算論的精神医学って、アブストとかに入ってるような論文も取ってこれるようになっていて、
まあ、そんな感じで自動的に論文を取ってくるっていうことができるようになりましたっていうのが、実は最近の、最近やってたことですね。
21:07
じゃあ、逆に言うと、それまでは実は手動でやってた?
手動でした。
大変だ。
最初の200件ぐらいは手動でやってて。
でも、その1800、残りの最近追加されたやつは、自動でできるようになったんだ。
そうですね。で、あの、これも説明しようかと思ったんですけど、
メジャーアップデートによって、まあ、機械的な反自動タグ付けと登録された論文と、
一手で登録されてる論文が分けて表示できるようになっていて、
あの、ヒューマンレジストレーションっていうやつをクリックすると、
一手でのチェックが全部入ったやつになりますね。
なるほど、なるほど。
それも250件ぐらいあるのかな。
はい、もうちょいやったかもしれないですけど、そんな感じ。
で、最初はだから、一手でタグ付けしたんですけど、
一人とか二人でやったわけではなくて、もちろん。
で、あの、たぶん全部で登録してくれた人は50人ぐらいいるんじゃないかな。
だから、一個しか登録しない人もたくさんいるんで、あれですけど、
あとは大量に登録してくれた人もいたりして、
もちろん国内でからのアクセスが一番多くはあるんですが、
イギリスの研究者の人で、これいいじゃんって言って、
自分の論文を大量に登録してくれた人とかいて、
優しい、なるほど。
なかなか嬉しいですね、パソコン。
その人もね、宣伝にはなるわけで。
そうです、そうです、そうです。
そんな感じで使ってもらってますね。
で、実際このメジャーアップデートで、
さっきちょっと論文収集を自動化したって話があったんですけど、
それ以外にもキーワードをもとに自動でタグ付けするみたいな感じの、
アルゴリズムっていうほどではないですけど、
それも作りました。
自然言語処理みたいなの。
そうですね、そんなめちゃめちゃ難しいことはしてないんですけど、
多少曖昧検索って言ったらいいのかな。
表記の揺れとかがあっても。
そうですね、表記揺れを吸収できるっていう、
完全に一致してなくても、
このタグがついてるっていうふうに判断してくれる。
Wordストとかタイトルに、
例えば何がいいですかね、
ADHDとかが入ったりしてると、
それをタグ付けしてくれるとか、
そういう感じですね。
この分野に入門して、
こういうデータベースあったらいいなって、
もし思うとしても、
自分で作ろうとまではならないとは思うんですけど、
そこは何か作ってみようって決心したきっかけはあったんですか?
そうですね、
それこそ私も、
この分野に入門するときに、
こういうのあったらいいなって思ったから作ったみたいなところはあるんですけど、
経緯を話すと、
結構留学してた頃ぐらいに遡って、
24:00
一番最初この分野に興味を持ったのは、
結構イギリスとかヨーロッパで流行ってたんですよね。
このコンピューションサイキャトリーっていう分野が流行り始めてて、
じゃあなんか面白そうだな、
今まで私が教科学習使ってやっていたことが、
教科学習を使って、
やる気とかモチベーションの研究をしてたんですけど、
それがさらに応用されて、
例えば今は私自身で依存症の研究とかしてるんです。
依存症を添えてソリモデルを使って理解するみたいなことをやろうとしてて、
じゃあ依存症も計算論的精神学の対象ではある?
はい、そうですね。
疾患の一つみたいな。
その中にも入ってます。
サブスタンスリリティッドディスオーダーっていう名前で入っていますね。
で、そういうふうに、
これから自分もそういう方向で研究したいなってその時思ったんですね。
で、実際サマースクールとかがあって、
もう丸2日くらいずっと、
いろんなコンピューティショナルサイキャトリーの講義を聞けるんですよ。
ある病気をこうやってソリモデルを使って理解しましたっていう方向性のやつも、
あるいは方法論にこだわって、
ベースを使って人の行動を理解するにはどうしたらいいかみたいなものがあったりして、
そういうのをみっちりできるコースがあって。
ある分野についての研究をもうひたすら数日間ずっと聞き続ける。
集め続けるみたいな。
そういう機会があったってことですよね。
それを経験してすごい面白いな、この分野面白いなって思うようになって、
ちょうど帰国した頃に本が出るわけですよね、日本語の。
で、今朝の適正進学の本が出るっていうタイミングだったこともあって、
なんかの勉強会でちょうど、その本を書いている著者の山下先生っていう方とお話しする機会があったんです。
で、その時に、今後こういう研究やってみたいと思って、興味あるんですよって言って、
言ったら、いろいろ彼らが主催している勉強会みたいなのを読んでもらって、
そこで、こういう特に依存症のコンピューティションサイキュアトリートとして、今まで発表されてた論文をいくつか紹介したんですよね。
で、その時に実際自分で表みたいなの作ったんですよ。
手書きでまずは。
手書きでスライドで作ったと。
で、ただこれって1回きりプレゼンで使う図じゃなくて、
もっとみんなで編集してアップデートできて、
全員でやるメタアナリシスみたいになったら、すげえ便利だなって思ったし、
もともとそういうものを作りたいっていう風に思ってたらしいんですよね、
山下先生たちのグループが。
で、それと私自身がそういうの作りたいなって思ったっていうところが合致して、
一緒に作ることになったっていう、そういう経緯ですね。
27:01
結構なんかそういう、特に例えばマーケティングとかプロダクト系の議論を、
僕の会社とかでするときも、無限にそういう地図作るんですよ。
なんかこの分野でこういうことやってる人はこのぐらいいるって。
この会社もこの会社もやってるけど、ここはニッチだよねみたいな。
ここはまだいないよねみたいな。
でもなんかこれって自分たちはせこせこ作ってるけど、
絶対他の会社、何なら同じ会社でも作ったことある人いるよなって思うんですよ。
ただなんかそういうの探すのはめんどくさいから、結局作ったほうがええやってなるんですけど、
そういうのを自動化したらいいよねってことを実際にやってみたってことですね。
そうですね、そういう感じです。
だから結構他の分野の方からも、このうちの分野でも欲しいこういうのって。
欲しいっていう人いるだろうなと思いました。
いろいろ言ってくださいますね、だからね。
横展開をね。
横展開はね、ぜひしていきたいなと思ってるんですけど、
なかなかやっぱりこの自動的にタグ付けしたり、論文収集を自動化できない限りは横展開できないなと思ってたので、
やっとこれで考えられるようにはなったかなとは思います。
この中山アップ見て、その分野自体に思ったこととしては、
そういう多次元の空間の中の点、もしくはちょっとまたがるのかもしれないですけど、
複数の点とか線とかになるのかもしれないですけど、にまたがるような研究、
そういうふうに研究一つが表せられるっていうのが、結構他の分野で必ずしも成立しない過程なのかなって。
そうですね、それはあり得ると思いますね。
なんか例えば機械学習みたいな分野を考えたときには、
どういうふうに軸を取っているのか全然想像できない。
僕はよっきり素人だからかもしれないんですけど、
なのでそういうのが成り立つからこそこのマップっていうのが、
よりわかりやすくビジュアライズできるっていうのもあるのかなとは思ってますけど。
そうですね、だからどう構造化するかっていうところに知見ある人と一緒にやらないとやっぱりダメなのかなっていうふうには思ったりはしますね。
なんならもう科学版っていうか、全研究をこうできたらめちゃめちゃいいわけじゃないですか。
そうですね、ただそうしちゃうとニッチとかわかんなくなるから、
先に分野を決めてでマップが出てくるぐらいかなと思います、せめて。
割とそれに近い思想でやってるのがマイクロソフトアカデミックかなっていう、
だからあれは検索できる、論文とか検索したりできる、
なんて言ったらいいんですかね、あれデータベース、あれはデータベースですね。
サーチエンジンじゃないですか?
サーチエンジンと呼んでもいいのかもしれないですけど、
でもある論文を探して、まあでもそうですね、
どっちかというとすごいネットワーク的な感じで作ってるんですよね。
30:04
例えばグーグルスカラーだったら、上から例えば関連する論文から順にワーって出てくるじゃないですか。
そういう感じじゃなくて、もうちょっとそのなんだろう、
タグがついてることによって有機的なつながり、
ネットワークグラフみたいなもので研究をうちづけてきたりとか。
そうですそうです、そういう感じですね。
あといろんなランキングを作ってますね、この分野だと、
インフルエンシャルな研究者上から何人とか著者名が出てて、
その人の論文をほか堀りしていったりすることができるし、
ただまあ、我々の目的と合わないのは、
まずそういうニッチがわかるようなマップにはなってないし、
そのタグ付けの流度も結構なんというか、
荒いわけじゃないけど、かなり広い範囲、全部を対象にしちゃうと。
全部研究を対象にしようと思うと、かなりざっくりしたタグ付きになるだろうね。
今ね、前回論文会で紹介した、
神経科学者はマイクロプロセスを理解できるのかっていうやつを見てるんですけど、
そのタグはやっぱりちょっとざっくりはしてる。
コンピューテーショナルニューロサイエンスとか、それはそうだよねみたいな感じですけど。
そうなんですよ、その下がやりたいんですよ、私。
コンピューテーショナルニューロサイエンスの中でマップを作りたいから、
そういう意味で目的に合わなかったんですけど、
でもその思想としては、こういうタグ付けしていって、
それをビジュアライズしたりとかっていう思想はすごく近いなと思いながら見てましたね。
実際あの論文でも引用しました、ディスカッションのところで。
こういうのもありますよね、みたいな感じで。
そうですね。
ちょっと話がされましたが、メジャーアップデートの残り何をやったかですけど、
あとは除外するタグを選んだりすることができるというか、
今までは表示できるものだけでフィルターできたんですけど、
そうじゃなくて、例えばこれだけは表示しないみたいな感じで除外することもできますという感じ。
フィルター機能が追加されて、
あとはこれは枝派ではあるんですけど、
半自動タグ付けじゃなくて一手で登録されると自動でTwitterでつぶやいてくれるっていう連携も
エンジニアの方にお願いして作っていただきましたね。
今まで私がたまにつぶやいてたんですけど、
これはもうペースが間に合わないなという感じで、
今後は自動で連携してっていう感じになります。
意外とTwitter連携多分大事で、
Twitter見て、それこそさっき話したイギリスの研究者は登録してくれたし、
本当に海外リーチはかなりTwitter頼みのところがあって、
あとはあれですね、なぜかカナダなのかフランスなのかわかんないですけど、
33:06
フランス語圏の人で、
多分カナダに今いる人とフランスにいる2人がなぜか謎のアンバサダーをやってくれてですね、
頼んだりしたわけではないんですけど、
彼らがどっかプレゼンテーションとかするときに紹介してくれるんですよ。
もうすでに2回くらい紹介してくれてて、
例えばフランスの精神医学のコミュニティであったりとか、
もうちょっとマシンラーニングよりというかコンピューテーショナルニューロサイエンスよりの学会とかで、
モントリオールの学会かな、で紹介したりしてくれていて、
彼らやっぱツイッター経由なのかな、おそらく見つけてくれて、
かつ見つけた、プレゼンしたよってことをメンションつけたりして教えてくれるので、
今後も細々とですけど運営していきたいなというふうに思ってやっておりますね。
はい、そんな感じでメジャーアップデートをしたので、
今回はその報告みたいな感じな。
こういうツール、研究、この中で扱われてるような研究じゃなくて、
それをビジュアライズするツールを作りましたみたいなものって論文になるんでしょうか?
まあしましたけど、論文にしましたけど、それはでも結構するの大変でしたね。
それらが載ってる論文紙と同じ論文紙、フィールドに載るんですか?
それともツール専用の論文紙があったりするんですか?
それは両方あって、ツール専用のとこに出すこともできたんですけど、
私たちは目的としては、やっぱり実際自分たちで研究してる人たちの目に留まるようにしたかったので、
フロンティアズ・イン・サイキアトリーっていう、
サイキアトリーに関する、精神医学に関する論文がより載るような雑誌に投稿しました。
で、でもなんかオリジナル…なんだっけ?
なんか、実験して結果出しましたみたいなカテゴリーで出したら、
メゾット論文として出してくださいって言われて、
カテゴリーをメゾットに変えて出すみたいなことは必要でしたけど、
まあでも一応そういうところで出してもらえたっていう感じですね。
まあただ、そういうデータベース用の雑誌っていうのも最近いいのが出てきてるらしくて、
私はサイエンティフィックデータとかに出せばいいじゃんって後で言われました。
もうなんかレビュープロセス進んじゃってたからもういいやってなりましたけど。
サイエンティフィックデータっていうのは、サイエンスに関するデータを…
データベースとかそういう…
作りました。
そういうのも最近雑誌としては出てきてて、
そういうところに出してもよかったなとは今では思いますけど、
まあでもなんか一番やっぱり知ってもらうために出したっていうところが大きかったので、
業界の人に。
まあそうですね。
36:01
あとはデータベースとしてめちゃめちゃこういうデータベースと他に見たことないんですけど、
すごくテクニカルに難しい何かをやってるかっていうと、
そういうわけでは多分ないので、
まあそれが目的でやってることでもないという気がしますよね。
そうですね。
なるほどなと。
まあなんかこうものによっては、
このね、プロットされてる1個の研究より全然大きなこう、
なんだろう、積算するとインパクトがある研究かもしれないんですけど、
でもこう、なんだろう、
それをどう評価するかっていう、
そういう貢献をどう評価するのかって難しそうな印象がありますね、
科学のコミュニティで。
そうですね、まあそうですね、確かに。
この小さいマップ使ってめっちゃいい研究思いついても、
必ずしも引用してくれるかどうかわからないじゃないですか。
まあそうですね。
これを見て思いつきましたみたいな、
しゃじかなみたいな感じ。
だからなんかそういう、
あのなんだろう、
まあわざわざ我々のことをメンションしながら、
プレゼンしてくれて、
しかもそれを教えてくれる人ばかりではないですからね、
まあだからそういう意味では結構なんだろう、
コミュニティに対する貢献みたいなのもあるし、
まあでも自分自身が論文書いたらそれに登録するし、
論文を出すときに参考にするっていう、
そういう感じなので、
私自身そこまでその自分の養成器のためだけに研究してるわけではないので、
まあこの分野自体が新しいっていうこともあって、
まあそれこそ参入者を求めてるような状況でもあるので、
まあそこはなんというか、
あのコミュニティに根拠できればいいかなというふうに思ってやっている部分はありますね。
まあやっぱり個人として良かったのは、
こういうのを作ったことによって本当にいろんな人に声をかけてもらう、
そのきっかけにはなって、
これについて話してもらえませんかっていうふうには、
複数のいろんな科学コミュニティからお願いされたりはしたので、
やっぱりその興味を持ってくれる、
まあその自分の私の研究の一部として、
私はこういう研究がしたいんですよっていうある意味、
こうなんていうか紹介にもなるから、
まあそういう意味ではそこまでそれ、
そのなんだろう、
こうサイティビックな貢献みたいなのはそこまであれですけど、
なんだろう、
それの評価にどれぐらいつながるかっていうことに関しては、
そこまでなんていうか困ってはいないか、今のところとは思いますけどね。
他の人にもこういうことをもっとしてほしいなって思ったら、
コミュニティとしてはそれを評価するような仕組みは、
あったほうがいいのかなと思うんですけどね。
どうなんですかね。
例えばオープンソースとかのコミュニティでも、
結構同じことが起こるわけですよね。
みんなに役立つライブラリを作ってくれる人が、
たまにめちゃいい人が現れるわけですね。
みんなそれを使って、
みんなの仕事に欠かせないライブラリになるわけだけど、
39:03
でも結局その人のやる気が尽きた瞬間に、
そのプロジェクトは止まってしまうわけです。
悲しいことにユーザーが増えれば増えるほど、
なんか変な人が来たり、
フリーライダーが増えてきたりとか。
例えば、この論文の仕組みで起こるとは、
あんまり思えないですけど、
ユーザーが研究者、結構リテラリアシーがある人なので、
みんなが使ってるライブラリを開発したりすると、
これ分かんないんだけど、これ動かないんだけど、
で、わーって消耗して、
結局やる気が続かなくなっちゃって、
っていうのはやっぱりコミュニティとして、
そのいいことをしてる人、
みんなを支える仕組みを作ってる人ってのを支援してあげる仕組みが、
結局長期では必要なんじゃないかなっていう見直された経験があって。
どうやってるんですか、それ。
結構そのものによっては全然違うんですけど、
例えば、その分野で目立ちたい企業だとか、
実際にその分野に、そのライブラリにすごくお世話になってる企業が、
もうその人を採用して、で、うちに雇いますと。
ただ、あなたはオープンソースでこの仕事を続けていいです。
あなたの仕事は別にみんなに後悔されることになっても構わないんで。
ただ、僕たちの会社はそのライブラリめちゃめちゃ使ってるんで、
いる間はメンテナンス続けてください。
それから、僕たちがこういう機能欲しいなっていう高校生があったら、
ちょっと聞いてくださいね、みたいな。
そういうことで雇ったりとかも。
それはめちゃくちゃ健全ですね。
ありますし、寄付を募って、で、その寄付を開発者の中で分配して、
で、自分で自分を雇うみたいな、寄付によって雇われてるみたいな感じで、
経済的には独立してやったりとか。
あと、もう完全にこのFacebookだったら、Facebookがメンテしてるライブラリみたいな感じで、
企業の中でこうやってるオープンソースのライブラリができるっていうパターンも結構ありますね、最近だとね。
なるほど、なるほど。
確かにそれは企業だからこそというか、かなり利益が絡むことだからこそできるっていう感じはややしますね。
我々はこれで論文を書いたからって言って誰かが儲かったりするわけでもないし、
誰かの給与が上がったりするわけでもないので。
あとは、さっき話したのはかなり需要の高い、実際にお金を生むみたいなものに直結するものですけど、
もうちょっと小さい範囲で言うと、例えば最近はオープンソースの活動が結構その就活のレジュメに欠けて、
で、実際その企業でやってる、例えば全職でこういうプロジェクトやってましたって必ずしも言える人ばかりじゃないわけですよね。
で、そういう人にとってはオープンソースでやってる仕事って基本的にはオープンに言えることなので、
そういう就活でそういう実績を高く認める会社が増えるってことは、
42:05
広く見るとそういうコミュニティに貢献する人材をリワードとして与えてあげるわけですね。
っていうことにはなってるんじゃないかなとは思いますね。
そういう仕組みは多分アカデミアでも必要になってくるかなというふうには思っていて、
私たちはそこまで今のところ困ってないというか、労力をめちゃくちゃに削除されてる感じはないんですけど、
例えばすごくいいカルシウムイメージングの解析通路を作ったり、行動実験の通路を作ったっていう人がいて、
例えばトラブルシューティングでめちゃくちゃいろいろ質問が来たりとか、
そういうケースは確実にあると思うんですね。
私たちの場合、トラブルシューティングみたいなのがそこまでないから、
めちゃめちゃ時間取られたりはしてないんですけど、
実際そのディストリビュートしたはいいけど、そっから動かなかったり、ソフトウェアが途中で詰まったりとかして、
でも、例えばエンジニアの人には外注して、メンテナンスは基本なんかポスドクとかがやってたりして、
なんかそれどころじゃないみたいな感じになっちゃったりする。
いわゆるオマカンっていう質問がいっぱい来そうですね。
お前の環境では動かない。
そうそう、そういうこと。
ライブラリーの場所がおかしいみたいな。
完全にそういうのがあって、
で、そういう人たちっていくら質問に答えてあげたりした、
アクノルイッチぐらいには誰かもしかしたら書いてくれるかもしれないけど、
なんかそうやって他のラボの人のオープンにしたものを手伝ったとしても、
なんか著者にまでは基本そんなならないし、
もちろんお金がもらえるわけでは、それはほぼ確実にないし、
なんかそう考えると、うーんみたいな気持ちになりますよね。
だから、そういうのをどんどん防ぐために、いろいろ会社化したりとか、
それこそ、エンジニアの人たちをちゃんと雇って、ずっとメンテナンスできるようにしたりとか、
っていうのはあるとは思うんですね。
まあ、そういうふうに、もうちょっとサステナブルにやっていくべきなんでしょうけど、
まあ、アカデミアがいかんせん中小企業的というか、なんて言ったらいいんですか、
まあ、小規模で自転車創業みたいな感じでやらざるを得ないじゃないですか、
お金をプールできないっていうのはあって、
だから、その辺がなかなか難しいなというふうには感じますね。
逆に言うと、結構リテラシー高い、かつ全員のユーザーしか集まらないっていうのは、
非常にやりやすいところではありますね。
まあ、基本的に全員そんな感じなんで、それが全然いい話としては使えないけど、
でも、私は例えばこうやってみんなが使えるデータベースを作りましたけど、
私自身いろんな人に無償の提供を受けてるので、
45:03
お互い無償の提供を受け合ってるから、そこはお互い様ですよね。
なんか、他にそういう、なんだろう、誤情的なというか、
オープンソース的な仕組みとかってあったりするんですか、研究者の間で。
いや、めちゃくちゃありますよ。
それこそ遺伝子改変動物とか、羽とかも、
私はお金は多少は払ってるんですけども、すごい安い金額なんですよね。
そういうキメラの羽とかをずっとずっと携帯していて、
で、それを分けてあげますよっていう、
めちゃめちゃいい人ってことですよね。
いや、人っていうか、そういうセンターがあります。
一人じゃ絶対買えないってことですね。
アメリカにもあるし、ウィーンにもあるし、京都にもあるんですよ、そういうストックセンター。
それは多分、国外予算つけてやってるやつなんですけど、
でも、各ラボで作ったやつで、ストックセンターに寄付されてないやつとかもあるんで、
その辺はお互いにメールし合って、融通し合ってって感じにはなります。
メールっていうのは、羽ちゃんをちょだいって言って、送るよって言って、送られてくるってことですか?
そうです。
羽って送れるんですか?
羽は送れます。
あ、羽は送れるんだ。
いいの?
普通に大丈夫です。
大丈夫か。
はい。
そっか。
なんかちょっとドキドキしちゃうな。
羽がクールビンかな?違うかな?
クールビン。
クールビンというか、一応温度を管理された段ボールの中に、こんなちっちゃい段ボールに入って、
国際空輸されてきますね。
すごいですね。
その仕組みも、だから結局は、必要経費を待ちの腹開けでもってことですね。
そうですね。
オープンソースじゃん。
オープンソース。
すごいですね。
基本的にオープン、論文もオープンソース。
それはそうか。論文もオープンソースだから。
プロトコルもオープンソースだし、そういう意味ではアカデミーは基本全部オープンソースですから。
言っちゃえばそういう感じですよね。
ただ、自分の論文を仮に利益だとすると、それに関係ないアクティビティ。
それこそ、これも言っていいのか分かんないけど、茶読もそうですしね。
そうですね。
家電なボランティアだし、そんな感じで、誤助で回ってるので、そういう意味で、逆にそこが質問に上がるんだって。
確かに。
逆に僕は失礼な質問してるような気がしてきます。
つまり、科学の続いてきた誤助的なコミュニティの歴史に比べれば、オープンソースで全然20年ぐらいなんですか?
何がオープンソースみたいな仕組みあるんですか?
だいぶ滑稽な質問ですね。
お前がパクったんだろって感じに聞こえてきましたね。
まあまあ、それこそね、最近はよりどんどんオープン、
でも、それは結構オープンソース的な流れも組んで、バイオアーカイブみたいなものも出てきたし、
48:04
昔よりよりコンペティティブにするよりどんどんオープンにしていこうという風潮はあるようには思いますね。
だって別に、何て言ったらいいんですかね、
もちろんそれぞれ自分のラボの成果を出してグラントを取らなきゃいけないわけですけど、
究極的には1個の企業とか1個のアカデミア全体での知恵を増したいみたいなのがあるわけじゃないですか。
人類の知能、蓄積に貢献するみたいな。
そういう意味では多少国間で圧力があったりラボ間で競争があったりしたとしても、
最終的にはみんな同じものを目指していると。
いい話だ。
理想ですけどね、理想的にはそうありたい。
なるほど。
逆にオープンソースは科学の後輩だと考えると、
科学でうまくいっていることが逆にオープンソースの世界でできていないことは何なんだろうなっていう。
それこそこういうマップとかも別にあったらいいなと思うんですよね。
例えばある言語で、例えばJavaScriptっていう言語である層を探したいと、
例えば大規模なグラフを解析するようなものが欲しいっていう時に、
例えば他の言語、Pythonだとこれはある。
この言語だとこれがある。
けどJavaScriptだとないみたいな話とかもあったらいいのになって思うけど、
パッとそういうサービスが思いつくわけじゃないんで、
それぞれみんな検索してるっていう状況が多いと思うんですよね。
っていうのもあるし、あとは例えば引用数みたいなのもあんまり概念としてはないわけですね。
かつやっぱ重要な研究に引用されてる論文を評価されるみたいな、
そういう仕組みがオープンソースで言うと、
例えばいろんな個人プロジェクトにたくさん使われてるだけのものよりも、
例えばFacebookが使ってるライブラリって言った方が絶対信頼性というか、
こんな大きい会社が複数使ってるってことはそこそこ信頼できるし、
彼らもセキュリティとかが不安なライブラリ使わないだろうから、
そういう意味でも僕たちが使っても大丈夫だろうみたいな、
プレジットを与えられるみたいなのもあるわけですね。
そういう重みづけも持った引用数のランキングみたいなのがオープンソースの中であると、
より単に目立つだけのプロジェクトじゃなくて、
本当に重要なプロジェクトで使われてるソフトウェア、ライブラリとかが目立って、
そういうライブラリをメンテしてる人が評価されたりとか、
で、仕組みがもしかしたらできるんじゃないかなと、
いうことを後輩ながら思わせていただきました。
いや、作ったらいいんじゃないですか。
参考にさせていただきます。
ソフトウェア、ライブラリ版のシリサイドマップとか。
51:03
シリサイドマップというか、マップ上にするっていうこと、
あれですね、マップ上にして常に更新できるようにするっていうこと自体が、
はりかし検索ベースに対するある意味調整なんですよね、私たち。
キーワードベースの検索だと拾えないことができる。
構造化ができるっていう。
キーワード検索、なんかちょっと諦めみたいなところがありますね。
結局シリサイドマップをやってるような構造化っていうのが、
全ての科学の論文だったり、それこそGoogleみたいな検索エンジンだと、
全ての情報に対してできないから、キーワードでやると。
例えば、自然言語で検索できますみたいなのも、
ある種の諦めの結果みたいなところがあって、
もうちょっと構造化できる、
そういう少ない次次元の空間に落とせるようなものだったら、
絶対そうした方がヒートマップとかもできますし、
ニッチがどこかみたいなのがわかりますし、
そういう意味では、もうちょっと挑戦してもいいのかなみたいな。
そうですね。いや、個人的には全然挑戦の余地あるし、
ソフトウェアライブラリー版のそういうマップは、
マジで重要ありそうですね。
てか、まあ普通に売れそうですね。
それぞれあると思うんですよね。
ローカルには、例えば、Pythonのライブラリーの一覧とか、
それをメンテされてるリストみたいなのがあっても、
それぞれは繋がってこないし、
繋がるほど、共通の目的に向かってみんながワーって言ってるっていう雰囲気が、
あまりないっていうのもあって、
あんまり僕がパッと思いつくようなサービスっていうのは、
思い浮かばないのかもしれないですね。
なるほど。
いや、まあ、なんだろう、こういうシーサイマップ的なものって、
ある意味、巨人の肩に簡単に乗るみたいなことなの。
簡単に乗るっていうか、
こういうマップって、ずっと研究してる人だったら自然とあると思うんですよね。
この辺はよくやられてる、この辺はよくやられてないみたいなのもわかるし、
ある病気はより研究されてるとか、
その辺も感覚として多分わかるじゃないですか。
で、その人の頭の中にあるものを、
初学者も即インストールできるみたいなのが、
構造化されたこういうビジュアライゼーションの意義だと思うんですよね。
だから、それは、それこそエンジニアな世界でもあったらいいことって、
たくさんあるんじゃないかなと。
そうですね。確かに。
こんなサービスあるよとか、ご存じの方がいたらぜひ教えてください。
まあ、それこそね、いろいろテッククランチとかカオスマップを作ったりとか、
そうですね。
そういうのはいろいろありますね。
毎年更新してたりとかもするし。
サービスレベルの話で言うと、
特にビジネスとかプロダクトとかをやってる人が分類したりっていうのはありますけど。
54:03
そうだよねって言っちゃった。
なんかVCとか、そういうスタートアップ系の人たちもこういうカオスマップ好きですよね。
これをやってる企業はこの辺でみたいなのがたくさんあるし。
あと、こういう分野に勢いがあってみたいなのもありますよね。
トレンド分析みたいなのもできるし。
なんかこう、展示会とかってあるじゃないですか。
例えば有名なやつで言うとサイオスバイ、サウスウエストとか。
なんかこう、そういう大きなホールを借りて、
最近だとね、あんまないくてデジタル会社になっちゃいましたけど。
なんかあれで面白いのは、あれってリアル版カオスマップなんですよね。
で、よく大きな予算持ってると大きな場所が取れるから、
リアルカオスマップなわけですよ。
だから、ここは勢いがあるんだなっていうのが、
本当に物理的にそのスペースがどでかいみたいなので、
すごいわかるんですね。
それはなんか、例えば学会とかだと、
1スペースのみんな平等だからこそ、
逆にあんまわからないというか、
もちろん論文数が多いなっていうのはあるんですけど、
ある種その資本主義的に、
なんかお金を払うとでっかいものが取れるっていうことにすることで、
より思い付けがされたマップがリアルに展開されて。
あれはあれで、リアルの展示会って言っても、
なんか疲れるだけだなって思ってた時期もあったんですけど、
そういうふうに眺めてみると結構面白いなみたいな。
確かに確かに。
去年はあそこがすごいでかいスペース使って派手なことやってたよねみたいな。
5年前ぐらいにGoogle IOWNだったかな?
なんか見に行ったときは、
すごいヘルスケア系のプロダクトがちょうど、
Apple Watchとかも流行り始めた時期でもあったんで、
すごい増えてたなみたいな、
肌感でわかるっていうのは、
なんか全然クラウドソースとかっていう話ではないですけど、
マップとしては面白い、
現れ方だなというのが思いましたね。
いや、マップって面白いですよね。
二次元上の広がりとか、
どこが盛り上がって、どこが盛り上がってないみたいなのがわかるだけで、
かなりなんだろう、
普段考えていることにプラスアルファで、
なんだろうな、
考えが広がるというか、
上から類似度が高いものから順に出てきただけでは、
検索ベースだけではわからないことがマップにするとわかったりとかって、
結構あるなと思いますね。
そうですね。
マップを作っていこうと思います。
はい。
って感じですね。
詳細マップはだけじゃなくて、
そもそも地をどう構造化して蓄積していくかっていうことにも、
結構興味があるので、
その辺の話もできたらなと思ったんですけど、
あれですよね、論文っていう形がいいのかなっていうのも、
そもそも思ったりはするんですよ。
それこそリサーチャットさんで図だけでいいというか、
57:02
図で一個が…
図一個につき、一つの論文というか、
論文じゃなくても、
DOIがついててほしいみたいな、
引用可能になっててほしいって話ですよね。
なんかそういうのもあるし、
もっと直接データ扱えるようになりたいっていうのもあるんですよね。
詳細マップ、今は、
データを直接扱えるようにはなってないんですけど、
二次解析可能な、
今はいろいろね、
そういう公開しなきゃいけないみたいなのあったりするんで、
コードとかデータが公開されてるやつに関しては、
その辺も直接扱えるようなデータベースだと、
より嬉しいわけですよ。
自動メタアナリシスみたいなのできたら、
めちゃめちゃかっこいい。
そういうわけです。
なんか最終的な目標はそこにありますね。
それは結構ね、
すごい理想的ですけど、
でもなぜできないのかって話で終わりますよね。
そうですね。
メタアナリシスでたくさん論文書かれてるじゃないですか、
そういうのって結構大事だし、
これからどんどん増えていくべきだ、
メタアナリシスに耐えるようなデータを蓄積していくべきだとは思うんですけど、
いかんせんなんかUIがないというか、
誰もその間をつなごうとしていない。
だからこそ論文になるっていう、めっちゃ大変だから、
データのフォーマットの差を吸収したりとか、
うまく正規化されてないデータを正規化したりとかっていうのが、
大変だからこそ研究になるわけですけど、
そこって実はいらないんじゃねえみたいなっていうかな、
もっとより自動化をしていくことで、
人ができることが増えるんじゃないかっていう考え方はありますよね。
そうですね。
やっぱりその知的生産自体がもうちょっと自動化できるんじゃないかとか、
DXできるんじゃないかっていうのはあって、
それこそ最近研究のDXに関する学会とかがあったりしたんですけど、
それは本当に、何だろう、論文をさまれるというか、
論文のうち、何だったっけな、
メゾット、どういう手法を使ったかっていうところに着目して、
それこそ整理したりすることができるような、
検索エンジンみたいなのを作っている人とかもいて、
なんか、それこそね、どういう手法をとるべきかみたいなことが知りたいときって、
多分今ある検索エンジン以外のものが必要になってくるんだろうなって思うんですよね。
その辺を自然言語処理でやったりとか、
そうやってプロトコルを自動生成することで、
最終的には実験ロゴを使って、自動で実験したりみたいなこともしやすくなるわけですね。
そんな感じで、より正規化と自動化を進められるようにするっていう、
1:00:02
そういう流れはあって、
一方で、そのラボにしかできない職人芸的な実験みたいなのもあるから、
バランスが大事だとは思うんですけど、
両方あってもいいのかなというふうには思いますし、
もうちょっと研究自体のDXとか自動化が進むことで、
地の構造化を促進するとか、
蓄積をよりしやすくしていって、
どんどん積み上げられるようにしていきたいなっていう気持ちはありますね。
なんか、それで思い出すのは、
やっぱりその情報の構造化っていうのは、
結構ウェブが出てきた頃からずっといろんな人がやろうとしてきたんですよね。
例えば、このウェブサイトの見出しはこういうフォーマットで書くことにしましょう。
著者はこういうタグを使ってマークすることにしましょうっていうことで、
いろんなウェブサイト、全然違う見た目のウェブサイトだけど、
著者情報はここに書いてあるとか、
ようやくここに書いてあるとか、
そのリンクの次のページはこのリンクで辿れるみたいな、
そういうことを正規化して、
要は正規化されたウェブを作ろうっていう流れは実際にはあったんです。
でも、ちょっとあまり書く側の人がそれを採用するモチベーションがなかったりとか、
結局それが複雑になりすぎて崩壊しちゃったみたいなのも、
結構歴史としてはある。
エスペラントみたいな話で共通を作ろうみたいな。
昔は例えば、XMLってすごく拡張可能なHTMLみたいなのを作ろうとしていた人が、
XHTML、XMLとHTMLを改造したみたいなやつを作って、
それはちょっと発展的解消みたいな感じで、
完全にストー自体が潰れたわけではないんですけど、
っていうのがあったりはしますね。
ウェブサイトっていう限られた中でいうと、
結構そういう試みがあったりしたけど、
ウェブサイトって結局解析されるためにみんな書いてるわけじゃないじゃないですか。
科学はやっぱりそういうモチベーションはありますけど、
なのでちょっとうまく続かなかったりっていうのはあったりしますけど、
そういうプロトコルをやっぱりオープンに決めていって、
みんなでそれに従うように書いていこうねっていう、
そういうプロトコルを考えて広める人っていうのが、
結構リーダーシップを持ってやっていくと、
より広まりやすいのかなと思いますね。
それで言うと一つの流れとして、
プレイレジストレーションっていうのが最近、
データを取る前にイントロとメソッドまでで登録して、
で、リザルトでディスカッション後で登録するっていう、
そういう流れが来ていて、
1:03:00
特に仮説検証の色が強いような心理系の研究とかだと、
そういうのが始まっていて、
やっぱ再現性とかの問題とかも絡んでくるんで、
あとパブリケーションバイアスみたいなのも減らすっていうのはありますね。
そうですね。
ネガティブなものが出づらくなっちゃうっていう傾向があるので、
それと関係なく結果が出るか出ないかに関わらず、
最初に登録の時点で研究計画をしっかりしてれば載せると、
基本的には。
で、リザルトもまともに解析すればちゃんと載せるよっていう感じでやるっていう、
そういうやり方もありますね。
こういうのは広まっていくのかなって感じはしますね。
それがあるおかげで、例えばそのデータベースでニッチに見える、
これかけるこれの論文は少ないよっていうやつが、
実はそれは結果が出ないからだったみたいなのが防げるわけですよね、
そらく。
そうですね。
そういうのは結構みんな、論文師とかが主導してやってるって感じですか?
論文師ではない、研究者が主導してるんだと思います。
やっぱりすごくその辺の、
何だろう、パブリケーションバイアスとかに対して倫理感が高い人たちが、
多分主導してやっていって、
で、もちろん出版社を巻き込んでやるみたいな感じなんだと思いますね。
ちょっと広まってほしいですね。
そうですね。
でもやっぱりそれが何だろう、
できる分野とできない分野はあるなというふうには思ったりはしますね。
なんか心理学とかってそういう再現性の問題でこう、
ある種懲りているというか、
苦しめられてきたっていうのもあるんですか?
そうだと思います。
あとはやっぱり何だろう、
一論文一命題というか、
実験一個やって、それで仮説を出して論文書いてみたいな感じで、
完結していくことが多い分野っていうのは、
多分それでいいのかなと思うんですけど、
神経科学とかって一個の現象に関して、
行動を見て、脳を見て、脳活動を見て、
脳活動のコネクティビティを見てみたいな感じで、
複数ピースをはめていって、
最終的に論文を出すっていうケースが多いんですよ。
一個の論文に欲張りセットみたいなのは?
それが基本なんですよ。
欲張りセットっていうか、
それが思うというか、
最近は本当にそういう傾向が強くて、
どれが一個だけではあんまりいいところには乗らないんですよね。
おかずだけはダメですっていうこと?
おかずおかずおかずご飯、論文っていうのが基本っていう。
分野によるんだ。
多分そこまでそうやって複数の証拠が集まらないと、
結局神経活動と行動の意味と、
1:06:02
さらに神経活動が本当に高齢に関係しているのかみたいな、
因果関係の証明とかまで全部やらないと、
結局一個のことが言えないんじゃないかな。
だからこそ、複数の異なる検証の仕方が必要で、
そういうのってやっぱり、
例えば臨床の医学的な論文とか心理学とはまたちょっと違いますよね。
来てもらって、その人にある仮説を持って検証してっていうのと、
原理的にやっぱりちょっと違うなっていうふうに感じるんですよね。
特に動物とかを使った実験だと。
ただ、だからって言ってプレイレージしなくていいかって言ったら、
そんなことは多分なくて、
理想的には多分やったほうがいいんですよね。
定食で言うと、おかずごとにやったほうがいいわけですね。
そうですね。
ただ、おかずだけだと何も言えないっていうか、
一部しか言えなくて、
何の定食を作りたいんだっていうのが求められるってことですね。
ストーリーとして。
そうじゃないと結局、
え、じゃあ結局このここが活動してました、で?みたいな感じで、
意味があんまりわかんなくなっちゃうというか。
難しいな。
おかず検索をでもしたいわけですね。
そうなんですよね。
結局、おかずだけが欲しい、
このおかずがあるかないか知りたいんだけど、
定食、定食、定食ってランキング出てくるから、
どれを選んでいいのか。
このおかずを引用したいのに、
論文全体を引かなきゃいけないし、
この論文のどこの部分っていうのが言えなかったりもするっていうのは、
結構業界によって違うっていうのは、
結構面白いし、難しいところですね。
そうですね。
たぶん、分子生物系の分野もそれに近いと思うんですけど、
あれかし、ここにこの遺伝子が発現してるってだけじゃなくて、
じゃあこの遺伝子をこの時に、
このステージで落としたら何が起きて、
みたいなのを一個一個はめてかなきゃいけないんですよね。
ここではこれが発現しててみたいなのを、
全部ピースがはまってやっと形が見えるみたいなところはあるんですよ。
このピースはこんな形でしたっていうだけで、
一個論文にするってことは、
全然できなくはないと思うんですけど、
で、みたいな感じで、
結局4本ぐらい集まってやっと一個のことが分かって、
全体像が分かってくるみたいなことだと思うんですね。
そうやって複数の回想を行き来するような学問になってくると。
なんか分野外なんで、
そんな簡単に言うなって言われるかもしれないですけど、
おかず論文、おかず論文、おかず論文があって、
これって定食になりませんかねっていう論文もあったらいいんじゃないですか?
そうですね、それ多分リサーチャットさんで言ってた話だと思いますね。
フィギュア一個ずつで論文にして、
それを最終的にまとめ上げて、
それを一つの論文に、それもまた一つの論文にするみたいな。
人のおかずを使ってやれば言える。
それはけっこう健全は健全だと思うんですよね。
1:09:01
ただやっぱ、それやっちゃうとおかずの取り合いみたいなのが起きるわけですよ。
自分たちご飯持ってるし、
出しちゃうと使われるかもしれないから。
だからセットで出すみたいな。
定食で出すっていう感じ。
定食で出したほうが絶対おいしそうに見えるし。
難しいな、それは。
確かに。
定食だけ作るやつとかが出てきて、
お前いいもん持ってんじゃんみたいな感じで、
めっちゃかっこいい理論とかを先取りして作られちゃったら、
俺がやりたかったのにそれ。
難しいな、確かに。
そうなんですよ。
だからおかずを自分で作らないけど、
いい感じに定食にだけするっていうケースが増えたりとか、
絶対あると思うんですよね。
で、本当はこういうコンセプトは自分たちで出したかったけど、みたいな。
もう難しいですね。
でもおかず作るのがめっちゃ得意だけど、
グラウンドセオリーみたいなの作るのが下手な人もいるわけで。
だからうまくね、それを分業できたらいいんでしょうけど、
結局なんか全員にうまくクレジットを分配できないっていう問題が多分そこで生じて、
もうちょっと前半のオープンソースみたいな話と関係してくる感じがしますけど、
だからやっぱりそれが難しいんですけど、
貢献を適切に許可できないからオープンできないみたいなところはやっぱりあると思う。
でもなんかCサインアップとかに登録するんなら、
もう確実におかず単位で研究がマップされたほうがやりやすいわけですね。
そうですね、それはそうだと思います。
フィギュアを登録する、まあそれはできるんじゃないですか?
まあそうですね、今やれって言われたら無理だなって思いますけど、
結局データベースからフィギュア一個一個を抜いてっていうことがちょっと今んとこ無理なので、
タイトルアブストぐらいでしか検索ができないから。
でもなんか例えばフィギュアを抜いてきて、縦軸横軸とかをOCRして、
これは縦軸これが横軸みたいな、なんかあるんじゃないですか?
例えば横軸これで縦軸これでタイトルこういうやつが入ってるフィギュアないかなーって検索すると、
こうありますっていう、この論文のこれですっていうのが出てくると。
それが究極的にはやりたい。
めちゃめちゃ面白いかもしれない。
まあというか拡張の方向としてはね、そういうことを目指したいなというふうには非常に思ってます。
まあフィギュアのみんなが知りたいことってそれじゃないですか?
うん、確かに。
でもなんかね、ティッシュの形でしかみんな出そうとしてくれないっていうのはね。
うん、だしやっぱりなんかなんだろう、主張はしてるけどデータがないみたいなこととかも結構あるから、
言葉で調べるっていう意味ではそこに限界があるんですよね。
そういう意味ではフィギュアから調べていくっていうことができるんだったら嬉しいなみたいなのはあったりしますよね実際に。
なんかちょっと妙な方向に盛り上がってしまいましたが。
1:12:00
でも結構いい話、割とできたんじゃないかなと思います。
問題感でちょっと…
いやいやいや、エンジニアですから私より多分データベース作ったりとか詳しいんじゃないかと思います。
フィギュア検索ね、ちょっと結構できたらいいなと思うんで、バージョン3、わかんないですけど。
ねえ、できるかな。フィギュアは難しいかもしれないですけど、オープンになってるデータと行動を表示できる。
実際、ボランティアの手によってやろうと思えばできるみたいなのがあって。
フィギュア横断検索みたいなのもGoogleからなり、マイクロソフトからなりがやってほしいとでは。
そこまで行くともう、そのクラスにやってもらわないと、我々みたいな個人開発者、実際これほぼ3人で作ってるんで、3、4人かな?
そこまではやられませんわっていう感じですね。
実際なんか本当にその統計データとかでほしいですね。
そうですね。
それこそコロナとかで結構いろんなグラフ、いろんな縦軸、横軸のグラフがあったりするんで、
人口と感染率とかのグラフとか、無限に見るけど、みんなそれぞれが作ってていいの?みたいな。
それの最新のデータとかをどこで見ればいいのかっていうのはわかんないみたいな。
いや、それでいうとコロナ関係は結構面白い。
データベースというかウェブサイトがあって、
それをなんか、あるステートメントを入力すると、それがデマかそうじゃないかっていうのを、
すごいですね。
てかなんか、それに反対している論文と賛成している論文がわーって出てくる。
なるほどね。
それはいいですね。
100%正しいですとか間違ってますとかって出せるんじゃなくて、ってことですよね。
あるステートメント、例えばマスクに効果があるかとかに関して、
マスクに効果ないっていう論文とあるっていう論文が全部わーって出てくるみたいな。
それなんて言ったの?
アレンインスティテュートが作っているサイファクトっていうウェブサイトですね。
あとでちょっとリンクは貼っておきたいと思いますが、
これでコロナに関する何かのクレームを、
クレームってのは主張ってことですね。
主張ですね。主張を選ぶと。
例えばマスクはCOVIDの感染を防ぐっていう丸かばつかみたいなことが言えるようなクレームを入力すると、
これは何が出てくるんですかね?
あれでも、3ペーパーがサポートして、2つのペーパーがリフーズしますみたいなのが出てきて、
今私が何を選んだかっていうと、
COVIDの死亡率に関して年齢がポジティブなプレディクターであると。
要するに年齢が高い人ほど亡くなりやすいっていう主張に関して、
1:15:01
モデルが言うには3つの論文がサポートして、2つの論文がサポートしてないと。
意外となんか自明なのかと思いきや。
私も自明なのかと思いましたけど。
あるらしい。
でもそれがどういう根拠なのかっていうのは、そこに行って調べればよかったですね。
そうです。
それぞれ論文が5つぐらい出てきて、サポート何パーセント、リフーズ何パーセントみたいなのが出てきて、
主な主張みたいなのが過剰書きされてるんで、詳しくは読んでねって言うと思うんですけど。
マスクは4つ全ての論文がそれをサポートしてる。
マスクはつけましょうってことですね。
本当だ。4つ全てですね。
これは結構近いですね。
コビットの分野に限れば割と。
しかも自然言語でできてるっていうのは結構。
あれにして言うとめちゃくちゃ自然言語に強いところなので。
そうなんだ。
面白い。かつ、そういうオープンなデータセットを使ってやってるみたいですね。
このCOVID-19っていうのは、COVID-19に関するオープンリサーチディレクトリのかな。
そうなんですね。
Dは何だろう?データセットか。
だからそのCOVIDに関する研究がたくさん入ってるデータセット。
を使って、それのポジネガ判定みたいなのをやって、っていうことですよね、たぶん。
こういうの便利ですよね。
これがいろんな分野で使えるようになったらいいなというふうに。
そうですね。
思います。
結構最後は割と深淵な話題まで。
深淵かな。
深淵なのかな。
本題からされていきましたけど。
いやでも結構面白い議論ができたんじゃないかなと思います。
ありがとうございました。
ありがとうございました。
はい。
っていうことで今回はSeaSciMapという。
計算論的精神医学の論文データベースを作っていて、
それの話、どういうキーで作ったかっていう話と。
バージョンアップのシリーズですかね。
最近バージョンアップしましたっていう話ですね。
最後の方はなんかより抽象的な話というか、
そもそも地を蓄積するためのウェブツールみたいなのをどうやって作ってるかみたいな、
そういう話をしていきました。
また次回に聞いてください。
それではさようなら。
さようなら。
01:17:45

コメント

スクロール