1. となりのデータ分析屋さん
  2. 112. データ株価予測はNASAの..
2025-04-16 23:12

112. データ株価予測はNASAのロケットエンジニアがリストラから始めた!?Numeraiでクリプトの価値をAIで予測【クオンツ】【仮想通貨】【トランプ政権】


3/28にりょっち筆頭著者で発売する「マーケティングをAIで超効率化!ChatGPT APIビジネス活用入門」はデータサイエンスが気になる人はmust buy!!


りょっちの初単著「⁠⁠⁠やっぱり宇宙はすごい⁠⁠⁠(SB新書)」がおかげさまで発売後即重版!宇宙×データサイエンスについても描いてるから、コワーカー諸君も必ず手に取ってくれたまえ。


番組の感想や、質問はXから「⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠#となりの分析屋⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠」もしくは、以下おたよりフォームからお寄せください!⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠https://forms.gle/1Qq3cfqYgVXgs5Qr6⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠


=========================

▼Numeraiはこちら

https://numer.ai/home


=========================

▼書籍の購入はこちらから

⁠超入門 はじめてのAI・データサイエンス(培風館)⁠


=========================

りょっち

X : ⁠@_ryo_astro⁠

Instagram : @ryo_astro


たっちゃん

X:⁠@tatsuki_2022

サマリー

本エピソードでは、Numeraiを通じて株価予測がどのように行われているかが解説され、NASAでの経験がクオンツ職業に与える影響が語られています。また、暗号資産の予測へのサービスの拡大についても紹介されています。NASAの元ロケットエンジニアがデータ株価予測に挑戦し、AIを用いてNumeraiプラットフォームでクリプトの価値を分析しています。このエピソードでは、仮想通貨のトレンドやトランプ政権下でのデータの重要性についても取り上げられています。

クオンツ職業の起源
Numeraiが誕生する以前にも似たようなデータサイエンティストの力を使って、 株価を予測させに行くみたいなコミュニティがあったらしいんですけど、
クオンツとかそうだもんね、仕事としては。で、クオンツは、だからね、NASAのロケットエンジニアスタートだからね。
そうなんだ。そう。世の中にクオンツっていう仕事があって、株価を予測するデータサイエンティスト。 株価特化のデータサイエンティストみたいな感じだよね。
で、データを使って定量的にその予測の幅とか、そういうのを見て、なんか、
売り時がいつなのかみたいなのを判断する仕事があって、あれは、えっとね、アポロ計画が終わっ、
始まる前?いや違う、後だな。あの頃に人が宇宙に行くとかっていう、そう、勢いがバーってあって、その後、宇宙開発の勢いが一気に落ちたときに、
NASAから超優秀なロケットエンジニアたちが放出されるっていうタイミングがあって、
で、そこからあぶれた奴らがオール街に流れていって、で、オール街の金融屋さんたちがNASAのロケットエンジニアたちを雇い込んで、
株価分析させてっていうのがクオンツっていう職業の始まりなんだよ。 へー、めっちゃ宇宙話。
確かに。で、それが1970年、80年とかかな。 今やね、銀行だったり保険とかね、証券会社には絶対に必要な存在ですよね。
保険とかがアクチュアリーだもんね。もう包括したらほぼ全部データサイエンティストだから今や。
これさっきいろいろ調べてたら、ヌメライのCEOはなんか、USのクオンツファンドの云々みたいななんか書いてたから、
まあやっぱクオンツとしての経験なのか、知見みたいなのがあるのかな。 クオンツっていう職業を、もうなんか、
クオンツとして働いている人以外にも解放したみたいな感じか。 そうだね。データサイエンティスト自体はね、こうあらゆる業界に対してする予測モデルを作るっていうところが得意で、
データセットさえ揃っていれば、もうあとはモデルを作ることに集中できるっていう、そういう人種ですもんね。
だから準備さえしてあげれば人は集まりますよね。 なんか聞きながらいろいろ整理できてきたな。
注目されてたのはもう2020年頃ぐらいから日本でも注目はされていて、知る人は知っていた? その頃からカグルとかはでもあるのか。
カグルはね、2010年くらいだったかな。 あって、だからまぁヌメライの前からカグルはあって、カグルはGoogleがね、今運営してるけれども、
そうだよね。 その後にヌメライができて、
デジブルのデータサイエンティストカグラはヌメライにも流れてるというかね、 ヌメライでも
やっているというか、参加しているし、まぁうちのカグルでもやってるし、みたいな人もいるだろうし。 それこそあのカレーちゃん?
うん。 日本だとカレー、ヌメライで検索するとカレーちゃんの記事とか出てくるんで。 あ、そうなんだ。さすがや。
だから早いタイミングでそれは知ってたんだろうなっていうところ。 さすがグランドマスターって感じですよね。
さすがトップオブトップ。
ほんとだ、なんかいろいろ書いてるね。 そのカレーちゃんの記事でもあったんですけど、
もともとこのヌメライ株価予測をしていたんだけれど、最近だとビットコインとかイーサリアムとか、そういう暗号資産に対する
トークンの予測っていうのも始まっていて。 はいはいはいはい。
なるほどね。まぁでも、そうだよね。 扇動はおっきいにしろ、本質的にやってる、なんか価値の決まり方は一緒だもんね。
そうだね。拡大はしている、そんなサービスになってますね。 あーこの投稿見たわ、カレーちゃんの。
ヌメライのクリプト予測が始まったので情報整理しましたわ。 見たわ。これか。
去年とかの記事ですかね。結構ね早い段階で書いてますよね。 そう、でこの頃確かに
ブロックチェーンの分析の熱量がなんか世の中的に高まってた感じはあった。
で、なんか、あ、今更なんかきっかけあったのかな、流行るって思って見てた、その流れを。
ほら、俺らがメディア作った時とかはもうそんなことを、そんななんか風、風向きなかったじゃん。
そんなのは、風不可能みたいな状態でしたよね。 そうそうそう。本当になんか無駄打ちしてるみたいな、なんか
本当にそんな時代が来るんか、時代は来るとか言いながらやってたけど、本当にそんな時代は来るんかーみたいな、
思って、そうやってて、だったけど、そうこの頃に多分ヌメライのクリプト予測で、あ、なんか
web3でもデータサイエンティスト活躍できるじゃん、みたいな雰囲気がちょっと漂った気がする。
暗号資産の予測と市場の動向
我々が、そうか、記事とか書いた後にそういうタイミングがふわっと来たんだ。 そうそうそう。で、この頃とか、
これの前後ぐらいに、あのー、俺らも、あれ?タッチャも一回会ってるかな?
ブロックチェーンの分析がっつりやりたいって言ってる、ぐっさんって人がいるんだけど、その人が、あの
デューンジャパンっていう、なんか、バーチャル組織みたいなのを作って、そのデューンアナリティクスの中でできることとかを、
だからクリプトの分析を広めましょうみたいな、ブロックチェーンの分析、オンチェーン分析のやり方広めようって言って、なんか組織したりとかもこの時期だったから、
なんか、世の中的に、 ブロックチェーンの分析が流行ったように見えていた。
そうだったんだ。 俺的には。 えー、じゃあ、
なんですかね、ぬめらい効果ではないのかもしれないけど、ようやく分析する準備が整ったみたいなのが、
市場全体の状況ってことだったんですかね、もしかしたら、2023年とかそれぐらいの時期ですよね。
カレーちゃん書いてるのは、クリプト予測が始まったのでは2024年6月だから、 ほんと丸々1年前って感じ。
そうか。 で、確かにその時期ぐらい、その時期から、いやでもね、多分ね、6月とか7月ぐらいのタイミングまでで、
めちゃめちゃやっぱクリプト流行ってたから、 で、俺も実際に会社から出たオンチェーンのアプリのダッシュボードとか作ってたのも、
あれね、4月とか、3月とか4月とか。 だし、その後、
Web3系のSNSXみたいなやつが始まった中で、Memeコインとか流行ってたのもそのぐらい。
4月、5月ぐらい。で、MemeコインってMemeだから、 流行ってる界隈どうせ一箇所なんじゃねえのって言って、
DuneのAPI叩いて、Xみたいにネットワーク分析をワープキャストっていう プラットフォームでやってたのもその時期、俺が。
確かにね、結構熱量高くやってましたよね。 イベント参加したりとかもしてましたしね。
で、その頃は、生成AIの注目度もちょっと上がってきたかなぐらいで、
GPTは3.5だったかな、その時みたいな頃だね。 で、それをそのAPI繋ぎ込んで、
ワープキャストっていう、そのクリプトのサイトで作ったネットワークをAIに解釈させる みたいな
分析までやってたから、当時。 で、3.5使って、なんか精度悪いなって思いながら
見てた感覚。だからまあ、その頃だね。 なるほどね。
で、そこから生成AIの話にガーッとなってきて、我々も忘れてましたよね。 ブロックチェーンの話は。
今久しぶりに思い出した。 で、俺、確かにヌメライのページ見た記憶もある。
ああ、そうなんだ。 じゃあまあ、触れてはいたかもしれないんですよ。
えー、こんなとこあるんだー、みたいな。 けど、俺はあんまりその
トークンの価値が上がっていくっていうところの要素とか、そういうのの分析あんま 興味が湧かなかったから、
やってるんだーって思って見てた。 どうなんだろうね、流行りで言うとヌメライ自体がどれくらい流行ってるかっていうところは
ちょっとね、まあもちろん人は増えてるし、なんだろうな、 世界中の人たちが参加できるっていう状態。
まあヌメライっていうトークンを扱ってるから、ドルを使ってる人たちが有利とかそういうのないから、
誰でも参加できるよねっていうところで、世界中から参加してるらしいんですけれども、 果たして日本でどれくらい流行っているのかとかっていうのはちょっといまいち
見えてこないかなーっていうのかな。 まあたしかにね。
現状なんで、ただもしかしたら、デューンとかでその トークンの分析をすることで地域ごとの流行り度とかを可視化することは
技術的にはできるのかなとか。 どこの取引所とかを見てみると、もしかしたらヌメライの
でもあれか、日本でヌメライのトークンを交換できる取引所が果たしてあるのかとか、そういう話にもなったので、いまいち分からないのか。
結局あんま見えない気がするけど。 まあでも流行ってるかどうかとかはやっぱ分かるよね。
流行って、流量とかは結構簡単に見えるし。 あとはめちゃめちゃ流行ってるように見えるけど、
ミームコインとかみたいに、ほとんどが一部の人の発信に偏ってて、 トークン持ってるウォレットとか見たときにあんまばらけてないなとか。
強いデータサイエンティストが儲かる仕組みになっているから、もしかしたら一部に偏っている可能性は全然あるかなっていうのは思いますね。
全然あるだろうね。
なんかデューンで触れるんだったら触ってみようかな。
そうですね。ちょっと我々もWeb3の話とかまた再開します。
ありだよ。やっぱ最近ね、何だろう、ここ数日でめっちゃそういうの見るようになってて。
この間、メルカリのオフィスかな。 先週末かな。
Web3×AIのワークショップじゃないけど、そんなのをやってる人たちがいたり。
最近のイベントといえば、生成AI絡みのイベントだらけかなと思ってたけど。
でも多分、Web3の業界に寄せてってるけど、普通に生成AIとか一般的な話をしてる勉強会とかとそんなに変わんないんじゃないかなとは思うんだけどね。
けどまあなんか最新技術組み合わせないともったいないよっていう雰囲気なだけだと思う。
まあそうか。
でもあれかな、データがめちゃめちゃ綺麗に整備されているところでの、やっぱクエリ自動化とかは結構簡単そうだから、できることもあるのかね。
そうだね、さっき言ったそのNumeraiのトークンに対する分析、予測モデルを作るっていうところがようやくできるようになってきたっていうところが一つ結構面白いなと思っていて。
株価と違って、トークンの予測に関しては外部のデータをくっつけて、例えばEtheriumだったらEtheriumに関する特徴量を自分でくっつけて分析とかできるから。
そういうデータを自分で収集するとか、実際にこのNumeraiを使って将来のトークンの上がり幅予測するとか、そういう分析の方法、ノウハウを学ぶっていう意味ではNumeraiを使う意味はあるのかなと思うんですよね。
確かに確かに。
あとはディスカッションとかもあるんで、そこで強いデータサイエンティストがどういう発信してるかで情報収集するとか。
カレーちゃんに突撃しに行くか。
ね、面白いですよね。
教えてカレーちゃんって。
ちょっと前まだDUNE盛り上がってたからやっぱりDUNEなのかな、分析するとしたら。
他のプラットフォームがもしかしたら出てきてるかもしれないってこと?
どうなんだろうね、本当にキャッチアップできてないですよね、そこらへん。
なんか整理してみますか。
そうですね。
Pangibleアナリスト動かしてみます?
なんかさ、今日アドミンの権限なんか更新してたでしょ。
入れなくなりそうだったから一旦アドミンを自分のアカウントに紐付けておいて一個追加した。
なんか設定変えてるわと思って。
やりますか。
やってみましょうか。
でもなんか前回のエピソードの最後でもちらっと喋ったけどさ、コインチェックって日本の取引所あるじゃん。
コインチェックのアナリティクスグループみたいなのができ始めていて、社内に。
なんか今はあれなんだって、コインチェックと合同でイベントやったのよ、会社で。
あーそうですね、この前やってましたね。
で、コインチェックのアナリティクスグループの人が元DNAの人で。
あ、そういう繋がり。
そうそうそうそう。
で、それでなんか一緒にイベントやりましょうって言って、
NASDAQ上場したからコインチェックが。
上場した後に、ほら、データ分析の穂先って結構変わるというか、
株主っていうのが明示的に一般の人も含めて出てきて、IRの資料とか整備しなきゃいけなくもなるしとかで、
データ分析の需要の方向性って変わるよねみたいな話があるから、
そういう上場とか、そういうのを経験した会社のアナリストを呼んでイベントやるみたいなのをやったんだけど、
それでコインチェックの人喋ってたのが、今4人体制で2人正社員2人業務委託みたいな感じで言ってて、
拡大ガンガンしていきたいみたいな。
で、オンチェン分析も社内の取引所の中でのデータだけじゃなくて、
NASAエンジニアの挑戦
オンチェンの分析とかも入れていきたいよねっていう。
けど人、さすがにそこまで広げようとしたら人足りないんだよねみたいな。
あーなるほどね。
なんか何年か前にやってたんですよねみたいな。
あ、そうなんですかぐらいから始まって、
でなんかメディアとかもやってて、このサイトなんですけどみたいに言ったら、
握手してくださいみたいな。
見てたーみたいな感じだった。
すごいね。
でもね、これね、俺、リアルであった人で、
ポッドキャストやってて、ポッドキャストで宣伝してきた人に聞いてますって言われるんじゃなくて、
そこら辺で聞いてますって言われるパターンって、
宇宙話でもそんなないんだけど、
ファンジブルアナリストの方がダントツであるよ。
俺多分二桁回数言われてんじゃないかな。
業界認知度高いんかね、じゃあもう。
かもしんない。
面白いな。
だからあれをやったのは正解だったんだけど、やっぱり継続させないとダメよって。
そうだね。
あの頃からずっとやってて、
ブロックのオンチェーンデータサイエンティストって名乗り続けてやってたら、
今億万長者っすよって言われたもん。
もう遅い?
遅くはないけどね。
けどまあ多分あの頃よりは世界にはいっぱいいるね。
まあそうだね。
でもたった1年とか2年ですよ。
まあそうだね。今はいいんじゃない?沈んでる時期だから。
そうですよね。
1年前の盛り上がりはあんまりないから、
今また仕込んでおくのはいいかもしれない。
そうですね。じゃあまあちょっと、
仮想通貨のトレンド
久しぶりにあのサイトを動かしつつ、
今日の話した内容をテキスト化とかして置いてみましょうか。
確かに確かに。
それはね、めちゃめちゃありだね。
これしかも、あれなんで書き起こししやすいんだよ。
これさ、別々で音声ファイル出せるでしょ、手元で。
今ね、そうやって収録してますよね。
そうそうそう。で、たっちゃんのその編集の、
編集したものを合わせて出してるけど、
別々出力もできるでしょ、きっと。
あーできるできる。
そうしたらその2つのファイルで書き起こしすれば、
対話がちゃんと取れるはずなんだよね。
そう、こないだ、
そういうこと?
2人の、男2人の対話って、
話者分離めちゃめちゃむずいの。
あー音声、声の周波数とかが似たり寄ったりになると、
そこ分離できないとかそういう話?
そう。
なるほどね。
うちのデータサイエンティストにも聞いたんだけど、
男と女はやっぱ結構いけんのよ。
まあ人間でもわかるぐらいですもんね。
で、パイアノートっていうのを使うと、
なんかできるよっていう素材がたくさん落ちてんのね、世の中に。
けどこっちの方がいいよっていうのがなんかいろいろ出てきてて、
今一番いいのは、
NVIDIAが出してる、
なんか話者分類のソフトがあるんだけど、
ソフトというかオープンソースの、
モデルがあるんだ。
そう、モデルがあるんだけど、
それめっちゃ精度いいからこっち絶対使った方がいいって、
会社のデータサイエンティスト、他の人に言われて、
で、男同士のインタビューの動画とか入れて、
話者分類させようと思ったんだけど、
全然ダメで。
ダメなのかい?
ずっと一人が喋ってるみたいな感じになってて。
どうすりゃいい?
いや、だから、
でも、
例えば、音声ファイルをオリジナルで2つバラバラで生成できる。
で、時間は同じスピードに流れるじゃん。
だから、タイムスタンプつけて書き起こししたやつを交互に出せば、
対話のブログ記事はすぐ作れるし。
ああ、そういうことね。
あとは、別に内容をたださまるだけ。
どっちが喋ってるとか関係なく、たださまるだけだったら、
別にただの書き起こしでOK。
まあ、そうだよね。
あとなんか、とりあえず、
会話が成り立ってるっぽく、
2人登場人物作って、つって書き起こしさせて、
俺が喋ってる、たっちゃんが喋ってる、関係なく、
とりあえず対話っぽく記事まとめるとかもできる。
まあ、それでもいいかもしれない。
まあ、一番簡単な方法で文字を起こして、
とりあえず、
ファンジブルアナリストに置いてみるで、やってみますよね。
俺、ちょっと前にさ、
宇宙話のブログ自動化してるみたいな話したじゃん。
そうだね。
それでガンガン、
俺、記事作ってるコートとかあるから。
うん。
じゃあ、ちょっとそれを流用させていただきつつ、
ちゃんとあれですよ、
リョッチ編著の本もあるんでね、
それ見ながらね、やればいい、組めますもんね。
原本させてもらったよ。
3社から、ちゃんと、なんだ、
封筒に入って本が届きました。
いろんな人に、カレーちゃんにも唐揚げさんにもね、
お礼の、あの2人から全てが始まってますから、
ちゃんと。
あ、そうでしたね。
あ、そう、でもあれだ。
あの、カレーちゃんは、
憲法は受け取らない主義なんですよ。
買ってくれるの、ちゃんと。
神だよ。
すげえ人だよ、あの人は。
まあ、だから、ちょっとファンジブルアナリストも動かしつつ、
前に俺がやったネットワークの分析とかも、
なんか、雑にだけど貼ってもいいかもね。
そうだね。
こないだ、コインチェックの人に見せたらテンション上がってたよ。
すげえ、つって。
そうなんだ、やっぱりウケいいんですね。
あ、わかんない。
ちょっとテンション上がってたのは、
ちょっとパフォーマンスで、
俺が色眼鏡で見てた可能性あるけど、
面白いね、みたいな話をしてた。
じゃあ、隣のデータ分析屋さんにある、
ちょっとこういうWeb3関連の話とかは、
記事としてまとめてみるっていうのを、
お手すきでやってみようと思います。
はい。
じゃあ、次回。
次回は、生成AIに戻りますが、
いやなんかね、宇宙の天体のデータを、
分類するためのディープラーニング作るとかって、
俺らやってたじゃん。
学生の時にね、研究室でやってましたよ。
まあ、ディープラーニングの手法もどんどん進化していって、
今や結構色んな研究で使われて、
精度が上がってるんだけど、
普通に得られてるデータを、
LLMにぶち込んでも、
天体の分類、結構高精度でできるみたいな、
っていう論文が出てて、
宇宙話でも紹介したのよ。
宇宙話で紹介したんだけど、
もうちょっと技術的な話をしたいっていうのと、
LLMの可能性結構感じてもらえる論文だったから、
データの重要性
その話をしようかなっていう。
ざっくり言うと、
同じデータセットに対して、
特徴量めっちゃチューニングして作った
ディープラーニングのモデルと、
データの入力の仕方を、
画像なのか、時系列データなのか、
音声型なのかっていうデータで入れた時の、
LLMにそのまま入れて、
分類させる方法とで、
特徴量チューニングしてないLLMでも、
一定精度が出るっていう研究だ。
戦わせたんだ。
従来の手法とLLMで。
面白い。
ってことは、特徴量を考えるっていう手間もなければ、
そこの人間のチューニング能力みたいなところに
全く依存しない方法で、
ある程度のことができるっていう話だから、
っていうのをちょっと紹介しようかなと。
なんかそんな、
久しぶり。
で、ちょっと宇宙の話も絡んでるから、
この2人で話すのはちょうどいいかなっていう。
いいですね。
そういうのがさ、
うちらが研究室にいた時代にもしあれば、
そうね、楽だったよ、あんなに。
どっかで話したけど、
トランプなんて研究室にばらまく必要なかったんだから。
でも、
次回またその話しようかな。
でもなんか今の天文の業界で、
でもそんなに有効活用できてる気はしないというか、
業界的にはね。
そんな話もちょっと次回していければと思います。
はいはい。
楽しみにしてます。
隣のデータ分析屋さん、
今回も面白いと思ったら、
フォロー・レビューよろしくお願いします。
番組の感想や質問は、
ハッシュタグ、
隣の分析屋、
隣のがひながらで、
分析屋は漢字でお願いします。
また、概要欄に貼ってるお手紙フォームから、
コメントを寄せてください。
ではまた。
バイバイ。
23:12

コメント

スクロール