あー、オプスしてー、オプスしてー。 なんすか、なんすか。
オペレーションしたい。あー、オペレーションしたい。 マシンラーニングのオペレーションしたい。いないの?そんな人は。
MLOpsしたい。 そういう話ね。はい、ということで今回はMLOpsのお話です。
とかね、言っときながらあんまり知らなかったMLOps。 意外だった。めちゃめちゃ勉強になりました。
よかったです。 ありがたいことに。 もう今ね、聞いた後に明日の仕事でどこにMLOpsをぶち込もうか、
頭を巡らせております。 なので今一番、一番今、
オプスしたい。 なんか違うんだけど、まあいいや、してください。すぐしてください。すぐオプスしてください。
はい、ということで、まあMLOpsだったり、 あとは聞いたことあるパターンだとDevOpsとかですね。
まあ、いろんなオプスがありますから。 僕は子育てオプスを頑張ってますっていう話をしておりますので、ぜひ最後までお付き合いください。
どうぞ。
隣のデータ分析屋さん。 この番組は隣の席に知らないことを気軽に聞けるデータ分析屋さんがいたらいいなぁ
を叶えるポッドキャストチャンネルです。 データアナリストのりょっちです。データサイエンディストのたっちゃんです。
顎が痛い。顎関節症なのね。 顎、顎関節症。
ストレスなんでしょ? そうですよ。寝れてないから。
寝てるなぁ。 夜激しいとかしてない方もチェックしといたほうがいいっすよ。
なんか大丈夫らしいよ。 あ、そうなんすか。別のもっとヤバい病気です、それは。
痛いんだよね、マジで。 ということで、
今日は何でしょう。 今日は
MLops。 MLopsね。今流行りの。
いやもう今流行りなのかな。もう多分2年3年くらい前に ワーッと出てきて使ってる人は使ってるし使ってない人は使ってないみたいなもの
なんじゃないかなと思ってますけど。世の中のものは大体そうです。 その人たちに分けられますと。
それはそうでしょうね。 いやでもなんでこのタイミングでMLopsの話をするかっていうのが
やっぱあって。 世の中なんちゃらOps系めっちゃあるじゃないですか。
全然ピンとこないけどね。 あ、本当ですか。
俺何もOpsしてない。 何もOpsしてないですか。
え、多分。 Opsってあれですかね、オペレーションズのOpsですからね。
だから人生オペレーションしてる。 必死に。その必死にやってるオペレーションとかその運用みたいなところを
効率的にできますっていうのがほにゃららOpsですよ。 他に何があるの?
そのMLopsが言われる前はDevOps。 あー知ってるわ。
でしょ。DeveloperOpsですよ。 だから開発とかでのOpsですね。
で他はSalesOpsとかCSOpsとか。
クスクスじゃん、クスクス。 SalesはSalesです。
営業。 営業オペレーション用のツールだったりとかそこら辺の営業の業務フローを効率的に
動かしましょうみたいな話とか。 CSはカスタマーサクセスですかね。
はいはいはい。 Opsつければ何でもいいんだけどね。
まあその説はありますよね。 だからもうそういうことでしょ。
じゃあまだあれだね、マーケティングOpsみたいなのは来てないんだね。 あーどうなんだろう。あるんじゃない?
だってマーケティングでやることって大体一緒なんじゃないですか? おいバカにすんな。聞いてるマーケターキレるぞ。
結局どんな仕事もやるべきフローってそれぞれの仕事であるじゃないですか。 そのフローを効率的に動かしましょうみたいな考え方とかそこに合わせたツールなんで。
Opsだ。 マーケティングOpsもあるんじゃないかな。自分がマーケティングの仕事してないからわかんないけど。
俺結構最近子育てOpsが。
はかだってきてます? 子育てOpsは分業生だからさ。
分業生とは言ってもずっとお休みだからパートナーは。 なるほどね。
比率は向こうの方が高いけどいい感じのくさびみたいなところを俺が担ってる。
担うことで家庭内の子育てOpsが最適化されてる。
やっぱりあれですかその毎日毎日こう過ごしていくとこうやった方がこう 上手くいくなみたいなノウハウみたいに溜まってくるもんなんですか。
まああとは割と習慣化するってするよね。 特にお風呂とかは全部俺担当だから。
そこに合わせてこう パパママの生活リズムを
こう合わせてそこまで飯を終わらせてみたいな。 帰っていかないといけないから。
風呂入ってる間にパートナーはバスタオル用意してとか着替え用意してみたいな。 寝床を整えて寝床を作って。
素晴らしいですねちゃんとオプスしてますよそれは。 オプス完全に。
チャイルドケアオプス。 そういうことなんですよ結局その日々のやってることの繰り返しがあるからその習慣化が風呂となって
その風呂をいかに最適化していくかっていう考えでやっぱり仕事ってできていくじゃないですか。 まあそうだねそこまで行ったらなんか完成って感じだよね。
そうなんですよ。 だから
ホニャオプスが世の中にはツールとしてあるっていう話で。 で今日の話はMLオプスなんでマシンラーニングオペレーションズの話です。
なるほど。 でマシンラーニングオペレーションズって言われても日頃機械学習とかAIやってる人は
まあはいはいって話なんですけどやってない人にとってはそもそもデータサイエンティストとか AIエンジニアがどんな仕事してるかっていうのが
多分まだピンときてないと思っていて。 でも僕らの仕事って結構やるべきことって決まっててゴールとしては最終的にAIモデルを作るとか
それを何かサービスとかツールに組み込んでいく まあデプロイしてくリリースしてくがゴールなんでそこに向けて何すべきかをフローをまず
さらっていったらじゃあそれをどういうふうにオプスしているのかって話が今日はできるの かなと思ってるんですよね
じゃあなんかあんまオプスしてるわーと思ってなかったけど オプスしてるわ多分
これまでに そうだと思いますオプスさせられてたと言ってもいいかもしれません
あーそうかもしれないその 上司とかねさせられる側ですねオプスされてます
今日ずっとオプスで行くんですか? 行きます
だってなんか変じゃない略し方 オペレーションズがオプスになることが
うんそうなのかな世界中本当に海外でも言うのかな ml オプスって
言うんじゃない? 知らないけど言うでしょ日本人が作ったものじゃないですよきっと
本当に? 穴勝ちでしょ
まあでもいいや 調べといてや じゃあまずちょっとフローを追ってみたいんですけど機械学習の
ライフサイクル的などんな仕事をしているかって話で ゴールはさっき言った通り
ai モデルを作ることそしてそれをリリースすることですと
でなる時に何するかっていうとモデルを作るためのデータを集めますと
データ収集ですね そのデータを加工する前処理をするっていうところがあって
でモデルをトレーニングする そうすると ai はできるわけですよ学習をすることがそうだね
手元でモデルぐらい簡単に作れちゃうからねそうそう でできた ai を評価するとこですね
思った通りにできているのかどうかそして評価した結果 この ai が今まで使っていた ai と比べて性能がいいのか悪いのか
比べるってところですねでそこでまぁ ab テストをしたりとか 実際に使ってみてなんかその使用感みたいなところを確認して
で最終的な問題なさそうだねってなった時に初めて世に出てくる でまぁその世に出たものを一定期間ちゃんとこう運用していくモニタリングしていく
変なこと起きてないかなぁみたいなでおかしかったら前のモデルとまた切り替えたりとか スイッチングしたりとか新しいものをまた作ったりとか
ってことを繰り返しなんですよねモデルをアップデートしていって常にいいものを 使いながら運用していくみたいなこれが一般的な
ai のなんか業務フローというか a 作っていくフローでデータサイエンスの人たちとかって ここの業務をいろんなサービスに組み込むために同じような仕事をしているんですよ
まあそうだねでまぁ人によってはここが強い 前処理が強いよとかいい ai モデルを作るのが強いよとか運用が強いといろいろある
と思うんですけど基本的な ai を使った業務フローはこの一例の流れで説明できると 思っていてこの作業を一気通貫で
楽にさせる効率的に業務をできるようにするものが ml オプス としていわゆるツールがありますと
困ったというかいいモデルできたんですよ報告してちょっと後からやってみたら なんかこう
シード値の違いでなんか同じ 数値でないとかああなるほどねはい曲紹介がたまたまめちゃめちゃ良かったと
そうですそうです っていうことがあったりとかしてちょっと説得
納得感が得られない主張になってしまうとか実験管理の甘さで 業務がなんだろうな
行ったり来たりしてしまうみたいなことがあって a そんな苦労が 苦労をすでにしているのね
いやそうです その時はその入ったチームにその ml オプスみたいななかった時代的なかった
時代的にあったんですけどまだ導入できていなくて a
ここ使うためののノウハウみたいなところもやっぱりチームだったり個人でもって ないとすぐに導入するにはちょっとハードルが高かったりするしまあ変な話別に
スプレッドシートとかでモデルとか中にパラメーターとか 特徴量とか管理していればできないことはないけど
事実そうやっていましたね当時は抜け漏れがあったりとか カー
なんか代々先輩から引き継がれていった絶妙な特徴量というか これは使った方がいいみたいな謎の特徴量があったりとかあるよね
あれむずいよねそのさ新しいモデル にしようとしてもなんか
なんか新しいモデルにする ネリットって
実際なんか1回既存のやつが作られちゃったら難かったりするじゃん ああそうですねだってさじゃあ精度3パー良くなりますみたいな
話になってもさ なんかスイッチングコストめっちゃかかるとかってなったら
なんかいや別に良くねみたいななるしそうですそうです 新しい特徴が作った方がいいとかなってもその前処理からやり直して今ある既存の
パイプライン全部見直すとかなると回収コスト大変だからいいよ今のでってなります もんねそうそうある程度精度ですからそうなるじゃん
いやそうなんですよね だからまあそういうケースにもやっぱりこの
実験管理とかなぜ高の特徴を使ってるかみたいなところをなんか後から遡っても見 れるみたいな可視化できるっていうところは
こういう ml オプス系のツール使うメリットかなと思っていて エメルプスマナー社メールフローを使う最終形ここまで使えるよといいよねっていうのが
モデルをデプロイするっていうところも任せることができるんですよ どういうことがというと
ai のモデルのこのライフサイクルみたいな話時に最終的には世にリリースするって ところがゴールとしてあるんですけど
そうでそこまで何個もモデルが出来上がってくると その中から一番良いモデルを選んで今あるモデルと
ab テストとかをしてどっちがいいかを競わせて良かったらスイッチするみたいな 悪かったら下げるっていうところが全自動的にできるっていう機能が
あって a
便利 ここまで組み込めるとこの ml オプスのすべてを使ったと言っていいぐらいの使い倒しているところなのかなと
思っていますね そうなんだ前回紹介したデータブリックスにもマネージド
ml フローっていうのがあるらしいね でデプロイまで一括管理できますよと書いてあるはまさにそういうことです
ml フローがオープンソースって話をしたんですけどこれもともと 開発を始めた人がデータブリックスを作った
前回紹介したザハリアっていう人ああ言ってたねそういえばそんなようなことを あの人なんですよ
じゃあもうデータブリックスに入ってるよとかっていうよりはデータブリックスを 作った人が作ってながら
むしろデータブリックスの強みぐらい ああそうですねまたは今回自分がこの
ml オプスの話しようと思って調べて初めて知ったくらい あまりデータブリックスと ml フローの
セットみたいな感覚はなくて ml フロー開発した上で
上でもっと一元管理できる場所が欲しいってなった目線でできたんじゃない ああ確かにそれはあるかもしれないですね
確かになんかこれねデプロイまで全部できるんだから モデルのチューニングとかも管理しやすいの作ったけど
これを一番生かせる プラットフォームというか場がねーぞみたいになって
はいはいに行くみたいなのああ すごい
しっくり苦しい 資金調達しやすそうだよね
確かにそうですね なんかそのし座でデータブリックスができたって言われたらなるほどなって思いますね
違ったら違ったら違ったら逆にすごいけどまぁどちらにしても多いですけどね 確かにな
そうだからまあ ml フロー自体の開発は今も続いてて ただここはそのオープンソースと言われる誰でもが開発できる
自由に使える場所に置かれていて なんでもデータブリックスからはビジネス的な関係性というのはないんだけれども
ただまぁデータブリックさんマネージドのサービスとして ml フローが使える状況にあって 絶対的に使った方が
ある開発は楽だしチームでやるときも うん
なんかいいことしかないなーっていう サービスがありますね
ml オプスが多分一般に浸透した後にそっちの開発をやってないからなんだろうな
最初の俺もデータサイエンティストになって最初の方はまさにそれをずっとモデル作り の特に特にモデルを磨き込むところをやってたから
ああなるほど 多分そのフローの中にいたんだろうなっていう気はするけど
ようやくなのかなこう使いやすくなってきたっていうのはオープンソースであると のサービスって
誰でも使えるんだけど使い方がこういまいち わかりにくかったりとかドキュメントが散見されて何見ていいかわかんないとかっていうのも
あってあとアップデートが激しかったりしてついていけなかったりとか
詳しい人がいないとリードしてくれる人がいないと厳いよね そうですね
ml エンジニアとかそういう人たちにとってはもう当たり前のツールとしてあるみたいな感じだ もう当たり前としてありますね
じゃあもう乗り遅れてるわあたし いやでも当たり前としてあるけど
どうなんだろうな全員が全員使ってるかみたいな全企業が使ってるかというと別にそうではないか そうではないと思う
あと個人によっても使う使わないあるし 使える使えないっていうのがあるって感じですかねどちらかというと
使った方がいいけどねーで終わってるケース全然ありますね それこそそれを入れるだけのコースを張る今みたいなことが
それもあるしちょっと学習コスト的にもちょっと学び直すのアレだしなみたいな ああそちら
もうマストスキルではあるわけだよね チーム開発とかプロジェクト業務で導入するってなったらあった方がいい
むしろあるべきだなとgit ぐらい マストになってくるだろうなと思いますね
コードの開発はgit で全部ソースコード管理できるけど そのコードを開発が終わりました
git のハブのブランチにマージリクエストをしました マージされましたってなった時にそこから自動的に
世で動いているサービスに反映されるまでのこの一連のフローを 自動でやってくれるのが
MLops なんですよ なので
それはやるべきだよねというか導入するべきだよねっていう話 じゃあ綺麗こうガチッと
システムとしてこううまく駆動しているところは だいたいそういう管理の仕方がされているのかな
だと思いますね もともとはこの DevOps って言われるデベロッパーオペレーションズの
ソフトウェアエンジニアとかが使っていたようなところから派生して その一部として機械学習をやる人たちは MLops っていう
そういう位置づけなんですね なのでソフトウェアエンジニアの人たちとかは結構この
何ちゃらOps系は使い込んでるんじゃないかなと思いますね コード開発してGitにコードを上げたらそれが新しい
今動いているシステム上に反映されるまでの そのパイプ役になっているのが DevOps なんで
なるほどね そうです それが機械学習のサービスなのか一般的なシステムサービスなのかの違いのだけで
いかにリリースまで早くするかっていう観点で作られているものかなと思うし 最近この MLops の話してますけど
もうちょっと古いっていう感覚があるのはなぜかというと LLMOps が出てきたからですよ
何ぞ何ぞ LLM 大規模言語モデルですね LLMOps あるな
この LLM をいかにサービスシステムに落とし込んでいくかっていう話になった時に そこのフローを効率的に動かそうぜっていうところでできたのが
LLMOps っていう考え方言葉ですよね
なるほどね あーでも
あーそういうことかそういうことか 掴めてきたぞだんだん
ほんとですか こっちの方が最近いろいろ見てたから馴染みはあるわ
あーそうですよね あれだよねそれこそ DeFi とかさ
あそこら辺の構築して最後 どうそれがモデルがデプロイされるかみたいなところのフロー全般の管理で
あーそうですまさにそういうことです
はいはいはいはいはい 追いつきました私
あーよかったです 今猛ダッシュで
よかったよかった まあなんか具体 LLMOps が入っているサービスが何かって言われると自分はそこまで勉強できてないから分かんないんですけど
でもまあ なんか今までの MLOps との違いとしては
なんかプロンプとエンジニアリングを効率的にできるよねとか その後のファインチューニングとかが
クイックに効率的にできるよねって話とか ただ一個大きく違うなと思ったのはその評価のところは
どうなんだろうっていうふうに思ってて
MLOps の時の評価 そのモデルの評価って定量的に評価できたわけですよ
精度が何パーでとか まあまあ一般的に使われる指標はいくつかあるよね
そうです なんですけど LLMOps の場合のその評価の対象が言葉自然言語だからそれを評価するっていうのは結構難しい領域だよね
だと思う 結構話題になっているところだと思うんですけど
それはなんか難易度別にセンテンスを用意しとくっていうのだけとか タスクを用意しとくっていう
なんか確認の仕方が一般的だよね多分 ああそうですね
テンプレートみたいなタスクを何個か置いといて そいつをどんな感じで解いてくれるかみたいな
なんか模範回答みたいなのがあってとか そうそうそう
そうです なんでそこの評価の仕方をどういうふうにこれから定まっていくのかなっていうところはちょっと注目はしてるんですけど
いずれにしても評価をしていいか悪いか判断して あとはデプロイしていくってところが
まあなんか体系だって LLM のライフサイクルみたいなのがちゃんとできてくるんじゃないかなと
できてた時にはそれが効率的に動くような仕組みっていうのが生まれてっていう また新しいツールが出来上がってくるみたいな
そんな近い未来あるんじゃないかなというふうに思ってますね じゃあ次のオプスだけ予想しとく
そうですね LLM の次は何が来るかって話
難しいよな 難しいですよね
まあそんな感じで 今日は ML Ops の話をメインでしてましたけど
言っちゃえば業務を効率的に動かしましょうっていうところで生まれてくるツールですよ っていう話ですね
なんか初めてちゃんと知ったわ 名前だけしか知らんかったから
いいお勉強になった いざ使ってみないとまだ多分しっくりきてない部分はあると思うから
全然ある
ただ使える ML Ops に関しては本当にすぐ使えるし 普段もし機械学習とかのコードを書いているのであれば
1行2行をML Flow のコードを差し込むだけで 自動的にパラメータとか裏で管理してくるようになるから
あらそう 試してみていいかなと思いますね
感動を味わってほしいですね
Python のどっかのノートブックでやってますみたいな
だったらその間になんかこうコードをポチポチ入れていけばいいってこと そうです
インポート ML Flow をして ML Flow をランっていう風に走らせた後にいつもの機械学習のコードを書いてあげたら
そこで出てくるモデルとかスコアとか あとフィーチャーインポータンスとか
そこらへんのすべてはログとして吐き出して裏でまとめて管理してくれるみたいなツールなんで
明日やります
やってみてください
明日やります私
まぁちょっとねそんな
今まだテストのモデル作ってるだけだけど
本当ですか できますよ でもクラウドとか開発してると思うんですけど
どのパブリッククラウドでもサポートしてるし
クラウドの中でのマネージドのサービスと連携させていくと裏でダッシュボードとかをきれいに見れるものがあったりとかするんで
ぜひぜひなんかデータサイエンティストの人とかはよりデブ側というか開発側に踏み込んでみると
ちょっと普段の業務が楽になるかなっていう感じですね
入れようこれ決めた明日の仕事決めた
よかったよかった
そんな感じでちょっと効率的にやっていきましょうっていうお話でしたと
面白かった
いい攻撃だった
よかったっす
じゃあ次回
次回は
この収録をしてる日が
宇宙系の本を作ってる1月8日に発売するやつの完全終了日なんですよ
おお
長いことお疲れ様でした
でなんか予約数とかで初版部数が直近決まったりとかで
よくよく考えたら出版社ってデータ見てるんかなと思って色々調べたら
割とようやく思い越しが上がり始めたみたいなところが多かったり
へー
でも確かにこういうアプローチやってるとこあるんだろうなみたいなのだけど
例えば講談社とかの取り組みが結構データ基盤一括管理にしましたみたいなので
Googleのページに出したりとかで
今になってもう一回注目されてるっぽくて面白かったから
その取り組みを本作ってみたから出版社目線に立ってみようかなっていうそんな回にします
アナログとデジタルで全く真逆のコンテンツがどうなってるんだろうって気がしますね
そうねでもなんか今の出版社ってさ物理もデジタルもアナログもデジタルも持ってるじゃん媒体として
あーまあ確かにね
だからそういうのは多分一括管理しなきゃいけないんだけど
多分なんかそれこそ部署の差によってできてなかったみたいなところがあって
それをGoogle Cloudとかで一括管理し始めたよみたいな講談社の取り組みでしたりとか
なるほど
なんかBIツールとかデータ基盤に接続する分析ツールみたいなのを提供してる会社があるよとかっていうの結構出てきたから
そこに特化してやってるところもあるんだっていうのをちょっと軽く紹介できたらいいかなと思います
隣のデータ分析屋さん今回も面白いと思ったらフォローやレビューよろしくお願いします
番組の感想や質問はハッシュタグ隣の分析屋
隣のがひらがねで分析屋は漢字でお願いします
また概要欄に貼ってあるお手紙フォームからコメント要請ください
ではまた
ばいばーい