fukabori.fm
107. LLMをゼロから作るという..

107. LLMをゼロから作るということ w/ Takahiro Omi

2023-11-15 38:22

107. LLMをゼロから作るということ w/ Takahiro Omi

spotify

apple_podcasts

ストックマークの近江さんをゲストに、大規模言語モデルをゼロから作る方法、学習のデータセット、モデルアーキテクチャ、学習環境への取り組みなどについて語っていただきました。

話したネタ

どのような大規模言語モデルと作ったのか？特徴は何か？
データセットに何を使ったのか？
日本語と英語とのバランスは？
最終的なToken数は？
事前学習モデルを作りたいとして、何から考えるのか？
ノイズのクリーニングと、その方法
今回活用したモデルアーキテクチャ(Llama)
前回のアーキテクチャは GPT-NeoX
今回の学習環境は？
AWS Trainum 32コア x 16ノード
学習にかかった時間は？
学習時に大変だったこと・上手くいかなかったことは？
学習中のチェックポイントとは何か？
なぜ、Token生成が速いのか？
手元でLLMを動かすときの一番のネックは？
bit数を落とすFineTuning
Tokenizerとは何か？
日本語の単語区切りはどのように考えるのか？
今回のLLM作成のTokenizerは何を使ったのか？
ビジネスドメインでのLLM評価
ストックマーク株式会社のRecruitページ

See Privacy Policy at https://art19.com/privacy and California Privacy Notice at https://art19.com/privacy#do-not-sell-my-info.

38:22

コメント

こちらもおすすめ

80.最近のLLMの動向、マルチモーダルモデルの仕組みとLLMの評価方法を解説

白金鉱業.FM

37. MLOpsとは？どのようにMLOpsを実装しているか？ w/ kenta_sato3

68. まだまだ続くよ白金鉱業FM！ChatGPTをはじめとした「基盤モデル・大規模言語モデル社内タスクフォース」の話！

白金鉱業.FM

98. LLMを活用したソフトウェアアーキテクチャと代表的なユースケース w/ ryohtaka

83.言語処理学会第30回(NLP2024)について「大規模言語モデルによる予測モデルの生成」と「逆学習による言語モデルの解析」

白金鉱業.FM

Re.24 大規模言語モデルで変わる世界

スクロール