1. 思ったら即アウトプットするプログラマー
  2. [AIボイスチェンジ版] オライ..
2023-05-07 06:44

[AIボイスチェンジ版] オライリーの生成AI本

前回投稿したエピソード( https://podcasters.spotify.com/pod/dashboard/episode/e237bbf )をAIボイスチェンジ(RVC)したものです。

詳しくはこちら( https://zenn.dev/mossan_hoshi/scraps/249c1b5c9d7131 )を参照してください


● ちょくちょく変な音が入るのはSEを無理やり変換しようとしているためです


Generative Deep Learning 2nd Editionの概要
こんにちは、もっさんです。今回は、最近あんまりやってませんでしたが、気になる本を紹介する短い動画をやってみたいと思います。
直前に投稿した動画で、本読まなくなったよって言いときながら、いきなりなんだよって感じなんですが、
その動画作ってる途中で、改めて最近どういう本が出てるのかなって見てみると、これはちょっと注目だなっていう本があったので、紹介したいと思います。
先ほど言った、前回投稿した動画が、ChatGPTのせいで本読まなくなったよっていう話ですが、今回もある意味、ChatGPTとかのせせいあい絡みの本になります。
タイトルが、Generative Deep Learning 2nd Editionっていうものになっています。タイトルからわかる通り、第2版です。
この第2版が、今年2023年の5月にリリースされていますが、表紙を見る限りは、Early Accessの文字が消えているので、中身としては完成しているとみなして良いかと思います。
この最新の第2版に対して、第1版の方は2019年に出ています。この2019年の頃は、まだトランスフォーマーが出てくる前なのかな。少なくともこの本では代々的には扱っていません。
なので、主にオートエンドコーダーとか、ギャンといった、今とあったらちょっと古いかなという生成系の技術について語られています。
この2019年から4年ほど経って、生成系AIの進化がえげつないことになっているので、そこらへんのアップデートをしたのが、今回リリースされた第2版という形になっています。
書籍の構成なのですが、主に3パートで絡まっていて、第1パートが初心者向けの、そもそもディープランニングって何ぞやっている話が書かれています。
ここらへんは他の本で読んだ方がわかりやすいかと思います。そもそもこういう本を読む人はここらへんもわかっていたろうという話なので、あまり読み必要はないかなと思います。
第2版、パート2がこの生成AIを支える屋台骨となる技術、先ほどは音エンコーダーとかギャンとか言いましたが、そこらへんの技術ですね。
先ほどはそのギャンあたりで止まっていたのが、このリフュージョンモデルも含めて説明がされています。
この第2部、まだ私も読んでないので細かいことは言えないんですけども、パッと中身で見てすごく面白かったなと思ったのが、各章でそれぞれの技術について説明するんですけども、そもそきに
ちょっとした小話というか物語を挟んで、この技術ってこういう雰囲気だよっていうのをですね、説明してあげる。さらにはですね、その物語に応じた絵を提示してあげているわけですね。
これどういうことかというと、私以前にソフトウェアアーキテクチャーをわかりやすく学ぶための同人誌を作りまして、これの作り方がまさに同じだなと思っていて、
お便りにどういうことかというと、学びたいトピックがあったときに、まずそれを何らかのメタファーで表します。例えばこの場合だと、モノシックアーキテクチャーを堅牢な話、やや複雑さあるような
でかい城みたいな感じでですね、例えて、それでこのモノシックアーキテクチャーの特徴やデメリットみたいなところを、そのストーリーを通して説明するという本を書きました。この場合、この技術をどういうふうに例えるがいいみたいなのも、
Part1: ディープラーニングについての話
チャットGPTにしますし、さらにはですね、その例えた上でのストーリー作り、それもチャットGPTにお願いしてストーリーのテキストを出させます。さらにそのできたストーリーを表すような絵をミドジャーニンに書いてもらうことによって、もう生成アイだけ使ってこの技術のイメージをつかむことができるわけです。
で、この第2部のところではまさにそれをやっていて、各章ごとにこの技術がどういうイメージなのか、さらにはそれを表すミドジャーニンで書かせた絵っていうのが載ってて、それでイメージをつかんだ上で技術的な説明に入っていくっていう流れが、このオートエンゴーダークラディフュージョンモデルの3章から8章のところで全部なされています。
なのでライブ版に比べてもかなり読みやすくなってるんじゃないかなというところが期待されます。で、最後のパートであるアプリケーションのパートでは、注目ポイントとしては第9章のトラスフォーマーと書かれているところで、ここは具体的にはチャットGPTなどのいわゆるGPTモデルと呼ばれているものがどういうような形でトレーニングを受けているのかというところを技術的に解説します。
このチャットGPTのGPTって何かってなかなか説明できる人少ないかと思うんですけれども、まさにそこがわかるようになるっていうイメージです。
ちなみに一般的なGPTの訓練方法の説明に加えて、この正末の方ではチャットGPTでは具体的にどういうフローで学習をさせているのかという説明も書かれています。
このGPTの説明以外にも、GANでもいろいろ進化していますので、いろんなタイプのVID系のやつも含めて、様々なGANの紹介であったりだとか、あとは音楽の生成でどういうふうな形で生成させているのだとか、あとは一番最後のマルシモデルモデルの章なども結構注目かと思います。
その上で、個性性AIというワードはトレンドで、断片的に情報はいろいろ入ってくるかと思うんですけれども、そこら辺をモーナー的にまとめて学習できるという意味で、かなり注目の本じゃないかなと思います。
私もゴールデンウィーク中にがっつり読んでみたいなと思っています。
このGalatively Planning 2nd Editionを読む方法ですが、ちゃんと調べてないんだけども、直近ではオライリーのサブスクリプションに契約する必要があるかと思います。
もうちょっとすればAmazonとかでも読めるのかなとは思いますけれども、ちなみにオライリーサブスクの契約方法とか、そもそも使い方、あと英語読めなければ大丈夫みたいなところですね。
そういった情報に関しては、以前にオライリーのサブスクを全押しする記事を作ってますので、こちらの方を参考にしていただけると、雰囲気が上がるかなと思います。
以上、書籍の紹介でした。
06:44

コメント

スクロール