最近勉強してること、AIが中で何をしているのか～その3～

音声ファイル情報

HsIevP6mNe1H8WrlEXDEYYLviAW3HNZ7JUUv0Mhb_normalized.mp3

Duration:	06:35
File Size:	3163629 bytes
Codec:	mp3
Channels:	1 (mono)
Sample Rate:	48000 Hz
Bit Rate:	64000 bps
Integrated Loudness:	-15.58 LUFS
True Peak:	-1.00 dB
Loudness Range:	4.70 LU
Integrated Loudness (original):	-16.30 LUFS
True Peak (original):	-0.46 dB
Loudness Range (original):	5.60 LU

畳み込み、再帰的ニューラルネットワークをちょっとだけ紹介

00:01

はい、今学んでいるAIについての回3本目ですね。

ここからなんですけれど、前回の全結合想ニューラルネットワークという一番シンプルで一番最初に勉強するやつから、

もうちょっと実用されている機械学習の処理についてご紹介するだけに留めようかなと思います。

というのも、これを音声で説明しきるのはちょっと不可能だなと思ったので、皆さんの興味のきっかけとか、検索ワードを知れるだけでも、

自分でGoogleで調べたりとかできるきっかけになるかなと思ったので、シェアという感じで紹介したいと思います。

この1から1,2,3本目まで喋っている内容はほぼ全て、

オライディジャパンという出版社のゼロから作るディープラーニングというシリーズがあるんですけれども、

それの1から3から得た知識を噛み砕いて喋っております。

ちょっと難しいかもしれないので、プログラミング経験者の方はぜひ手に取っていただけると、

メルカリとかでも買えるのでいいかなと思います。

今使われているものというのが、まず畳み込みニューラルネットワークという、

画像処理とかによく使われるニューラルネットワークの種類があります。

機械化している種類です。

それは前回まで話していた全血合相ニューラルネットワークの弱点を補うためでもあるんです。

その全血合相ニューラルネットワークの弱点というのは、

前回引き上げていた28×28のピクセルの画像データ、

前回724合計と言っていたんですけど、784ピクセルの白か黒かグレーなのかみたいな値、

0から1の範囲で示されているデータを一番最初に入力するという話。

ニューラルネットワークの図でいうと、一番左の丸が784個あると。

一番右の丸は10個だと。

真ん中の確率は自分で設定していいんですけど、数を決めていいんですけれども。

03:02

この方法だとピクセル同士の位置関係という情報は全く計算に取れないんですよね。

反映できない。

画像ってその隣のピクセルとか近いピクセルとか遠いピクセルとかすごく重要な情報だと思うんですけれども、

それが取れないので、畳込みニューラルネットワークというものを使おうじゃないかという経緯があるそうですね。

これは結構前、2000年代とかですね。めっちゃ前ですよね。

それは28×28の画像に対してフィルターみたいなものを適用するんですね。

ちっちゃめの10×10とかのやつ。

その10×10のフィルターには合計100個ですね。

ランダムな掛け算するためのパラメーターを最初に盛り上げてですね。

それらを画像の左上から順々に掛け合わせていくと。

28×28のピクセルの場合だと27の大きさ以下のフィルターとかを当てるんです。

10とかね。

で、足し算もして次の層に渡していくみたいな。

ちょっと概要だけに留めますけれども、これは視覚的に見た方がわかりやすいかなと思うので、

概要欄の動画をぜひご覧ください。

今度は言語モデルとかの話、言語系の生成AIとかの話になってくると、

今度はね、全血合相って時系列のデータが取れないんですよね。

例えば、I am a catっていう文章を撮影したいとしても、

I am aっていう先に生成した一つ前とか二つ前の生成結果っていうのを

次の生成結果に反映できないという問題があります。

それをカバーするために考えられたのが、

再起的ニューラルネットワークという、

recurrent neural network RNNっていう言葉で、

ちょっとすいません、全文用語言われるんですけれど、

それは今言った弱点をそのまま置きながらに、

前の出力を次の出力に引き継ぐ、計算に含めちゃうみたいな感じですね。

06:01

で、最近、AI界隈に入るトランスフォーマーという種類の機械学習のモデルがありまして、

それらはさらに発展して畳み込みと再起を捨てて、

アテンションという原理で計算していると。

理由は処理を並列化できるためっていうことなんですけど、

ちょっと時間が来たので一旦聞きます。

音声ファイル情報

スター

エピソードをシェアする

メッセージを送信

Takuma

スター

コメント

こちらもおすすめ