1. Image Cast - 技術・デザイン・制作・表現の雑談
  2. #263 🤗ベクトル埋め込みの世..
2026-02-21 37:50

#263 🤗ベクトル埋め込みの世界🤗

ImageClubのもくもく会を再開します!

それと、鉄塔が最近作り始めた写真管理アプリでベクトル埋め込みを使って楽しかったという話をしています。ベクトル埋め込みは機械学習で使われる手法なんですが、概念としてめちゃくちゃ面白いので紹介しています。

■参考リンク

{{REFERENCE_LINKS}}

■プロフィール

あずま
インターネットが好き。Image Club主宰。会社でエンジニア・デザイナーとして働いている。犬を飼っている。1991年生まれ。

鉄塔
工作が好き。フリーランスでエンジニアをやっている。猫を飼っている。1987年生まれ。

アートワーク: error403
クリエイター/イラストレーター。耳かきを外に持ち歩いている。


■Image Cast 刺繍スウェット好評販売中

Image Castのロゴが刺繍されたスウェットを作りました。刺繍っていいよね。

⁠https://imageclub.base.shop


■Discordやってます

ここから参加できます


■サポータープログラム

Image Castを持続可能なポッドキャストにするため、月2ドルからの支援を受け付けています。

特に役に立つコンテンツはありませんが、収録後の5分間(ぐらい)の気の抜けたアフタートークが聞けます。

二人を応援したい人はぜひよろしくお願いします。

https://www.patreon.com/imagecast


■おたよりはこちら

おたよりはこちらのメールフォームまで。

https://forms.gle/PbZcv4eNz5yhe86v9

メールは cast@image.club でも受け付けてます。

その他、Apple Podcastなどでレビューしてくれると大変励みになります!

Twitterのハッシュタグは #ImageCast です。


サマリー

今回のImage Castでは、Image Clubのもくもく会が再開されること、そして鉄塔さんが開発中の写真管理アプリにおけるベクトル埋め込み技術の活用について語られています。 鉄塔さんは、自宅サーバーを活用し、Adobeのクラウドサービスに依存せず、より柔軟に写真を管理できるアプリを開発中です。このアプリの核心となるのが、ベクトル埋め込み技術です。ベクトル埋め込みは、画像やテキストなどのデータを数値ベクトルとして表現し、それらの類似性を計算可能にする技術です。これにより、写真の内容や雰囲気に似た画像を検索したり、関連する写真をネットワーク状に表示したりすることが可能になります。 この技術を活用することで、ユーザーは大量の写真の中から直感的に目的の写真を見つけ出したり、予期せぬ繋がりを発見したりすることができます。鉄塔さんは、この技術を写真管理だけでなく、日記や音楽など、様々なデータに応用できる可能性についても言及し、AIとの協働による新しい体験の創出に期待を寄せています。また、開発中のアプリは、個人の好みに特化したカスタマイズが可能であり、将来的には公開も視野に入れているとのことです。

Image Clubのもくもく会再開のお知らせ
黙々会をします。
写真管理アプリを自分で作り始めたら、写真を見るのがめちゃくちゃ楽しくなりました。
Image Cast!
おはようございます、あずまです。
鉄塔です。
我々、Image Clubというですね、クラブ活動として活動をしておりまして。
そうだったんだ。
忘れてしまってますね、この本来の趣旨を。
そのクラブ活動をやっているImage ClubのImage Castというポッドキャストをやっているんですよ、我々。
そうなんですよ、実は。
主な活動は何かというと、土日に作りたいものを作るということをしているんですけど、
その活動が黙々会というですね、土曜日とか日曜日とかに集まって、黙々と各々作りたいものを作るというテーマでやっている活動がありまして、
とはいえ、何やかんや喋ったりとかしながらやっているんですけど、
それがもう子供を産まれてから全然できなくなっちゃって。
そうでしたね。
困っていたんですけど、最近ね、クロードコードとかのそういうコーディングエージェントツール系があまりに進化しすぎていて、
もしかしたら子供を見ながらでも自分が作りたいものを作るんじゃないかっていう。
はい。
これはね、マジで革命だなと思いまして。
そうですね、実際前やってみたら結構できていましたよね。
ぼちぼち進んでましたね。
ただとはいえ、子供を土日にね、子供をシェアアトリエみたいなところに連れてきて、
何人かいないとさすがに持たないんで、もう帰る帰るとか言い出すんで。
まあまあそりゃそうですよね。
はい。ということで、人を招いて他人を巻き込んで、
自分の育児の負担を他の人たちにちょっとずつ分担させながら黙々会をやるということを目論んでまして。
で、もう身内だけで集まるよりも、もうちょっと広げて集めようということで、
なんとイメージキャストのディスコートでですね、募集をかけておりますんで。
すごい、すごい来たらどうします?
すごい来ないと思うけど。
まあまあ、もしあれだったら最大3人ぐらいを上限にしようかなとは思ってますけど、
そんなめちゃ広会場なわけではないので。
はい。
まあやることとしては、もうただただそれぞれが作業をするというだけなんで、
パソコンでパソコン持ってきてくださいって感じですね。
そうですね。
パソコンじゃなくても絵描く人たら絵描く画材とかを持ってきてくださいって感じで。
はい。
という感じですね。
場所はですね、残念ながら東京の大島という場所ですので、
ちょっと東京になかなか来れないという方は申し訳ないんですけども、
この会が配信される次の日曜日ですね、やっておりますので、
もしよかったらご連絡ください。
はい、よろしくお願いします。
お願いします。
ちょっとね、最近ディスコードで声かけて人と会うっていうのをちょっとやってます。
おお、すごい。本当に人に会うってやってますね。
はい。
そうですね。
この間も紙切った後にちょっと2時間ぐらい時間があったんで、
誰か飲みに行きませんかって感じで、
軽く募集をかけて来てくださったんですよ、人たちが、人々が。
はい、すごい。
なかなかね、そういう、最近全くやんなくなった気がするけど。
そうですね。
ちょっとあの、工藤文子さんっていう働き者ラジオやってる方。
はいはいはい。
トロニーさんという、中トロラジオというラジオ、ポッドキャスターやってる方が来てくださって。
ポッドキャスターばっかりじゃん。
そうなんです。
くしくもなんか、ポッドキャスターのオフ会みたいになってしまったんで、
またなんか声かけた時は別にポッドキャスターやってる人じゃなくて全然いいので、
遊びに来てくれると嬉しいです。
ぜひ。
はい。これまた東京なんですけどね、どうせ。
うーん、まあね、そりゃしょうがない。
そうですね。僕らはもともと広島の田舎にいたんで、
こうやってなんかこうインターネットで起こることが大体東京だなっていうことに対して、
ムカつきを覚えてはいた。
なのでそれを再生産していることへの悔しさはある。
はい。
でも東京ってやっぱ人会えるからな。
まあそうですよね。
住んでるからには使わなきゃもったいないなと日書きなおっております。
はい。
はい。そんな感じ。
はい。
鉄塔さんの写真管理アプリ開発とベクトル埋め込み技術
私の話はおしまいです。
あ、本当ですか。
はい。
早かったな。
テッドさんが最近何作ってるのか教えてください。
はい。写真管理アプリを作ってるんですけど、
ライトルームみたいなものを作ってます。一言で言うと。
前話してましたよね。
あの、現像アプリもう2,3年したら作るかもみたいなことを。
はい。そうなんですよ。
2,3年じゃなかったですね。2,3週間でしたね。
え、2,3ヶ月だったかな。まあちょっと。
いやーちょっとね、今だったらどのぐらいできるのかなと思って調べ始めたら、
はい。
あれ、できそうじゃんってなって、
あ、いけんじゃんと。
はい。半分じゃないな。まあ1割か2割ぐらいですけど、できてきたかなっていう。
おーすごい。
そもそも動機としては、せっかく自宅サーバーを持ってるのに、
うん。
クラウドサーバーに接続して便利に写真管理したいみたいなことをやろうと思うと、
なんかアドビのクラウドに結局契約しないといけなくて、
で、それがなんか月に2,3千円かかってたりするの。
まあまあする。
みたいな。まあ僕の写真の量がちょっと2.5テラぐらいなので、全部入れると結構高いんですよ。
うん。
で、かといってちょっと一部しか入れなかったら、なんか全部一覧できるとか検索できるみたいなことがちょっとやりにくくなって、
なんだろうな、お金を払えば便利なんだけど払わなかったらまあ普通のソフトみたいな、
うん。
なんだろう、まあそれか、あの外付きハードディスクなりSSDにこうずっと入れて常に持ち歩くっていう。
うんうん。
もうそれで、まあ今は2.5テラだからいいけど、これから数年したらもうなんか数テラになっていくっていうのがわかってるんで。
はいはいはいはい。あのイメージキャストでも以前からよく出されているクラウドストレージ問題ですよね。
そうそうそうそう。で、それを気にして写真を撮るのもすごく嫌なんですよ。
やっぱそこ、そんなこと気にしてこれを撮る価値があるかなとか毎回考えてるのってすごい良くないことだと思ってるんで。
まあなんかね、人生の損失という感じはしますね。
そうですよね。じゃあJPEGで撮ったらって言われるけど、いやRAWで撮らないと写真じゃないとは思ってる。
私はそう、そこまでは思ってないですが。
RAWっていうのはすごく重いファイルなんですけど、
その代わり編集がすごく、まあなんだろうな、しやすいフォーマットで、まあいろいろメリットはあるんですよ。
ファイルのデータが重いってことは情報量が多いってことだからね。
そうですね。
残せる情報量は大いに越したことはないですからね。
そのわがままを叶えるために全部自分で作ったらいいじゃんっていうので、作り始めたら。
いや、来ましたね。
いやー、サーバー機能も作ってて、サーバーにいろいろ置いて、こっちはプレビューだけで編集まで全部一気通貫でできて、書き出しの時だけダウンロードしてくるみたいな。
しかも自宅サーバーだからめっちゃ早いっていう状況。
胸が熱くなるぜ。
ただ困ってるのは、アドビが準備してくれてる全てのカメラのプロファイルとかカラーマネージメントファイルを自分で作んなきゃいけないから、
ちょっとそこで大変、でも自分の持っているカメラのプロファイルだけ作ればいいんですけど、そこを今地道にやり始めているところなんですが。
プロファイルっていうのは何ですか?カメラの機種ごとの色の違いとか?
そうそうそうそう。カメラのカラー設定が10個ぐらいあって、どの設定で撮ったかによって色が変わるけど、その色の変換がどうであるかっていうのをソフト側が知ってないと表示した時に同じ色にならないんですよね。
っていうこととかレンズの歪みも同じような問題があって、歪み方を知ってるからこそ正しく表示できるみたいな。
なるほど。
細かいんですけど、そういうことに取り組みつつも、やっぱ写真を自分で管理する側にはすごく不満だったこともいっぱいあって、それをせっかくだから解決しようと思って。
いいね。
その一つが検索。Googleフォトって結構検索しやすいじゃないですか。
そうですね。地名とかで検索したらその場所で撮ったやつ出てきてくれたりとかするし、赤いリンゴとかだったら検索したら出てきますよね。
そうですよね。そのキーワードで写真を探すっていうことが、顔認識も賢いし、画像そのものを単語で探すみたいな機能がかなり長けているけど、
現像ソフトでそれが両立できているのってないんで、それを自分でやろうっていうことをやり始めてます。
すごい。
それがすっごい楽しくなってしまって。
実は見せてもらいました。TEDさんが作りかけているもの。さすがに久々にテンション上がりましたね、あれは。
いいですよね。単にキーワードで写真がバーッと出てくるだけじゃなくて、ちょっと仕組みを先に話そうかな。
そうですね。そもそもキーワードで検索して写真が出てくるっていうのが、いかにして実現されているのかっていうところですよね。
最近だったら、チャットGPTに画像を入れたら言葉で説明してくれるとかっていうのはあるはあると思うんですけど、
ぶっちゃけそれって、今写真が11万枚あるんですけど、11万枚の写真の中から全部見て探してっていうのは不可能なんですよ。
そうですね。
それで、網出されたアイディアがあって、オープンAIが出したクリップっていうモデルがあってですね。
そのモデルを使うと、写真であろうが言葉であろうが、すべて1個のベクトルで表現しますっていう。
ベクトル埋め込みのモデルですね。
それで変換すると、言葉と写真がどういう関連性があるか、もしくは写真と写真同士でもいいんですけど、
なんか雰囲気似てる写真だよなって、例えば青空の前に木がある写真と、別の青空の前に電柱がある写真が似てるっちゃ似てるんだけど、
この漢字を似てる度合いを数字で表すとどうなのか、みたいなことをベクトルで表現できてしまうっていう。
これ多分聞いてる人のうち、文系の人とかは、結構魔法の話を聞いてるみたいな感じに思ってしまっちゃってるんじゃないかなと思って。
それはまあいいんだけど、なんかベクトル埋め込みっていうものの面白さが、僕は最近ちょっと自分的に聞いてて、
それを知ってるとなんかよりいろんなことが面白い気がしてくれるんじゃないかっていうことが思ってまして、
だからそのクリップ以前の話のベクトル埋め込みって何ぞやみたいな話をちょっともうちょっと聞きたいなという感じですね。
ベクトル埋め込みの概念と応用例
でも例え話で言っちゃっていいのかな。僕も専門家じゃないので、ちょっとあんまり正確に言えるかわかんないですけど、
この前布団、布団じゃない、洗濯物をたたんでるときに、俺ベクトル埋め込みしてるなって思ったんですけど、
ちょっとわかんない。
洗濯をたたむときに、まず山になった洗濯物、何が何だかわかんないけど、タオルをたたんだらタオルのところに積んでいって、
バスタオルたたんだらタオルの横ぐらいに置くじゃないですか。
置くね。
で、服をたたんだら人ごとに何となく分けたりとか、で、パジャマはこっちの方とか言って、人ごとに違うけどパジャマは何となく左寄りに置いちゃうみたいな、
それ畳み終わったときには、
配置ができていくよね。
そう、マップみたいになるんですよ。
で、このマップがベクトル埋め込みです。
うわー、すごい高度な例えから入ってきた。
どう?
でもまあ、なんか、うん、わかってる感じはする。わかってる人が来たらすごい膝を打つ感じがする。
で、パジャマの近く、たとえこのパジャマっていうのを指差したら、それが僕のパジャマだったら、その近くに自分の服があったり、他の人のパジャマもあるかもしれなくて、
で、そういう、なんか、本来バラバラだったものが、位置関係でクラスタリングが自然にできてしまう。
これをめちゃめちゃ高度にやったのが、最近AIがやっているベクトル埋め込みっていうやつ。
ベクトルという言葉を聞いた段階で、もう難しいやつっていう感じになっちゃうと思うんですよ。
僕みたいな人間は。
場所ですよ。
そうなんですよ。場所というか座標というか、数字の束ですよね。
そうですね。
ベクトルって、3次元空間のベクトルだったら、Xが1でYが2でZが3の場所みたいな感じで座標指定ができると思うんですけど、それをいろんな、たとえば言葉だったら、
言葉の赤いとか青いとか、そういうものを、その言葉の、言葉を表現する、あ、もうだめだ、わからなくなってきた。優しく伝えるのが難しい。
いやー、まあでも、場所っていうので、もうだいたい伝わってるような気はするんですけど。
そうですね。言葉がめっちゃあるじゃないですか。
はい。
それを夜空の星みたいな感じで、いろんなところに配置していくと。そうすると、なんとなく近い概念のものは近くに配置されたりとかすることができると思うんですけど、そういうことをやってるのがベクトル埋め込みですね。
そうですね。
はい。で、実際はそれぞれの言葉に、たとえば512次元とかのベクトルが割り当てられてて、それはつまりその住所を示すための場所、XYZみたいなものが512個あって。
はい。
だからちょっと人間の脳では、ちょっと絵では想像できないんだけども、まあ住所が割り当てられると。
そうですね。
何番地何号みたいな感じで。
なんか赤いと青いとかはすごく遠いっちゃ遠いけど、その色を示しているって意味では近いとか、そういうすっごいさまざまな指標の中で、近さ遠さっていうのを表現するにはすごくたくさんの次元、指標って言ったほうがいいかもしれないですね。
そうですね。
が必要で、それが今は512とか1000とかぐらいが使われてますね。
これってなんかめっちゃ面白いアイディアがいろいろ作れるよなっていう、あらゆる物事について近さを計算することができるわけですよね。
そうなんですよね。しかもその計算がめちゃくちゃ早くできるっていうのも特徴の一つなんで、大量にあるものを検索するときとか、組み合わせを最適にするみたいなときにもすごい使えるんですよね。
そうですね。ということで、クリップの話に戻すと、さっきのベクトル埋め込みは言葉の住所が分かるという、割り当てられるという感じだったんですけど、クリップだと言葉と画像が全部一緒くたになるんですよね。
そうなんですよね。不思議なことに。
言葉の住所と画像の住所が同じ形式で扱えると、それがやばいところ。
そう。だからUNOとトランプがバーって散らばってて、UNOのさんとトランプのさんが同じ場所に配置されている。UNOとトランプだったらまだ似てるからあれだけど、言葉と写真でそれができちゃうっていう。
そうですよね。だから犬の写真と犬という言葉が近くに割り当てられると。
そうですね。
この画像とこの言葉はどれぐらい近いかっていうことが計算できるようになっちゃう。
ちょっとモデルをいろいろ実験してるときに、LINEが公開してるやつがあったんですよ。
で、LINEはなんでそれ作ったのかなと思って調べてみたら、なんか検索、ヤフーとかフリマあるじゃないですか、ヤフーフリマだっけ。
あれとかで実は内部で使ってるらしくて、赤いワンピースで検索したら、ワインレッドのドレスも出てきてほしい。
はいはいはい。
で、そのワインレッドのドレスって単語としては何もかぶってないけど、赤いワンピースと結構近い概念だったりするっていうので、
言葉同士も近いっていうのは判定できるし、ダイレクトに画像の近さっていうことも判定できるから、
それで検索するときに、こう思い描いていたぽわわわーんってなってる状態で検索できる。
だからもう言葉がビタッとマッチしてなかったとしても、それが指し示している住所が近ければ、それが出てくるっていうことですね。
すごいですよね。で、この住所を使って、ただ調べるだけじゃなくて、写真に、今見ている写真に、なんかイメージとして近いものを、
こうパッとすぐ一覧表示できたら楽しいんじゃないかと思って、それを僕の写真アプリの中にちょっと組み込んでみたらめちゃくちゃ良かったんですよね。
いやー見せてもらいましたね。あれめっちゃすごかったですね。
いやーなんか、まずちょっとテッドで調べたらテッドの写真が大量に出てくるんですけど、
テッドの写真いっぱい撮ってるからね。
で、それでなんか夕日のテッドの写真をクイックして、で、Vっていうボタンを押すと、そうするとその写真が真ん中に出てきて、
似た写真がバーって散らばって似てる順に、こう散らばって線で繋がってるみたいなインターフェースを作ったんですね。
だからその時系列で並ぶとかじゃなくて、ネットワーク的に似てるものがより優れて、過去のから最近のまでテッドの写真で似てるものが近くに出てくるっていう。
そうそうそうそう。で、それでそのもちろんその写真の前後の時系列順のやつも表示しつつ、近い概念のやつと、
あとGPS的に近いけど、必ずしも最近、タイミング的に近くはない写真とかもいろいろ集めて表示するようにしたんですよ。
そしたら、前にそこに行った時の写真とかも出てくるし、なんか同じような光景を見た全然関係ないタイミングの、
場所もタイミングも関係ない写真も出てくるっていうので、で、それをダブルクリックするとまたそいつが中心になって、
新しい写真から似ている写真がバーっと散りばめられて、で、そうやってどんどん辿っていくことができるんですよね。
いや、これベクトル埋め込みの面白さですよね。これは前の前の回、ゲスト回でバックさんが作っていた、
モノノアーレのカムカムしかもリノーモカムのミュージックビデオでも使われていたものと、根本的なところは近いというか。
そうですね。
あれではユニコードの文字をいろんな軸で散りばめて、その間を繋いでいくみたいなことをされていましたけど、
はい。
今回これはもう写真の間をいろいろ渡り歩いていくということですね。
そうですね。写真だとジオタグがあったりとか、あと顔認識、もうこれはこれで別のAIというかモデルを使って、
顔認識ももうつけてるんですか。
そうそうそう。実装して、しかもライトルームより顔の対応付けをすごい簡単にできるインターフェースとかも作って、めっちゃ良くなってきたんですけど。
めっちゃいいっすね。
はい。めっちゃ便利なんですよ。
そういうのって、なんとなくそういうビッグテック的なところしかできないものだと思ってました。
意外とオープンになっているモデルが十分性能が良いっていうのがあって、できちゃうんですよね。
こればかりはすごいですね。研究してくれた人たちに感謝ですね。
本当そうですね。
これを独占せずに公開するということになっているのが信じられないですね。
そうですね。どうしてって思いながら。
素直に疑問ですね。
ハギングフェイスっていう変なサイトがあって、変っていうか。
写真管理アプリへのベクトル埋め込みの実装と可能性
変なサイトがね。
知ってます?
もちろん。モデルをアップロードできるサイトですね。
最初、何この怪しいサイトみたいな。
怪しいですよね。ハギングフェイスっていう。名前もなんか。
なんか変な笑顔にこにこしてる顔の絵文字がポンってあって、そっから何百メガもあるモデルをダウンロードするのがなんか怖いなと思って。
ウイルスとか入ってんじゃないかみたいな。
機械学習とかその辺にまつわるデータをみんながアップしてる場所とか、ギットハブみたいな雰囲気の場所ではあるんですけど。
AIのモデルを上げるところとしてはかなり主流の立場。いつの間にか。
そこから落としてきて、いろんなモデルを試して、なんかめっちゃチグハグな結果になったりとか、めっちゃ精度が高くなったりとか。
日本語で精度が高いモデルっていうのが少ないから、なんかそういうのは色々調べながら実装したんですけど。
それで写真の近さっていうのは見た目の近さもあるし、ジオタグの近さ、もちろんタイミングの近さと、顔写ってる人が誰なのかっていう意味での近さ。
こういう多次元的な近さの定義っていうのを自分で設計して、それをたぐり寄せるっていう思い出し方を設計するみたいな感じかな。
やっぱこう、写真って結構日記みたいな性質があると思うんですけど、ずっと撮って貯めてるけど、でもそれを振り返るときに写真があんまり大量にあっても、ただ積んであるだけになりがちというか。
で、アルバムにするのも大変だしっていう。そこを一気に解決して、今11万枚ある写真をなんていうか、マイニングしたいなと思って。
採掘。
採掘ですね。データマイニングっていう言葉があると思うんですけど、それ大量な、最近言わなくなったけど、何でしたっけ、ビッグデータ。
ビッグデータをいろんな手法で解析して、何か意味のある情報を生み出すんだみたいな。
データサイエンティスト的な仕事ですよね。
それをもっとライトに直感でたぐり寄せて楽しいっていうのをやるためのソフトっていうのをちょっと目指してて。
めっちゃいいな。
いいんですよ。
これはすごいですね。
前にフォトストレージ問題という、哲学としてのストレージ問題みたいなことを言ってたんですけど、その時に僕が言ってたのが、
例えばこの時覚えてますかみたいな、1年前のこの日みたいなのとかでポップアップしてくるGoogleフォトとか、写真のそういうサービスのやつとかあるじゃないですか、おすすめの写真みたいな。
ああいうので選ばれる写真って、何となくいい写真っていうものが向こう側で定義されていて、それに沿ったものが出てくるっていう、顔がたくさん写ってるとか笑顔が多いとか、
何となくちょっとエモい感じとか、はっきり被写体が写ってるみたいな、だったりとかすると思うんですけど、
それって引っ張り出されてくる過去の自分の写真がそういうフィルターを通り抜けて集められて呼び出されるわけじゃないですか。
マイニングのルートがもう決まっちゃってるというか。
人が設計した方法で自分の記憶を勝手に思い出されている感じ。
そうそうそうそう。そこが向こう側のサービス側の思想にロックされちゃってるので、
自分の人生をその価値観で埋められてしまうというか、ちょっと大げさな言い方かもしれないですけど、そういうのはちょっとあるなっていう。
いや、でもそうですよ。かといって便利だし、なんかそれを自分で作れるかっていうと作れないと思ってたんですけど、
いや、作ってみるとこれこそが幸せかもしれない。それはちょっと言い過ぎだけど。
そうですよね。その笑顔が多いとかそうじゃなくて、自分でその近さを設計することができるという軸を自分で決めれるっていうのは。
自分の記憶を自分でハンドリングしている。今までできてなかったんだって思いましたね。その感覚ですね。
いやー、っていうので、まあちょっと現像機能がなかなか大変なので、まだ途中道半ばなんですけど、その楽しい部分だけ先に作って、
こうなんていうか写真を手繰り寄せて遊んでますが、もうちょっと実装を進めていって、
それこそLLMというか、チャットボットと繋いで大量の写真と会話をするみたいな、そういう感じのチャットボットが作れたら、
それで会話していくと、その時の写真がどういう写真だったかっていう情報が逆にLLM経由で自分から引っ張り出されて、
さらにそれが写真のメタデータに紐づくようになっていくっていう。
なんかすごいことになってるぞ。
そうすると、もはや言葉と写真っていうのは並列に扱うプラットフォームになるかもしれなくて、
それで言葉で喋ったこととか書いたこととか、それと写真がどんどん紐づいて、検索性も上がるし、
ただの写真の羅列だったものに一本の意味が、なんていうか、見出されるヒントになっていくんじゃないかっていう。
結構ね、写真ってそれだけだと後になると思い出せなくなる情報が結構あって、
なんでこれ撮ったんだろうみたいな。
そういうのも、なんかどんどん写真と並列な概念として取り込んでいけたらいいかなっていうのはちょっと思ってますね。
いや、すごいですね。マルチモーダル化っていうか、写真の。
もちろん映像もやりたいんですけど、映像がちょっとね、ハンドリングが重すぎてちょっと後回しになってますね。
いやでもなんかその写真だけ撮ってみても、写真家の人とかが写真集作るときにやるのって、
多分その大量に撮った写真の中から1個の文脈を作るというか、写真集はもう1個の本で1個もう順番が決まっちゃうわけじゃないですか。
その中で一番作品としていい順番を自分で見つけ出すみたいなことだと思うんです。
寄り抜いたりとか並べ替えたりとかしながら。そういうのの道具としてもなんかすごいいい感じはしますね。
繋がりを作っていく、自分で繋がりを導き出していくためのツールというか。
そうですね。ちょっとまだ繋がりを見つけ出すための手がかりをもうちょっと増やしたいなと思ってるんで。
なんていうか、絵的にも似てないし場所も時間も違うけど、ここで引き出されてきたら面白いだろうなっていうものを、
なんていうか、引っ張ってくるためのヒントみたいなもの。
で、次にもう1個やりたいのはLLMで片っ端から全てに長文のデスクリプションをつけて、
そうすると言語的なトンチで写真を引っ張ってくることができるかもしれない。
トンチで。
トンチっていうか言葉遊びでもいいし。
連想ゲームみたいなね。
これも試算してみたらAPI使用料が数千円以内で全部の写真を片っ端から説明できそうだったんで。
そんなでいけるんだ。
Googleのジェミニフラッシュだっけ?みたいなちょっと軽量のモデルを使うと。
軽めのソフトで。
そうやってとにかく写真をハンドリングする取っ手をいろんなところからつけて、
その取っ手に引っかかりながらガチャガチャチェーンのように出てくるっていう。
激アツっすね。
これはね。
LLMに勝手に写真を語らせるっていうのがテッドさんっぽいなというか、
そこにもはや自分の意思は自分の思ったのと全く一緒じゃなくてもいいっていうところが、
前に作られてたAI嘘日記にもちょっと近しいところがあって、
あれも自分が撮った写真から勝手に絵日記を適当に生成してくれてそれを楽しむっていうやつじゃないですか。
これをこういうふうに説明するんだみたいな面白さがあるから、
それでもって勝手に自分が思ってもみなかったつながりを勝手に作っていっちゃうみたいなのは熱いなと思いますね。
そうですね。なんか自分の知らない良さに身を委ねるというか、
なんか本当に自分自身の賢さにそんなに期待してないので、
それ以上の何か大いなるものが何をおっしゃるのだろうかみたいなぐらいの感じでちょっとやってますね。
AIを進化化している。
進化そうですね。少なくとも超えられないものはあるんで。
こいつから見たら俺ってこういうふうに見えてるのかみたいな。
そうそうそうそう。っていうのがね。ただプロンプトも色々調整しないといけないですけど、
自分に完全に特化した写真アプリだから、
なんか鉄塔だけはどんなに小さく写っててもちゃんと検索で引っかかるみたいなこととか、
猫の顔認識を頑張るとか。
いいですね。
犬はあんまり研修ぐらいしか出てこないけど、
猫はどこどこの何々くんみたいなことを言うと出てくるみたいなところができたら最高だなと思うんですけど。
いいですね。万人のためのものじゃなくて、本当に自分の癖というか、それに合ったAIを作るみたいな。
そうなんですよね。っていう取り組みをしていて。
ベクトル埋め込み技術のさらなる応用と展望
いやでもこれ公開するつもりはあんまなかったけど、結構みんな面白いっていうから、
なんか使えるようにした方がいいのかな。
いやでもなんか良かったですね。普通に見て面白いし、あのUIも良かったですね。
その横軸で時系列でずらって並んでるけど、
どれかを選択するとその周辺に放射状に関連する写真がバッて集まってくるみたいな。
あれは何で作ったんですか?
これを作ったフレームワークはTrust Cというフレームワークで作っております。もちろんですよ。
そのTrust Cはどなたが作られてるんですか?
僕ですね。
すげー。自家発電だ。
そうですね。フレームワークを作ると作れるものがいっぱい思いついて、
なんか自分の手足がめちゃくちゃ伸びたような感覚ですね。
へー。
すごい。そのフレームワークだけを純粋に磨いていく感じかなと思ったけど、
自分でも全然いけちゃうんですね。
そうですね。そうやってる間にどんどんフレームワークも洗練されていくというか、
いいサイクルが。
そうですね。
ちゃんとドックフーディングが回ってる感じがしますね。
なんか100万個ぐらい丸を表示したら急に落ちるみたいな。
ジオタグの100万個じゃないな、数万個の丸を地図上にバッて写真の丸の位置を表示しようと思ったら、
最初は表示できたのに途中から表示できなくなって、
これ限界があるんだみたいな。
その数の限界を最適化したりいろいろして回避したりとか。
すごい。
結構タフなツールになってきてますね。
いいですね。
ちゃんと自分でバグを踏みながら直していくという。
なんか、なんだろうな。
とにかく楽しくて、仕事しながらもうちょっと画面の端っこに1個はコマンドライン出してて、
そのコマンドラインで写真管理ツールを。
同時並行で。
そうそうそう。
今日は5つぐらい開いて同時に仕事をしてたんですけど、
そのうち1個写真で、なんだかんだそっち見ちゃうんですよね。
ダメだ、こんなこと言わない方がいいよ。
そうやって育ててるんで、そのうち公開するかもしれないし、
公開したとしても、
テッドウにだけやたら敏感な検索結果が出てくるみたいな癖はたぶん残ると思うんで。
そんな汎用的には作らないという。
そうですね。
あと怖いのが、写真管理アプリって何か問題があって、写真が失われたときにどうしようみたいなのがあって、
そこら辺のお遊びツールとちょっと責任の重さが違うなっていうのが。
確かにな。思い出が消えるっていうのはもう、財産、お金では取り返しがつかないんですよ。
そうなんですよね。
僕も慎重にバックアップをめっちゃとってやってますけど。
そこも完全に自己責任でいけるからの。
そうですね。
からこその強さはありますね。
最悪、自分が困るだけだからこそやってるけど。
いやー、ドキドキしてますね。
いやー、でもほんとちゃんと作り込まれてて、スクロールとかもすごい早くて、
シャーっと次々に画像が出てて、全然隠せたりとかもしなかったし、
めちゃめちゃちゃんとクオリティ高いものができててすごいなと思いました。
それはもうトラスシーの力がね、強いからっていうのもあるし。
あとなんか昔、アンドロイドの開発したときに、
リサイクルドビューみたいな概念とか、
無限にスクロールできる系のやつが何でメモリを食って死なないのかみたいな、
そういう仕組みとかをなんか見たことがあって。
はいはいはい。
スクロールすると10万枚の写真がサムネイルで出てくるんですけど、
その表示されているエリア以外をどういう風に節約したらパソコンにとって優しいというか、
高速で動くかみたいな。
その辺をなんか苦しめられたことがあって、最適化頑張りましたね。
ちゃんと経験が生きてる。
AIだけだととりあえず動くものは作るけど、結構手抜きするんですよね。
AIだけで作ると。
ここはきちんとした設計にしないと後々絶対困るから、
こういうパターンでやってみたいなことを意思を持って言っていくっていうのは結構重要だなと思いますね。
いいですね。
これは黙々かい来てくれた人は多分見れるんで。
そしたら欲しかったらあげます。
危ないツールですけどね。
危ないツール、危険なツールなんで。
ちゃんとバックアップは取って試してください。
そうですね。
って感じですね。
面白かった。
ベクトルウメコミは何回も言いますけど、
これ世の中で使われてたりとかして、
まだまだ全然面白いものが作れる余地がありそうだなという感じがしてはいるんですよね。
そうですね。
例えば自分が書いた日記をベクトルの海の中に放流したら、
その近くに漂ってる別の人の全然違う日の日記が返ってくるみたいなのができたら面白そうだし。
面白いですね。
非公開の日記だけど似たベクトルの日記を書いた人にだけは公開されるっていうシステムとかどうかな。
それいいですね。
そしたら炎上とかはしないけど、響く人には響くっていう変なものができるかも。
どういう観点で近いのかみたいなのが、説明がつかないけどなんとなく近いみたいなものが。
そうなんですよね。
この512次元みたいな軸が何の軸なのかっていうことが人間にはわかんないっていうのが面白いですね。
本当ですよね。
人間が考えてクラスチャイニングするとたぶん重複とか。
何か言葉で表現できる軸を模型するしかなくなっちゃうじゃないですか。
でもそうではないっていうね。
AIにとってはそうではないから。
案外人間の脳みその中も直接見るとそんなもんかなっていう気はしますけどね。
実際に人間が使う言葉だったりとか画像のキャプションだったりとかを大量に集めてモデルに学習させたものだから、そうではあるんですよねたぶん。
人間の脳から吐き出されてきたものを言葉による明示的な軸以外のものでより集めるとこうなりましたみたいな感じなんで。
自分で使うとその面白みがよりわかりますね。
いやすごいな。しかも使えるもんなんですね普通に。
そうですね。でも結構AIに使ってもらったというか、クロードコードに書いてもらった部分は大量にありますけど、楽しいですね。
何回か前はAI学習して楽しいって言ってましたけど、
学習の以前にそもそも良いモデルたくさん転がってるから、一旦そっちが楽しいっていうのをやっていこうと。
まあどっちも並行して楽しめたらいいと思うんですけど。
いやいいな。音楽もちょっと気になる。音楽というか音声。音声のベクトル埋め込みもちょっと気になってますね。
ああいうのはよく音楽のプレイリストのサジェストとかあるじゃないですか。
1個再生するとそれに近い曲が次々流れてくるみたいな。ああいうのに使われてるっぽくて。
そういうサジェスト機能とかディスカバリー機能みたいな。
ああいうので事前に音楽の曲をいろんなベクトル埋め込みをして、それに近い曲を引っ張ってくるみたいなことをしてるみたいですね。
何でもできるんですね。データとして表現できるものは何でもベクトルになるっていう魔法だな。
クリップの音声版のCLAPっていうモデルがあるらしくて。
それがテキストと音声を同じ埋め込み空間に入れられるっていう。
なるほど。
それは多分音声生成AIとかで多分使われると思うんですよね。
言葉で表現したものが音楽になるっていう。
それもちょっと混ぜてみようかな。
写真管理アプリ以上の何かが生まれるような気がするの。
どうしたらいいんだ。写真見たら音楽流れてくるのかな。
音楽聞きながら写真が出てくるのかな。
ちょっと分かんないけど。
分かんないですね。写真を言葉にまず翻訳して、この言葉から音声が来てくる。
そんなもんですかね。
それじゃあ、こういう告知とかもちょこちょこDiscordでやってますんで、
もしよかったらDiscord入ってください。
よろしくお願いします。
よろしくお願いします。
それでは皆さん、さよなら。
さよなら。
37:50

コメント

スクロール