2022-09-17 45:13

#102 防音マイクmutalk開発秘話と、画像生成AIと超える想像力の限界

ガジェット好きの話題をかっさらった防音Bluetoothマイク、mutalkのプロトタイプ開発に鉄塔さんが関わっていたらしいので話を聞いてみました。画像生成AIのStableDiffusionを試してみた感想について話しました。


■参考リンク

mutalk - 株式会社Shiftall
https://ja.shiftall.net/products/mutalk

叫んでも周囲に声が漏れないBluetoothマイク「mutalk」量産版公開 - AV Watch
https://av.watch.impress.co.jp/docs/news/1436949.html

TONTON展示の様子
https://twitter.com/tettou771/status/1565939731485294592

GitHub - CompVis/stable-diffusion: A latent text-to-image diffusion model
https://github.com/CompVis/stable-diffusion

話題のStable Diffusionがオープンソース化されたのでローカルで動かしてみる
https://zenn.dev/koyoarai_/articles/02f3ed864c6127bb2049

GitHub - lowfuel/progrock-stable: Stable Diffusion with some Proggy Enhancements
https://github.com/lowfuel/progrock-stable


■サポータープログラム

Image Castを持続可能なポッドキャストにするため、月3ドルからの支援を受け付けています。

サポーターの方はあずまによる近況報告や次回予告、収録のこぼれ話、特に意味のない写真などが毎週届きます。

二人を応援したい人はぜひよろしくお願いします。

https://www.patreon.com/imagecast

■だいたい読まれるおたよりはこちら

おたよりはこちらのメールフォームまで。

https://forms.gle/PbZcv4eNz5yhe86v9

メールは cast@image.club でも受け付けてます。

その他、Apple Podcastなどでレビューしてくれると大変励みになります!

Twitterのハッシュタグは #ImageCast です。エゴサしてます。

00:00
最近ちょっと気になってるプロダクトが出てまして
ミュートークっていうんですかね
なんていうのかな
ミュートーク
マイクなんだけど、防音ブルートゥースマイクっていう感じなのかな
口にカポッとつけるような感じになってて
外からの騒音とかが入らなくて
かつ、こっちからめっちゃでかい音で喋ったりとか叫んだりとかしてても
外に音が漏れないみたいな製品が
1週間前ぐらいに出てたんですよね
それがね、なんかめっちゃ良さげやんと思って
確かに
結構家で、例えば夜中とか子供が寝てるとか
普通に家族とかにそんなにいろいろ喋ってるの聞かれたくないとか
結構あるんで
それをクリアできるめっちゃ画期的なプロダクトだなと思ってるんですけど
ジェットさんこれ知ってます?
わざわざらしいですね
はい、知ってますね
知ってるんですか?
はい
何で知ったんですか?
しばらく前にそのようなものを開発したいという依頼があって
主作品の段階でお手伝いしたという
関わってんなぁ
ジェットさんマジなんでも関わってんだから
そんなことないですけど
そういうのないよなとは思ってたけど
結構冗談みたいな感じがしたんで
またちょっと面白いプロダクトを作る話かなっていうのに
最初はちょっと取り組み始めたようなものだったんですけど
僕、マジで知らなくて
ジェットさんがそれやってたことを
あのニュースで見てはいいなって思ってたら
ジェットさんがこれ実は最初やってましたみたいな
マジかって思ったんですけど
そうですね
じゃあ今日はそのMute Talkのあたりの話から入ってみようと思います
はい
それじゃあ行きましょう
今週のイメージキャスト
9月17日土曜日の朝になりました
おはようございます、アズマです
てっとーです
イメージキャストは個人で物を作る人の集まり
イメージクラブとして活動しているアズマとてっとーが
自宅からお送りするポッドキャストです
技術、デザイン、制作、表現なのに
関係のあるような悩みなトピックを中心に
毎週2人が気になったもの、発見したことを
それぞれ持ち寄っておしゃべりします
いやーでも
りょうさんまで漕ぎ付けられるかどうかっていうのは
初期の段階ではわからなかったので
てっとーさんがやってるのは
割と初期プロトタイプみたいな感じですかね
そうですね
なのでちゃんと日の目を見るっていうことが
なかなか試作品で関わっていても
そういうことってあまりないんですけど
そうなんだ
途中で話としてなくなっちゃったりとか
とりあえず試作品で満足して
なるほどこういう感じかって言って
次の試作に移るとか
03:01
はいはいはいはい
それがいいねって言って
本当にりょうさんに漕ぎ付けるっていうのは
本当に少数なんで
そうですよね
結構リスクですもんねだって
何百万とかかかるじゃないですか作るのに
その作るだけでも
いやーもうそういうところじゃないね
金型だけで何百万とかそういうレベルだから
実際のりょうさんの
プロセスを回していこうと思うと
ちょっと想像できないけど
すごい金が
時間も
でしかも価格19,900円っていう
意外に安い
意外にこういうタイプの
プロダクトとしては安いなっていうのは
そうですね
なんかこういう実験的で
数もめちゃくちゃ出るわけじゃないだろうなっていう
超大量生産ではなさそうなもので
まあよくクラウドファンディングとかで
お金集めて作るとかだったら
こんな安くはなんない
そうですよね
ちょっとまあ中の構造も
ただのマイクじゃなくて
小音数ために色々複雑な構造してるはずなので
そうなんですね
あのりょうさん品を僕の目で見てはないんですけど
まあリリースの写真とか見てると
ちゃんと防音設計はされている状態で
りょうさんに漕ぎ付けているというのが
わかったのでなんか
すごいなと思って
すごいなってなんか
自分がやったの自分がやってないような
人事みたいな感じで言ってますけど
人事のようなちょっと
自分がやったっていうのは
まあ本当試作の段階なので
まありょうさんに至るまでの苦労っていうのは
相当あるあっただろうなぁと
思いますね
すごい
なんかちらっと聞いたんですけど
そのりょうさんに入る前に
なんでこんな複雑なんだみたいな
ああもうなんかもう文句が出たぐらいの
いやでもこれは意味があってみたいな
ちょっとこうそういう声もなんかあったり
ちゃんと防音のためにこうなってる必要があるんですよっていう
そうですね
なんか車のマフラーとかを参考にはしたりしてるんですけど
まあ声を出すってことは
空気が通らないといけないから
穴があるんですけど
空気が通りやすいっていうのと
音を防ぐっていうのは結構矛盾していることではあるので
そうですね
それをなんとかするっていう
確かに密閉しちゃうとね
もう声出せなくなっちゃうしなぁ
そうなんですよ
でも密閉はしたいんだけどなぁ
なるべく穴を小さくして
でも限界まで小さくしても結構漏れるから
なんかこう部屋がたくさんあって
何個も何個もこう穴を通った部屋があって
また穴を通った部屋があってみたいな構造になってて
最後にちゃんと空気が抜けるんですけど
そういう感じの構造ですね
すごいな
結構ちゃんとしてますね
そうですね
ちょっと最初のスタディで
結構小音期っていうか
カラオケを家で練習できるように
06:01
口にカバーをつけれるっていうのが
実はあるんですよ
でAmazonで色々買って
結構買いまくってあるやつ全部
でデシベル系を買って
だいたい同じくらいの声で
あ〜って塞いでいって
あれ?大してデシベル下がらないなぁ
っていうのばっかりだったんですよね
そんなにちゃんと防音できてはないんだ
そうそう
一つも参考にならなかったです
(笑)
車のマフラーぐらいしかってことですよね
そうですね
逆に言うと参考にならないぐらいのものしかないから
これは確かに競合製品はないなぁっていうのは
いけんぞと
その時は感じました
へぇ〜
まぁ最初は冗談っぽいなと思いながらも
冗談でも割と本気でというか
真面目に作るので
結果的にはいけそうなやり方が見つかったから
その時は嬉しかったですね
う〜ん
いやすごいな
そういうところをモテるとさやってたんですね
そうですね
小の仕組みに関しては
色んな形のものを作って
こういうことだったらいけるのかなみたいな
お〜
理論も参考にしながら
結構実験的なアプローチに近かったですけどね
そんなこともしてるんだ
ある時は構造上の都合で
めちゃくちゃ重たいものになったりとか
そして
これはちょっとずっと持って使えないだろうっていう
うん
あれですよね
口にカポってつけるやつですもんね
そうそう
で重くなった割に効果がない工夫とか
なんかそんな重さはないけど
結構効果がある工夫とか
ああ
結構トライ&エラーを繰り返してできてるんですね
そうですね面白かったですね
う〜ん
はははは
なんかあれですよね
その量産品の音声の比較テストみたいな
動画も上がってるんですけど
結構ちゃんとね
音ちっちゃくなってる感じでしたね
そうですね
まあ音が消えますよとだけ書けば
普通はなんか製品としても
まあ消えるって言ってもこんなもんでしょ
みたいなのが多かったけど
それをちゃんとね
何デシベル減るみたいなのをちゃんと書いてましたよね
いや〜なんか嬉しいですね
ちゃんとその効果がこう
振り込む道具になるというか
うん
まあちょっと喉から出る音とか
なんか口から以外のところからも出る音があるので
まあゼロにするっていう
こうコンセプトではないんじゃないんですけど
うんうんうん
まあでも小さくなるだけでもかなり
なんだろうな気にならなさっていうと
気になってたものが気にならなくなるっていう
うん
くらいの効果はあるだろうなと思いますね
あると思いますね
ただただその結構ボトルネックだなと思ったのが
はいはい
あの動画聞いてみて思ったのが
ちょっとねどうしてもね
鼻声になっちゃうっていう
ああ〜
とかありましたよね
まあそうなんですよね
09:01
そこもね議題としてはあったんですけど
う〜ん悩みましたね
ああ本当ですかやっぱ
まあちょっとあのどういう判断
口のところをふさ
口のところはこうカポってはめて
鼻はむき出しになってるんですよね
そうですね
それゆえ鼻声になっちゃうんですか
うんそうです多分
であの鼻を鼻も含めてカバーするものも
まあ一応作る可能性は
まああったらあったんですけど
ちょっといろいろあって
まああの形に落ち着いたというか
まあ息しづらくなっちゃうとかね
そうですねしかもめっちゃ
いろいろあるんだろうな
なんだろうほとんど
フルフェイスマスクじゃないけど
カバーってこうなんだろうすごい
ロックマイグゼみたいになっちゃう
うんガスマスクみたいな感じになるんですよね
ああはいはいはい
でそれでいいのかみたいな話もあったり
いやもうでも見た目の話で言っちゃうと
これも結構なんか
拘束されて拷問を受けてる人みたいではありますけどね
まあ確かに
確かにっていうね
ちょっとあの画像出てるやつ
なかなかドギツいのが出てますけど
マイクだけだと
まあそうでもないかもしれない
結構VR
あれヘッドマウントディスプレイみたいなのをつけてるから
結構インパクトが二重にこうダブルパンチできてますね
五感を支配されてる感じの
いやでも自分の
まあ一部でも関わったものが
ちゃんと量産に来たっていうのは
これ初めてかな
初めてかもしれないんで
おめでたいですね
だからちょっと嬉しいですね
これあれでしたっけ
なんか特許とかとってる感じなんですか
あの僕自身が文明とかには関わってないんですけど
まあ特許の中には一応名前は載せてもらえたという
発明家じゃないですか
発明家ですよ
嬉しいですね
いやおまちのはつめおじさんへの道をまた一歩
いやまあ嬉しい
もしこのMute Talkがめちゃめちゃ今後売れて
世界中でみんな使ってるみたいな感じになったら
あのドクター中松がいつまでもフロッピーのことを言ってるみたいな感じで
フロッピーの蓋を作った人ですよね
あそこ蓋なんだ
そうそうフロッピーが自動でね
カバってしまうじゃないですか
あの部分を作ったんじゃなかったか
そうなんだ
僕詳しいこと知らないですけど
フロッピーずっと言ってるなと思って
なんかこうフロッピーを作ったと誤解されやすいけど
違うんですよ
なんかさせてる感じするな
フロッピー作った人だと思ってるもん
だいたいみんな
多分僕もまあ同じような
なんかまあ部分的にね
こう小音するってことに対して
こうアプローチしたっていうだけなので
そこそもそものアイデアは
あのパンソニックさんが作っているものだし
12:01
まあ冗談みたいな人だと正直
いやーなんだろうな
それを作っちゃうっていうのは
結構もしかしたら感所がすごい鋭かったっていうのが
ちょっと僕には見えてなかっただけだったのかもしれないですね
あそのミュートクについてですよね
そうですね
面白いものを作る
面白いものを作ろうとしているっていうスタッフだったから
作ってる本人からしてもちょっとなんかジョークというか
ちょっとこうまあ
面白寄りだなって思ってたけど
そうです
実はコンセプトはちゃんとこう刺さっていたという
そうですね
だからちょっと失礼かもしれないんであれなんですけど
そのチームからは結構面白寄りのものの制作の依頼が
結構来るんですよ
なんかあるときはすごい巨大なイヤホンを作るみたいな話だったりとか
で面白いみたいな
なるほどなるほど
その並びできたらそりゃ面白大発明になっちゃいます
この前もメーカーフェアの制作物を手伝ったこともあった
ああはいはいはい
ですね
こうロボットの手がこう
トントン優しく胸を叩いて
眠りに誘われるっていう
和ませてくれるってこと
で結構武骨なこう
ロボットアームみたいなのが出てくるんですけど
その手の動きだけ妙にこうなんかスナップを効かせて
柔らかくトントンって動くようなものをちょっとやったんですけど
なんかワイヤーを使って
こう人間の手がこう筋肉とか
まあ基本的に紐で引っ張られてるような動きをするじゃないですか
それをちょっと参考にしながら
バリッとワイヤーの張力のバランスで
こう手首がしなやかにポンって動くっていう
あそれもてっとーさん作ってるんですか
そうですね
それがなんか
まあでも言葉で言うと凄そうに聞こえるかもしれないけど
結構メーカフェア的なものだから
まあメーカフェア用に
なんていうかこう試作品的な
面白いおりにして
まあ浪費したものがあって
こんなんどうよっていう
そういう並びなんですよ
それも実は意外とそういうコンセプトが
ああ
例えばロボットによって人間が介護されてく時代が
絶対今後訪れるわけじゃないですか
はいはいはい
そういう時にそのロボットアームがガションガションってきて
なんか飲み物を顔にバッと持ってくるよりかは
スーッと持ってきて
こうなんか落ち着かせてくれるような動きをした方が絶対いいし
まあそうですね
そういうビジョンを
そう50年後とかになったら
みんなてっとーさんのトントンで
眠りについてるかもしれない
おお
そうですか嬉しいですね
そしたらもうトントン
トントン高田ですよ
トントン
ドクター高田で
あ、鉄道で行きましょう
ドクター鉄道で
立候補ですよ
トントン高田で
まあまあまあ
というね
15:00
結構実験的なものを作っている
Future Life Factoryというチームなんですけど
割とご縁があって
その僕のことちょっと面白がってくれているとか
なんかお互いがそんな変なものを作るんですか
はははって
こうお互いの作ってるもの
ちょっと言える
言えるっていうのもあれですけど
ちょっとこう話しながら作れてたりするから
非常に温かい
いいですね
なんか健康的な感じで
そうですね
なんか嬉しいですね
僕もなんか猫の、猫を教育するための装置ですって
イメージクラブのサイト見せて
いいですねって言ってくれるから優しいんですよね
いいですね
それはあれですね
カラクリフィーダーっていう鉄道さんが前作ったやつで
回すハンドルみたいなのがついてて
猫がそこをちゃんと回すと餌が出てくるっていう
そうそうそう
猫は学習しない
学習しないっていうか
ものを教えても学ばないって言うけど
自分が得だったら学ぶはずだっていう前提で
ちゃんと教科学習をして
そうそうそう
そしたら結構ちゃんと回し方も
自分が想定してた回し方より効率い回し方を
発明してくれてたんで
人間に勝ってますね
ちょっと嬉しかったですね
今でも使ってます
今も使ってるんだ
いやいやいやいや
発明の日々って感じですね
はい、変わらず
いやなんかそうですね嬉しかったですねあれは
いやちょっと気になるなこのMute Talk
2万買えるか?
買おうかな
買って両方鼻声でおはようございますって言って
まあでも僕もともと鼻声気味な声だな気がするんで
ああ
たぶん
そうそう向いてる
普段から鼻声よりの人であれば
そこまで変化量が多くないから
そうですね
いいですねそれ
向き不向きはあるんですね特性上
あると思います
鼻のこうなんか鼻窮音っていうんですかね
あれをうまく響かせていい声を出せてる人は
ちょっとなんかその微妙なさに
こう違和感がある可能性はあるんですけど
はいはいはいはい
まあMute Talkのコンセプトとしては
それよりもMuteするっていうことを優先してるので
うん
なんかまああしからずというか
あしからず
そんな感じですね
まあもしかするとみんなもう鼻声で喋ってる
世の中になるかもしれないし
そうですね
リアルに会った時にこう鼻声じゃないと
こう誰だかわかってくれないから
逆にリアルで会った時用の鼻線が作られる
ああ
あとはソフトウェア的に鼻声を元の声に
復元するような機械学習で
できるかも
18:00
いけるんじゃないですかね
その人の元の声を学習させておいて
で鼻声が入ってきた時に
それを元に戻すっていう
はいはい
いけそうな気しないですか
いや多分ねできると思いますよ
できると思うけど
それきたら最強
うん
待ってよ鼻声
えーと鼻声
普通に喋っている時と鼻を塞いだ時で
で普通に喋ってるけど鼻声にするタイミングって
ほぼないですよね
だから多分大丈夫じゃないかな
なんか元に戻しすぎると鼻声を意図的に出せなくなる
っていうデメリットはあるけど
それは出さないと思うんで
そうですね
うん
いけるんじゃないかな
なんか
ちょっとこれは
すいませんAI詳しくないんですけど
仕組み的には多分いけるだろうなと
ちょっと思ってます
いいですねこれソフトウェアとセットでやったら
完璧な製品になるんじゃないですか
そうですねこれは
なるほど
あそういえばひそひそ声も
もしかしたら普通の声に戻せるんじゃないかな
へー
とかちょっと思ったことがあって
Apple Watchとかって夜中に横で誰か寝てる時に
命令する時
ひそひそ声で結構話すんですよ
はいはいはい
でひそひそ声で
朝7時に起こしてとか
やっぱりやめた7時15分とか言うんですけど
そしたらきちんと聞き取ってくれて
へーそうなんだ
そうそう
でApple Watchはひそひそ声じゃないって
普通の声で
はい7時15分にアラームをフッとしました
そういうとこだよな
言ってくれるんですよ
ハキハキ喋っちゃうんだもんな
そうそう
そこ合わせてほしいですね
そうそうだから命令がうまくいったなと思ったら
布団の中に腕を入れて
ビュートさせるんですけど
でも聞き取れてるってことは
同じぐらい情報量があるってことなのかなとか
まあそうですよね
復元できるかどうかはさておき
認識はできてるっていう
言葉としての情報量は
意外ちゃんと組み取ってくれてるなと思って
復元するのとはまた違う話かもしれないけど
ひそひそ声が実は聞けるよっていうのは
知らない人が多いような気がするんで
ちょっと試してみてください
そうですね
結構研究レベルの話だと
なんか口の中で喋らずに
その言葉の動きをしてるのをなんかで読み取って
それを音声認識として
コンピューターに命令するときに使うみたいなのが
確かあった気がしますね
へー
だから
それで十分か
ボイスでそのテキストを打ったりとか
打つっていうの?
テキストをなんだ言うっていうか
入力する温泉入力だ
温泉入力するとか
21:01
そういうのは普通の喋りと分けて
街中で不自然にならないような形で
できるようになるかもしれないですね
なんか口パクパクしてる人がいるなっていうことですよね
まあそうですね
2010年から20年の間は
ずっとスマホ見て下を向いて歩いてる人が多かったけど
2030年からは口をパクパクしながら歩いてる人が
たくさんいる社会になったみたいな
面白い
独身術ってあるじゃないですか
はいはいはい
あれって本当にできるんですかね
なんか結構近い技術だと思うんですけど
スパイの人とかやってるじゃないですか
見たことはないけど
なんかあれである程度精度が高いんだったら
口の中に何か入れたりしなくても
結構分かっちゃうのかなと
カメラで見せて
できそうできそう
できそうですよね
まあそういう口の動かし方っていう
新しい方言が生まれるような気もしますけど
認識されやすい口の動かし方みたいな
それはあるかもな
確かに確かに
方言じゃないけど
みんなね
キーボード入力とかフリック入力とか
みんな頑張って覚えたから
それと同じような感じで
そういうなんていうの
音声入力弁みたいな
そうですね
自然に認識率の高い方に
だんだんシフトしていく
誘導される形でね
それは結構ありそう
なんかその寒いところだと
口をあんまり開かない喋り方になるとか
そうそうそう
そういう環境による人間の
習慣の変化と同じような感じで
AIにわかってもらうための
なんかいろいろな作法が生まれて
タッチとかフリックも初めてやる人は
そもそもタッチがうまくいかない人とか
結構多いんですよね
そうですね
おじいちゃんおばあちゃんとかね
パッと触れてパッと話すって
結構難易度高いですよね
そうなんですよね
今なんかみんな当たり前のようにやってるのも
かなりトレーニングを実はされてるはずだから
そうそうそう
まあいろんなところでそういう
体の動きの癖が
なんかAIによって逆に
すでに教育されてる
そう
しかもそれをまた学習してAIが
こう覚えちゃうと
抜け出せなくなるんじゃないかな
どんどん繊維化していって
凸凹状態で
50年ぐらいしたら
やばいことになってるかもしれないですよ
やたらと口の動きが
こうはっきりした人類になっているっていう
あと
すんごい逆になんか
普段はすごい感高い声で喋って
AIに指示するときだけ
すごい低い声でボソボソ喋るとか
それぐらいはっきりしてるかもしれないですよ
そうですね
そこまではっきりした
みんなサンマサンみたいになってるかもしれない
いやーどうなるんだろう
24:00
ディストピアですね
なんかちょっと気になってるのが
バレーとか
まあ最近は
いろんな競技でされていると思うんですけど
データを使って戦う
チームプレイの競技が
割と増えてるみたいなんですけど
データっていうのが
誰がどの位置からスパイクを打つ確率が
何%みたいなの
全部計算して
次はこのフォーメーションで行こうとか
こうきたらこう来る可能性が高いから
こうしようとか
そういうのをリアルタイムで
試合をしながら
今こうなってこうなってこうなったっていうのを
入力していくと
確率がiPadにバーっと出るみたいな
システムがあるんですよ
でその対策として
背番号を試合の直前で変えたりとか
すごい読みにくいフォントの背番号にしたりとか
そういうトリックがあったらしいんです
今も伝えてるかどうかわかんないけど
でそうするとですね
あの多分AIで
こうトラッキングして
この動きをしたら次こうなりがちとか
っていうのが絶対もうしてるかもしれない
と思うんですけど
ということはですよ
隠乱できるんだ
そうそうなんか
妙なステップを踏みながらAIを騙すっていうことが
必要になってくる可能性がある
あるかもな
なんかスパイク打つ前に
一瞬なんか変なおじさんみたいな
動きしたぞみたいな
そういうのをちょくちょく挟んでいくことで
AIにこう動きを読まれないようにする
なんかもともとバレて
そういうトリックが
わりと多い競技な気がするんですけど
例えばフェイントも結構バレーって
あの世界世界選手権か何かで
日本が優勝したんだったかな
だいぶ前にテレビで見た話ではあるんですけど
昔日本でやっぱこう平均身長が低いから
バレーってそんなに強くなかった時期もある
みたいなんですけど
フェイントでかなりいいところまで行った
時があったらしいんですよ
ずっと昔です
でそのフェイントのやり方っていうのが
あのまあバーンって打つか打たないかを
2分の1を確率にすると
防御するブロッカーの数が2分の1になるから
取りやすくなるっていう
ざっくり言うとそういうことだと思うんですけど
フェイントをするかしないかが
チームの中で共有されてないと
どうしていいかわからなくて
うまく打ってないんですね
だから次にフェイントをするかどうかっていうのを
一種の暗号を使って
みんなでコミュニケーションして
それで次はフェイントだからこう動く
次はフェイントじゃないから
フェイントっぽい人も動くんだけど
実際にはフェイントしないとか
そういうことをしてたらしいんですよ
おもろ
でその暗号が人の名前を叫ぶんですけど
27:00
その名前が男の名前か女の名前かで
フェイントをするかどうかを決めてたらしいんですね
日本人だからわかるけどみたいな
世界で戦うときに有利なんですね
そうそうそう
世界選手権か何か
そういうところでやったらしいんですけど
それでこう花子とか言って
外国人がなんだどっちだどっちだってなっていう間に
フェイントだったみたいな
面白いですねそれ
そうしもしかしたら外国人も子がついたら
お名前っぽいなとか
学習してるかもしれないんですけど
ちょっとわかりにくいね
まさよまさよどっちだって
そうそうそう
まさおかまさよかみたいな
広めりとか言ったらやばい
どっちだいるなどっちもいるな
日本人も
あったかもしれないですね
ありそう
まあなんかさておき
なんかそういうあのトリックとかデータとか解析とか
そういうものと結構バレて
ほんまにと密接な繋がりがあるっぽい
へえ
全然知らなかったな
結構昔からバレー競技の時に
iPadを持って監督がデータ見ながら支持するみたいなのが
iPadが出た当初ぐらいからあった確かあったんですよ
でうわすごい進んでるなと思ったんですけど
めちゃめちゃ先進的ですね
まあそれでバレーのボールのトラッキングとかも
実は盛んにやられていたりして
そういえばそういうこと
仕事もちょっとKinectでね
ちょっとやったことがあって
それで調べてたんですけど
へえ
いやでもバレーボールね難しいんですよ
カラフルだから回転してると色が混ざっちゃうし
止まってても特定の色だけでトラッキングができないし
なんか難しいんですけど
やり込んでるゆえの感想だなこれ
まあ今は多分画像解析でサクッといけちゃうと思いますけどね
なんかそう思うと
もしかしたらボールの柄に似た
こう模様が背中に書いてある選手だったりとか
なんかそうだな
スパイクを打つ選手じゃない選手が
すごい複雑なステップを踏んでて
関係ないそうな選手が
ジジッとしてるけど急にポーンって
ジャンプしたりとか
そういうね
対AIフェイントみたいなのが必要になってきますよね
いやちょっと楽しみというか
それはディストピアかもしれないんで
いや面白いと思いますよ
それ見たいっちゃ見たいもん
ちょっと見たいなと思いますね
スポーツの世界ってやっぱそういう
そうですよね
せりあいだから
どんどん新しい対策法が生まれたら
それをさらに上回るハックが出てきてみたいな
ハックもある程度許されているところが
ちょっと面白いというか
サッカーでもね
こう右に行くと見せかけて左に行くとかも
もちろんね
それもハックっちゃハックだから
なんだろうな
そういう情報線の部分だけを
うまくこう抜き出して見てみたい
ちょっと思いますね
そうですね
30:00
そういう歴史の本とかあってほしいな
騙し合いの
もしかしたらもうあるかもしれないんで
知ってたらリスナーの人教えてください
教えてほしいですね
はい
はいそろそろ終わりますけど
終わりがてらに最近
最近っていうかもう昨日ですね
昨日ちょっとようやく
Stable Diffusionをローカルにインストールして
ちょっと面倒くさそうなやつですよね
そうですね
ちょっとも何のことかわかんない人もたくさんいると思うんで
さらっと説明をすると
最近ここ2週間2、3週間ぐらいで
ものすごいAIによる画像生成の
ビッグウェーブが来てて
マジで毎日レベルでどんどん新しい発明というか
なんか面白い使い方だったり作品だったり
が出てるんですよね
でそれの一つの立役者というか
新現地となってるのがStable Diffusionっていう
汎用的なテキストからの画像生成
画像からの画像生成もできるんですけど
基本的にはテキストからの画像生成ができるっていうのの
めちゃめちゃ強いやつがオープン化されて
もう誰でも使えるになっちゃったっていう
そうですね
なんかもうちょっと補足すると
例えばで言ったらなんて言いたいんだ
サッカーをするピカチュウみたいな単語を入れると
サッカー本当にサッカーをして
ボールを蹴ってるようなピカチュウの画が
自動でアウトプットされるというような
そういうタイプのAIです
そういうやつですね
そういうやつは最近ここ数ヶ月で
一応なんかウェブから使える
管理されたシステムとしてDarling2だったりとか
あとなんだ
MidJourに
そうそうMidJourにとかそういうやつがあって
そういうのは一応それを管理してる会社なり
サービスなりがあって
そこに対してリクエストを送る形で
テキスト送ると画像が返ってくるっていう感じだったんですけど
今回はモデル自体が公開されてて
誰でも自分のパソコンローカル上で動かせるよ
っていうやつなんで
そんなことしちゃっていいのって感じしてますけど
いいのってなっちゃうじゃないですか
思想がもう
全員に武器を配れみたいな感じの思想なんで
オープンフリーこそ全てみたいな
そういう感じっぽいので
表現の自由ということで
そうですね
一応ちょっとこれからは画像を見たときに
それがフェイクである可能性に
前より注意したほうがいいと思うので
本当になんでもできちゃうし
じっくり見てもよくわからなかったりするんですよね
クオリティが高いと
ましてや変なところをフォトショップで後加工したら
もう誰もフェイクだってわからないものが
できちゃうので皆さんちょっと気をつけてください
あらゆる画像の信頼度が下がると思います今後
33:03
でちょっとね
まあ面白そうなんでとにかく
とりあえず入れた
ちょっとイベントとか一段落したら入れようと思ってたんですけど
ようやく昨日夜入れて
で夜中の2時ぐらいまでいろいろいじって寝て
朝赤ちゃんに起こされて
夜の朝6時ぐらいに起きたんで
4時間ぐらいしか寝てないんですけど
大丈夫ですか
面白すぎて夜更かしちゃいましたね
いやもうなんかなんていうんですかね
とにかくあの時間が
あのパソコンの前に座ってられる時間が短いんで
どうにかしてこう
他のことしてる間も大量に生成され続けるような
仕組みを組もうみたいな感じで
じゃあなんかこう思いついたのを
まあそれこそMidJourneyみたいに
ディスコードなりLINEなりで
ジョブを投げればボンボンボンボン出るみたいな
そこまで行きたいですね
今のところなんかちょっといろいろ探して見つけたのが
そのStableDiffusionの
えっとなんていうのかなこうVariantというかForkというか
他の人が使いやすくしてるバージョンで
他の人が作ってる
ProgLock Stableってやつがあって
これ使うと入力するプロンプト
まあ言葉のことプロンプトって言うんですけど
プロンプトの中の単語を
組み合わせを指定することができて
だからなんかかわいいとか楽しいとか
ゆかいな陽気なみたいな形容詞英語ですけど
それをその中からランダムに2個選ぶとか
なんか書いてある単語のリストの中から
ランダムに選ぶとか
じゃあ膨大な組み合わせを投げられるんですね一回で
そうなんですよ
事前に書いてあるそのプロンプトを
テキストファイルから全部バーって生成するとか
そういうことができるようになってるんで
こりゃいいやと思って入れました
なるほどちょっとその入れ方とか
参考にしたサイト後で教えて
了解です送ります
うちでも回したいで
回しまくりましょう
これねやっぱなんかそのなんだろう
こうなんですかね
結構すぐやってみてわかるのは
すぐその自分の想像力の限界にぶち当たるなみたいな
何でもできる言葉書いたものが
何でもできる夢のようなシステムが
出来上がりましたって言われたら
もう大喜びになっちゃうけど
触ってみると実は自分の作りたいものっていう
想像力の限界が明確にそこにあって
それをどれぐらいリアルに想像できるかによって
壁ができちゃうなっていうのがあって
それを超えるためには
自分の想像力の外にあるものに頼らないといけないっていう
それがその今言われている
なんて言うんですかね
呪文みたいな風に言われてるんですけど
プロンプトの
ルーンとかね
36:02
こういうテキスト入れるといい画像が出てくるぞとか
そういうのであったりとか
そういうさっき言ったような
その言葉の組み合わせの数を膨大に試してみるとか
そうやってその自分の想像力の外にあるものを探索していって
むしろどんなものが入ってきたら
自分は喜ぶのかっていう
自分の中の評価関数を探索しているのが気持ちになるんですよね
ああなるほど
それはちょっと面白いなと思いました
へー面白いな
でも喜ぶところもボットになったら便利なのにな
そうですね
自分はボットの一部なのかもしれないですね
巨大な
そうですね
ステブン・ディフュージョンが出しました
それに対してイエス・ノーというボットが人間というやつで
その集積によってまたAIとか機械学習側にフィードバックされると
それはありますね
我々はボットか
いやーでもその想像力の限界を一日試しただけで
すぐに衝突できちゃうっていうのは
ツールの有用性がそれだけすごいってことですよね
そうですね
すごいな
でもやっぱその前回またイベントの話して申し訳ないですけど
オスレザンさんの回でも夜中にいろんな言葉の組み合わせで
相撲っていう言葉といろんな言葉を組み合わせて
土俵の中に巨大な一つの肉の塊が出現してるのを見て喜んでるみたいな話してました
そういう僕とかだったらなかなか思いつかないですけど
そういうのを自分の想像力の限界を拡張し続けられる人みたいな
人がやっぱすごい活躍できそうな世界だなっていう気はしますね
確かにそうかもしれないですね
いやーでもなんだろう
見たことあるものを結局呼び出しちゃうじゃないですか多分
まあそうですね
だからいかに見た見たことないものを想像できるかなのか
それともいろんなものを見ているかなのか
ちょっとわからないですけど
なんかまあ絵を描く人とかものを作ってる人は
インプットとなんかアウトプットの関係についてすごい悩むと思うんですけど
なんかどうしても作る技法によって制約が自然に生まれて
例えば版画を作る人は版画っぽい絵になるし
それが良さになったりするし
プログラマーだったらプログラミングで作れるようなものに当然なるけど
なんかそれはそのプログラミングの面白さとアイデアの面白さっていうのが混然一体となっていて
なんか誤魔化されていって
それはめっちゃありますね
そう誤魔化されていったと思うんですよね
それがなんか分離抽出されたみたいな感じはありますね
39:00
そのこういうものの出現によって
まあ今のところそういう画像絵画とか写真の世界だけかもしれないですけど
その技法とか画風みたいな風にして明確に区切られて分かれていたもの
道が分かれてその先に何かがあるみたいな感じだったものが
全部その1個のテーブルの上に乗せられて
そうですねやばいですね
広い空間の中の連続的な1点みたいな
ところに過ぎないものにされたみたいな雰囲気がありますね
なんかその呪文の唱い方の中にも
カメラの型番を入れると写真風になるし
ゴッホって書いたらゴッホが書いたみたいになるみたいな
そこが連続してるっていうのが怖い
怖いってかおぉっていうか
確かに理屈の上では2次元で表現できるものは
繋がっててもおかしくないんですけど
繋がってるっていうのがこんなに明確に感じられるとびっくりしますね
そこが機械学習の面白いポイントというか
全部がベクトルになるっていうのは
人間の認知とはちょっと違う世界の捉えられ方をしてるので
そうですね
なんかそこに新しい何かがあるような気はしますね
人間の認知では谷になっていて想像が及んでいないけど
でも実はこれとこれの間はこれだよねっていう
そういう空間的にはありえるんだけど
人間がまだたどり着いてない場所
人間ってその世界
あすいませんちょっと話長くなっちゃったけど
そうですね
これちょっと盛り上がっちゃったんで
第2回にします?
いやちょっと話切っちゃおう
人間ってなんかその世界を認識するために
言葉で分けるってこと使ってるじゃないですか
基本的なツールとして
これは象これは馬これは田中みたいな感じで
急に田中が出てきた
分けてて
象と馬の間には何らかの連続性を感じてるかもしれないけど
象と田中の間には結構断絶があるというか
非連続なものとして捉えてる
けどもその全てを連続的なものとして示すことができる
になってしまったっていうのが革命だなっていう感じですね
象と田中の間があるんですかね
怖い
間の問い方もツールによって出てくるものは違いますけど
そうですね
でも今Stable Diffusion使いこなしてる人たちの中では
プロンプトとプロンプトの間のベクトルを繋ぐというか
なんかそういうことをしてる人も結構いて
だからある文章と全然違う別の文章の
結果出てきた画像の間を行き来するんじゃなくて
そのテキストが差し示すベクトルの間を
42:01
行き来しながら画像を生成してるっていう
ちょっと人間の頭では想像しきれないことですけど
テキストって機械学習の中ではベクトルになってるので
そうですね
理屈上は確かにできるのかもしれないけど
それどんな風になるんだろうな
なんかね結構そのモーフィングともちょっと違うような感じの
不思議な感じで
映像とかあったりとかしますけど
へー
まあ多分雪山とこうハワイの海辺の間を取ると
中暗いの気温のどこかの景色が出るかもしれない
まあ概念としてはそういうこと
そうですね
まあ例えばですけど
東京と京都の間を繋いでたりとかして
別にその
東京と京都の間だから名古屋になるわけじゃないんだけど
まあでももしかしたら
そういうの出しちゃうAIもいるかもね
でもよりその概念上のそのテキストのベクトル感を繋いで
それを画像化してるっていう
めっちゃ面白かったんで
ちょっと見てほしいですね
ちょっとどうやれ
どういうツールでできるんだろう
ステブルディフュージョンとは違うツール?
ステブルディフュージョン使ってます
それそのモデルに与えてるコードをちょっと変えたりとかして作る
からあげさんっていう機械学習よくやってる人が
ちょっとこの辺は概要欄でリンク貼っておきます
はい
っていう感じで
最近かなり変化が激しくて面白い世界なので
ちょっとちらっと見ててもいいかなと思って
そうですね
かじりつこうとしてます
ちょっとうちにも入れてみます
はいじゃあちょっと長くなりましたが
今週こんなもんで終わりにしようかなと思います
はいイメージキャストは毎月小額の支援をしてくださる
イメージキャストサポーターの皆様のおかげで
配信を継続できています
月に1回コーヒーをおごってあげる気持ちで
3ドルからの支援をお待ちしております
詳しくは概要欄をご覧ください
そしてイメージキャストでは
皆さんの感想をモチベーションにして
配信を継続しています
感想要望はハッシュタグイメージキャストをつけてツイート
質問などお便りは概要欄のメールフォーム
またはキャスト@image.clubまでお寄せください
あとですねApple Podcastで聞いている方は
Apple Podcastの星つけたりとかレビューしてくれたりとか
レビューのところに感想を書いてくれたりとかすると
かなり嬉しいです
感想を書く人は批判コメントが書きたい人が
割合的に多くなりがちなので
普通の人が書いてくれたら嬉しいですね
そうですねっていうのもあるし
結構Podcast聞いてみようかなっていう人が
見る部分ではあるので
我々的にここに良いことが書いてあると
嬉しいというポイントですね
そうですね
悪いことが書いてあると悲しいというポイントです
なので聞いている方に書いてほしいなと思ってます
45:02
はいという感じで
次回は9月24日土曜日の朝にお会いしましょう
それではまた来週
さよなら
さよなら
♪~
【ご視聴ありがとうございました】
45:13

コメント

スクロール