00:00

X-Crossing エピソード0
X-Crossing 本編の収録前にBGM選びをしていたことからターンを発した感覚と表現についての話です
これちょっと話出せするんですけど
こういうオーディオ素材のサイトってテキストで検索できるようになってるんですよね
この軽快なとか爽やかなとかジャンルとか
それがすごい売りで出されてるんですけど
今回自分で使ってみて
音楽の感覚を言葉にするっていうのがすっごい難しいのがすごいよく分かって
最初このターゲットの音楽ですってあったので
それで探せばいいかな
軽快かなとかなんとかでやったんですけど
まったく当たんなかったんですよ
霞んだくて10分やってて疲れてきちゃったんですよね
全然違うのが出てくるんで
ミュージシャンの友達にこういう音楽なんだけどなんで検索すればいいんだろうって言って
ジャンルでもなんでもちょっと教えてくれないって言ったら結構すぐ答えてくれて
その時にトロピカルハウスの要素が少し入ってますねっていうのが教えてくれて
なんでトロピカルハウスみたいなそんなジャンルは知らないとここで一つ勉強になったんですけど
それでトロピカルハウスを入れるようになったら
ちょっとずつ真ん中にというか的に入ってくるようになっていくつか調べたのがこれです

そう僕もこのタグを見てこういうんだってすごいずっとさっき10分くらい前からチェックしてて
へーとかちゃんとこう用途だけじゃなくてジャンルとかね場所とかも変えたって
なるほども確かにそうかみたいな思いましたけど

自分で調べるときこの用語は出てこないんですよ
トロピカルとか夏とかエンジョイとか面白いなと思いましたね
音楽を感覚理っていうか言葉にする

僕ダイヤモンドオンラインというとか連載も売ってるんですけれど
翌月の来月ってやつが今のそのAIの稼働生成のところの話を書いてるんですね
AIの稼働生成でやっぱりそのステーブルディフュージョンだとかあいったものって
なんかいろんなキーワード入れてプロンプトに入れても記号してるものが出ないじゃないですか
出ないんですよ
それが難しいって話を書いてて
そういえば自分の好みのワインを注文したりビールを注文するときに
自分の好きな味ってなんて表現すればいいかわからないって話をしてて
でもワインの素麦とかってある味のことをなんと表現すればいいかっていうことが共通語彙として持ってるんですよね
そういう話をちょっとしてたんですけど
今の三河さんの話ってやっぱり音楽音でも同じだなって思ったんですよ

ワインそうですよね何かの香りとか土みたいな
一般人からすると表現にその言葉はつかないんだけど共通言語としてあるって言うと同じものを指すんですよね
03:04

なめし側だとかそれ食い物の表現につかないでしょみたいなこと言うわけじゃないですか

飲みたくなるんだろうか

なので面白いなと思いましたどっかで取り上げてもいいんじゃないかと思ったし
僕のその記事の中に今の話に押さえてもらってもいいですか

いいですよもちろんもちろん

はいありがとう

言葉を知って探し始めるとすごい楽しくなって近いものが出てくるので
そうすると他のものも見るじゃないですかタブとかね
そうするとこの探してるの最初10分で諦めさせそうになったのが気づいたら2時間ちょっとやってて
すごい楽しかったんですよ
時間忘れるってこういうことだなと思いました
言葉を知る感覚と言葉を結びつけるのを一つでいいから知ると

なんかそこが突破号になるんだな
本当はこれは我々の検索キーワードが音声言語に寄っちゃってるからなんですよ
例えば画像検索今ある画像をそのまま放り込んで似た画像を探すことができるじゃないですか
Stable RefusionとかAI画像生成もラフな手書きを書いてそれをもっと完成度を上げてくれてできるわけですよね
だから今のやつももともとのYouTubeのBGMをそれをそのものを検索ボックスにボーンと突っ込んだならば
似た感じの音楽素材を出しているっていう方がより本当は適してるんだと思うんですよね

そうですね

例えば花歌で歌ったり花歌検索は昔からあるけれども
そうですよね

Audio Stockの方はそれがあったんですよ
YouTubeのURLに行ってくれればみたいなのがあって
それ見て「おぉ!」と思ってすぐ会員登録して入れたんですけど
やっぱ制約があって10分までの動画に対応してます
かつ音楽が単体として流れているミュージックビデオみたいなものですよね
あれに対応してます
今回調べたかったのがこのラジオのBGMですってやつだったから
もう本当に全然ダメで
このときは難しいと思うんですけどね

でもそれってそこに本当にフォーカスする人が出てくれば結構できますよね
出出して

今実際に音楽だけ取り出すとか
さらに言うとベース音だけ出すとかギター音だけ取り出すとか
技術的にはそれは可能は可能ですね

そうなんだ

でも僕もこっちに住むときにすごい困ったのが
形容詞なんですよ英語
形容詞ってほらクールとかいろいろあるじゃないですか
自分の割とそういう感情を伝える言葉じゃないですか形容詞って
形容詞だけぴったりするものは結構ないっていうか
調べても全然合わないですよね
結局だから話しててこういう感じこういう感じって
なんか狂ったように学習して
こういうのがクールでこういうのはこうなんだみたいなやつって
なんかその説明されてもあんま分かんないですよね
06:01

だからなんかそれってやっぱりこう感情と
その例えば今の音声言語とか言語とか
それからその言語とまたそのもう少し中度が高いもの
というのを結び付けるのってまさに学習なんだなと思ってる
AIってすごいフィットするんですねそのイメージとしては
そこに入ってどんどんどんどん学習して近くしていくみたいな
だからすごいそれを感じましたね

一種のAIってどんどんヒューマノイド化してるっていうか
人格を持つ人格を持つというか人に近くなってきてると思うんですよ
我々が人に対して今関さんが言ったみたいに
思いを伝えたり感情を伝えたりするっていうところの
難しさがすごい顕在化されてる例なんですよね
でも実は人と人の間でもAIに対してコミュニケーションを取るのと
同じような苦労って本来はあるんだけれども
それが今まで隠蔽されてしまったりもしくは歴史の中で
かなり改善されてるに過ぎないんですよ
僕は来月の記事の中で書こうと思ってるのが
手話っていうのは実は手話言語っていう立派な言語なんですよね
音声言語っていうものとこれ1対1に変換可能なものじゃないんですよ実は
手話言語って一個一個の同じ文法のものを手で表してるだけではなくて
文法全く違って手だけじゃなくてボディーランゲージで
体全体でそれを伝えてるんですよね
結局手話言語の人が音声言語を読めるからテロップとかを見て
理解してるように思うかもしれないけど実は全然違うって話を
娘手話習ってる教えてもらってるけど結局誰かとコミュニケーションを取るっていうところの
その難しさっていうのがAIと対話するっていうところで
めちゃくちゃ今現在化されてるっていうだけがないなと思いましたよね

面白いですね

でも手話って言語ごとに違うじゃないですか英語と日本語で手話が全然違うんで
だから僕とかも子供の関連で今手話覚え目が見えないんで結局手話やめてるんですけど
やっぱりハンドサインとかみたいなことをこっちでやってて
昨日来てたまた別の人は私カナダからちょっと違うのよねみたいな話をしてて
だからカナダとアメリカでも違うみたいな感じをしていて

アメリカだったら2つあるんですよ英語に2つあるんですよ
サインランゲージって言うんですけれどそれがASLっていうのがアメリカのサインランゲージで

もう1個普通に英語圏で使われるやつっていうのがあってそれがそもそも違うんですよね

実は手話言語館での翻訳とか通訳ってすごい難しくて今仕方ないんでそれを音声言語に直し
音声言語を翻訳しってやってるんだけど本当は手話言語館で通訳や翻訳ができた方がいいんじゃないかっていうふうに

娘はそれをすごい言ってます
全然今日だけでもこのネタでいけますね

これは本当に奥深いと思いましたよ
でも私は突破口の言葉が1つあっただけだとかよかったですけど
それがあると世界広げてくるなというか自分なりに道ができる考えることができるっていうのはメイシャンに感謝ですけど
09:06

でも新しいこと調べるときってそうじゃないですかやっぱり普通のGoogleとか使っちゃうんだけどやっぱり突破口になるキーワードが見つかるまですごい時間かかるってことが結構新しいものがありますよね

言語で検索したいけどそもそも検索したい言葉が何かってわかんないときって結構ありますもんね

あるあるでも一方で今だんだんと年とってきて言葉が出ないって情報あるじゃないですか
でも検索でその周辺の言葉で詰めていくみたいなことできて自分の思いつかない言葉普通の言葉を検索で4回ぐらいやって
これ自分が言いたかったのは何か例えば何だったんだってわかるみたいなことって結構あってスマホ結構使っちゃうんですその時にね
例えば病院ってことは思いつかないとして何だっけみたいな感じで白い建物でとかやるわけですねやっぱね結構やるんですけどそれで病院だみたいな
なんかそういうようなことをすごいやってきてもそれも同じですよね結局そのあのほっぱこになるようなキーワードでその
その中小言語とかって結構パッと出てこないときがあるじゃないですかだから普通の言語でさえも結構出てこない
英語とか何とか要するにターミナルで知らないケースでやっぱり周りを責めてってどんぴしゃな言葉が見つかるってことが結構よくあるんで
これは本当にそれは尾井川さんの元々の本職に近いところだと思うんですけど

それはそうです僕まぁ多分関さんもきっとそうだと勝手に聞き込みますけどまぁ聞き込みますけれど普通の知ってた言葉でも忘れるんですよねもう
でこないだこう仕事で話した時にモノリシックが出てこなかったんですよ
でヘテロジニアスじゃないしなんだっけなぁってこう言ってその時は相手がモノリシックですよねって言ってくれたか良かったんだけど
もし自分一人で文章を書いたりするときは検索してると思うんですよ
で均一の英語型かなとかって何か調べるときっとモノリシック出てくるんでシステムのアーキテクチャーでとかってやると絶対出てくるんで
やっぱりそうやって忘れた言葉も検索して思い出すって言うのが検索するって今ので言うとやっぱりその時は仕事の相手がクランチさんがモノリシックと教えてくれたんだけれども
なんかそのモノリシックって言葉が分かんないときにそれを何か説明してるわけなんで結局検索キーワードっていうのは検索エンジンっていう人みたいな人に対して何だっけこれって言ってるのと同じことなんですよね
結局検索エンジンだとかAIっていうのは対話なんだなぁって思いますね

対話以外でインターフェースならないですねマンマシンの

今実はグーグル検索も検索キーワードによって文章で検索した方が精度が高い時があるんですよね
やっぱり英語型とかそうだって言われていてなので音声アシスタント的な使い方をするようにどんどん進化してきてるっていうとまさにダイアログですよね対話ですよね
12:05

そのデータだって大量に持ったわけですよねこの5年ぐらいで毎日僕らも話しかけてるわけじゃないですか

やっぱりすごい賢くなったなって思いますねグーグルフォームとかも

こういう音楽とか絵とかデザインとかああいうのを仕事の中心にされてる方はクライアントとかニーズを聞く時に言葉で聞くのもあるけどこんな感じっていうのでモワっとしたので聞くと思うんですよね
それを形にしてるってのってすごいなと改めて思いましたよ

そうだから会話の中から引き出してくるっていう今回の画像生成にしても結局プロンプとエンジニアみたいな形でどういうような聞かとすればいいかっていうのが一種の職人的になってきてるんですね

来月の記事で僕書くんですけれども例えば今までの経験でもアイコンとかロゴのデザインをしてもらう時に何て言えばいいかが分かんない
そもそももともとは今回の場合ミカさんだとトロピカルハウス的な音楽ってこんな感じってなったじゃないですかこんな感じってのはっきり持ってないことが多いんですよアイコンのデザインロゴのデザイン
デザイナーさんと会話する中でそんなのがいいんじゃないですかって提案されたりしながらそれを見つけていくんですよね
僕がそのホームページのデザインを頼んだ時にうちの会社ではなく別の会社だったんだけれどもなんか好きな昔で言うとレコードのジャケットとかあったらそれをいつか見せてくださいって言われたんですね

やっぱり自分がどんなものが好きか今回サイトをどんな風にしたいかっていうのは普段好みと思っているものを知りたいって言われてそこから来るんだと思ってレッドゼッペリンとかたくさん見せた覚えがある

でも僕この前最初のブログポストって何回いいよねって言ったじゃないですか実はこれって僕前のニケコンビターの時の2人目の編集長がそれを連発してたんですよ
要するにもっとよくしてよとか言うんですよそれが僕はすごい気に入らなくてだからその人とすごい仲良いんですけどプロなんだから具体的にちゃんと話してると言語化しろよって話をいつもしててでも言語化できないんですその人が
だからそういう極めて主観的なもっとふわっとした感じでとか言うわけですよ何年記事書いてんだよみたいな感じなんだけどでもやっぱりそれがあったんで僕はそのアンチテーゼとして必ずそれを言語化するっていうのを自分に説明するとき必ず言語化してふわっとかじゃなくてやっぱりそういう主観的な言葉じゃなくて客観的な言葉で説明するっていうのをすごい意識したんですけど
そういう経験があるんだ

それがあのやつを見たときこれだ本当にこういう人を僕めしなきゃいけないと思ったんですけどね
15:00

強い思いが生まれたんですね

マスコミってそういう人を言うすよねニッケコンピュータみたいなビジネス系のものとか経済系のものは本当は違うべきなんだけれどもテレビ局とかそんな人ばっかじゃないですかなんかいい感じにみたいな人がいる人もいる
でもだからそのまさにそのコピーバイブルってコピーライター向けの本なんですけどまさにそういう人たちがダメだっていうことを書いてるんですよ
つまりそのマスコミの現場とかでそういう人ばっかり会うんでやってるでしょとでもだからそんなのはプロじゃないと
バランっていうのはあんな感じでってこのシーン作ってないだろうみたいなことが書いてるんですけど

今ねそうだと思います音で全然違う指示の仕方するんですよ一回それ見たことがあってこうサンプルの音源が出てきて
聞くんですよねうんうんそうねいいと思うんだけどあのねここはねDUNじゃなくてZUNなんだよねというそういう言い方をするんですよね
これで分かってるのかなと思ったらそれで分かってる通じてるっぽいんですよっていうかそのクリエイターがそれを組み取ってるんだと思うんですけど

マイケルジャクソンのThis is itとかのリハーサル風景見てると結構彼もそんな感じで信じてるよね

そうでしたっけ感覚なんですよねそれねでも感覚でもないじゃないですかやっぱりそれってそのまさに
そうじゃなくてこうっていうふうにディスティングしてされてるわけだからきっとその通じる言語なんでしょうねその人たちの間で

そうでしょうねだからさっき言った通じる言語に近いもんだなと思う言語でDUNとZUNっていうところだけじゃなくてそこにやっぱり音に近い何かが含まれてるんですよね
だからクリエイター同士その言葉で分かるんですよね

なんだろうなぁ面白いこれどっかで話したいですねこれやりましょうよやりましょうよ
こういうの問題では一回話すと僕はもう満足したんだよねそう本当そっか始まる前のどうか始める前の話が面白いってやつですね

[音楽]
コメント欄にリンクを貼ってください!
ご視聴ありがとうございました!