1. ごりゅごcast
  2. 🎙665 ハイレゾに関する音の仕..
2021-06-23 23:27

🎙665 ハイレゾに関する音の仕組みをもうちょっとちゃんと調べてみよう

spotify apple_podcasts

書こうと思うといろんなことがわからないことがわかるという法則に基づき、たくさんのことがわかっていないことがわかりました。

この辺りの話は、ブログにもまとめようと思っています。


ご意見、ご感想はTwitterのハッシュタグ#ごりゅごcast ( https://twitter.com/search?q=%23%E3%81%94%E3%82%8A%E3%82%85%E3%81%94cast )かお便りフォーム(https://forms.gle/DxDDWvK5wk4sZX937)にお送りください。


新しいPodcast iPad Workers Podcastもよろしくお願いします。

https://ipadworkers.substack.com/

00:00
こんにちは、goryugocastです。今日はハイレゾのことをもうちょっと調べてみたら、いろんなことを全然まだまだ分かってなかったっていうことが分かったので、その辺のことを話してみたいと思います。
この間、Apple Musicとかがハイレゾとか空間オーディオのデータで配信するのに対応したっていうあれから?
どういうものなのかとか、どういうのを買ったとかっていうのをですね、ちゃんとまとめてブログに書いてみようと思って調べてみるとですね、やっぱり書こうと思うといろんなことが分からないことが分かるという法則に従って、結構いろんなことが分かっていないことが改めて判明しまして、
例えばちょっと曖昧なままに済ませてしまっていたんだけど、CDがさ44.1kHzの16ビットだっていうことを言っていたじゃん?でもさMP3とかAACってさ、なんか128BPSとか256BPSって言ってたけどさ単位がちゃうやん?
CDは44.1kHz16ビットステレオなんだけど、そのアシュコン源の128BPSって、CDってBPSに換算したらいくつになるの?っていうようなこととかも、なんかちゃんと分かっていないというか、数字としてもちゃんと理解できていなくて、っていうことが分かったり、CDはなんか耳に聞こえる音がさ20kHzまでみたいなことを多分前話したと思うんだけど、人間が聞こえる限界。
で、なんでかっていうと、それってCDのサンプリングレートが44.1kHzだからっていうか、人間の耳が20kHzまでしか聞こえないっていう前提に立って44.1kHzっていう数字が設定されて、CDではそういうふうにしようっていうルールが決まったらしいんだよね。
っていうこともいっぱい分かっていなくて、順番になんか話せたらなぁと。
まずおさらいをすると、ハイレゾっていうのは、音楽データをよりその生音に近い状態でデータ化したものみたいなイメージでいいの?
CDよりも細かいデータのデータ量が増えた音っていう言い方かな。
前回説明があったのが、人間の耳が聞き取れる音域っていうか周波数帯っていうのがあって、その帯域外の音っていうのは音として認識はできない音波?
聞こえないけど、どうやら感じ取ることはできているらしいっていう。
音としては認識できないんだけど、体感はできるみたいな。
03:04
ていうことらしい。
ハイレゾっていうのは、音として聞こえないような音も入っている。
データの中に含まれているから、普通の圧縮されている音よりもいい音に聞こえるとか、いい感じに聞こえるとかっていうイメージになるのかな。
まず、MP3の128kbpsっていう用語なんですが、その128kbpsとか64kbpsとか、そういうのは聞いたことがある?
ある。ポッドキャストの編集の時にフォーマットどうする?みたいな感じで出てくる。
あれの話なんだけど、あれはCDって圧縮されていないローデータなんだよね。写真で言うならば。
ローデータをMP3とかAACっていうJPEGみたいな圧縮データに変換してあげて、データ量を小さくする。
だから、やっぱり情報の欠損が起こるから、CDのデータとMP3のデータと何が違うのって言うと、
感覚としては、ローの写真とJPEGの写真って違うでしょっていうのと、感覚としては正しいのかな。
CDが44.1kHz、16bit、ステレオPCMっていう規格になるんだけど、
BPSのみの数字っていうのもちゃんと計算してみたらですね、
CDはデータ量で言うと1412kbps、128kbpsのMP3の大体10倍ぐらいのデータ量がある。
なので、言ったらMP3が128kbpsだとファイルが1MB1分ぐらいっていうイメージだったんだよね。
CDをそのままのデータにすると、1分で大体10MBぐらいのデータ量になるっていう計算になるかな。
それは外でApple Musicとかのロスレス音源とかをストリーミングで聞くときの参考になるかもしれない。
あと44.1kHzの話なんだけど、人間の耳が大体20kHzまでしか聞けないから、
CDには20kHzぐらいまでの音しか収録されていないようになっているっていう話だったんだけど、
音って元々アナログの波で、しかも縦波と言われるデータなんだよね。
この縦波のデータを、要するに音って波なんだけど、波のデータとしてデジタルに記録して再現しましょうっていうことをやっているっていうことなんだけど、
06:04
さっきPCMっていう言葉を前回ちゃんとわかってなかったから触れてなかったんだけど、
パルスコードモジュレーション、波をデジタルに変換するっていうことをやって、CDとして記録ができるようになる。
波って線で書くと滑らかな波じゃん?
その滑らかな波をできるだけ細かくいっぱい点々と打てば、滑らかな波ができるじゃん?
その滑らかな波の作り方っていう、作る細かさっていうのが、そのCDでいう44.1kHzと16bitっていう言い方をすればいいのかな?
例えば、写真の解像度みたいな話で撮った写真をすっごい拡大していったら、
ドットっていうかビットっていうか、四角い点々の集まりで写真って表現されてるやん?
あの点々が大きいと、画質が荒いとか、画像が汚いみたいな感じで、低解像度とかって呼ばれたりする画像になるんだけど、
その四角の箱が細かくて、小さければ小さいほど、より高解像度、すごく鮮明で綺麗な写真っていう、
その点の大きさによってどれぐらいかとか、点の数によってどれぐらいの綺麗さかっていうのが変わるのと、音も一緒ってこと?
そう、だから波を表現するのに、周波数44.1kHzって要するにグラフの間隔、どのぐらいの間隔を空けて点を打っていくか。
16bitっていうのは65,536なんだけど、縦に65,536個メモリがあるっていうイメージをすればいいのかな。
その1秒間を44,100回に区切って、65,536通りのある好きなところにバーって点々を打つと、
もう波の見た目なんてデジタルとアナログと区別がつかないよねっていうような話になるのかな。
だからそれがCDの音源だったり、さらにそれを圧縮しているようなMP3みたいな形式の音源だと、その波が言ったら荒い。
うん、そうなる。し、ギザギザになるからそのリアル感が損なわれるっていうのかな。
で、そこでもう1個難しいのがですね、音の高さって波の細かさっていうか、どれだけ細かい範囲内で音が鳴るかっていうことなんだよね。
その高い音って1Hzの音って波が1秒間の間に1秒間で1回行って戻ってきてっていうことをやる。
09:06
100Hzって100分の1秒の間に波が1回行って戻ってきてっていうことをやる。
で、44.1kHzって44100分の1秒の間に波が1回戻ってきて減るっていう音が44.1kHzの音になるんだよね。
だからその原理上44100分の1でしかデータを区切っていないので、それよりも高い音っていうのは44.1kHzで記録している限りはデータとして残すことができない。
言ったら高低差で考えるってこと?一番低い波のところと一番高い波のところがその44000以上の差があると入らなくなるってこと?
そもそもが縦波から横波に変換しているのでイメージでの話になるんだけど、イメージとしてはそういうイメージ。
でもさ、それを考えたら不思議なことに44.1kHzで録音したら、その44.1kHzの音まで記録できるはずじゃん?
でもさ、CDは20kHzぐらいまでしか記録されていないって言ったでしょ?
これが面白いところで、わりと結構物理学っていうか数学っていうかそういうようなイメージがあるんだけど、
標本化定理とかナイキストレート、ナイキスト周波数っていう用語が出てくるんですが、点々をつなげて波を書こうっていう場合に波のウニョウニョってあるじゃん?
実は2つの点々をつなごうとすると、波の高さって同じ2つの点をつなぐ場合でも、上から下まで1回でつなぐっていう場合と、もう1個倍の高さの音の波っていうのも同時に同じ点を通るものとして書くことができてしまう。
これをこれ以上俺の技術で詳しく説明することは難しいので、これはもう是非絵とかを見た方が分かりやすい。
ナイキストレート、ナイキスト周波数とかで調べると、そういうことができるっていうのが分かったりするんだけど、標本化定理っていうものでデジタルに変換した場合には、サンプリング周波数の半分の音の高さまでしか再現することができない。
だからCDとかは20kHzまでしか入ってないってこと?
そうそう。ハイレゾーが一般的に40kHzぐらいまで聞けたらいいよっていう風に言っているのも同じようなことで、ハイレゾーって大体24bit、96kHzとか192kHzとかっていう感じになるんだけど、
12:02
96kHzの音っていうのは、大体半分の50kHzぐらいまでの音しか再現ができない。だからハイレゾーのヘッドフォンっていうのは、ルールとして40kHzまで再生できたら、ハイレゾーで記録できている音を全部再現できるということにしましょうっていう感じのルールが定まっている。
だからハイレゾー対応のヘッドフォンって言ってもピン切りで、値段も性能もまちまちってこと?
さらにそれを、あくまでもCDってデジタルデータに変換して録っているんだけど、今度は聞く側はデジタルデータのままでは人間は理解ができないので、もう一回波っていう縦波なんだけど、空気の振動っていう縦波に変えてあげて聞かないと聞くことができないんだよね。
なのでそれを空気の縦波に変えてあげる回路の能力によって、もともとの波の音をどれだけ忠実にそのままかっこよく再現できるかっていうものが、質が変わってきてしまう。
なのでそのオーディオ沼にはまると、だからこのCD収録されている音をできるだけ収録されたままの綺麗な波に変更するということに、やっぱりお金と力をかけていくっていうことなのかな。
これってさ、今後もっとすごくなる可能性ってある?
それがねめっちゃ面白いことにね、まさにその話ももう一個しようとしていたんですけど、すごいね春名さんが。
ハイレゾのことを調べていたらさ、さっきPCMっていう用語が出てきたんだけど、もう一個ねDSDっていうダイレクトストリームデジタルっていう音の記録の仕方っていうものがあるらしくて、
そういう音の記録の仕方をすると、またこれまでのそのPCMとは違って、なんかもっとリアルで言語に忠実な雰囲気を再現しやすい音の記録の仕方というものがすでに存在しているらしい。
で、あのめっちゃこれ波、高校の物理学とかでもさ、波ってなんかいまいち理解ができていなかったっていう実感があるんだけど、縦波と横波ってわかる?
わからない。
だよね、俺もねわかるってほどね、ちゃんとわかるかって言うと難しいんだけど、縦波、横波ってイメージとしては、あの縄跳びをウニョウニョウニョウニョンってやると波ができるじゃん?
どっちに?
上下に。
上下に縄跳びをこうやる。
上下向きに波が見えるじゃん?波って言うと一般的にそれを想像するんだけど、音ってそういうものではなくて、それっぽい用語で言うと素になったり密になったりして、その音って伝わってくるんだよね、空気が。
15:11
バネ、バネをなんかスプリングのおもちゃってわかる?階段とかポトンポトンポトンって降りていくやつ。あれをさ、両手で左右に持ってブルブルって左右に振動させてあげると波が、バネが細かい部分と薄い部分とできるじゃん?
なんかが動いてるみたいに、ボールが行き来してるみたいな感じに見えるのは想像できる。
まさにもう見えるは想像できる。ボールが行き来しているみたいな感じっていうあれでいいんだけど、イメージとして縦波ってあれなんだ?そのボールが、ボールじゃない、その波、バネがその隙間が広いところと隙間が細かいところとできたりするじゃん?
さっきの縄跳びも縦波?
縄跳びは横波で音が原始が上下に動いているっていうイメージをすればいいのかな?
縄跳びは上下に動かすけど、あれは縦波じゃなくて横波。
横波っていう表現をするね。そのあたりがですね、俺の波、波理解力がまだ足りていないことの証明でもあったりするんだけど。
大雑把に、音に波が2種類あるっていう。
音に波が2種類あるんじゃなくて、音はさっきのバネなのよ。音の伝わり方っていうのはバネの仕組みで伝わっているんだ。
デジタルデータ、さっきのPCMっていうのは、要するにバネの仕組みで伝わる音ってさ、あれって絵に描くのがとてつもなく難しいでしょ?
あのバネの様子っていうのは。縄跳びの縄の感じって絵に描くのは簡単じゃん?
でもバネのあの様子っていうのを絵に描くのってすごい難しいから、
パソコンでの扱いやすさ的なものを含めて、縦波っていうものを横波に変換して、
録音データとして記録して、その横波に変換したものを聞くときにはまた縦波に変えて聞くっていうことをやっているんだよね。
でもそれって要するにさ、やっぱり変換するからダメやん?
で、そのDSDっていうのは仕組みとして縦波を縦波のまま記録しようって考えた。
で、どうやって記録するかっていうと、さっきまではさ、44.1kHzとかっていうさ、
4万4千分の1秒ごとに、なんかどのぐらいの音の強さがありますっていうのを記録していたんだけど、
DSDっていうのは、その細かさというものをそこから何百倍も細かいものにして、
なんか2.8MHzとか5.6MHzっていうぐらいの音の細かさを区切って、
で、そこにあるかないかの1ビットのデータしか記録しない。
そうすると波っていうのがさ、すごーく細かく、
18:03
ここにはあって、ここにはなくて、あってあってあって、なくてなくてっていうので、
バネみたいなものが絵でも再現できる。
この辺はちょっと濃い感じで、この辺はちょっと薄い感じでっていうので、
縦波を縦波っぽいまま記録できるようになる。
で、そういう音楽の記録方法っていうのも新しく出ていて、
やっぱりソニーのMolaとかのサービスがそれ系にすごい力を入れているらしいんだけど、
その一部の楽曲とかはそういうDSDっていう方式で記録したもので提供しているものもあったりする。
でもそれって結局そのDSDで記録したものが再生できる機器というか、
その対応したものでないとその変換ができないってこと?
もちろんそうなる。
なのでDSD対応の再生機器っていうのを、
そういういわゆるDACとかデジタルアナログコンバーターみたいなのは結局必要になるので、
そういうものはいるんだけど、
特にクラシックとかジャズとかってやっぱり生の楽器の空気感みたいなのが音の良さっていうか、
いい感じの音に大きく影響するらしいので、
そのDSDで記録したものっていうのはよりその生っぽい感じの音で聞けるらしいって知って、
ちょっと試してみたいなって今自分は思っている。
ただこのDSDって超絶厄介で、
要するに絵で描きづらくて扱いづらい波なので、
基本的に編集ができない。
編集をしようと思ったら横波に変換してまた縦波に戻すっていうことをやらないといけないので、
結局データの再現性っていうか、そのままの音で結局再現できなくなってしまって、
パソコンでイコライザーをかけるということもできないし、
エフェクトをかけるみたいなことも実質できないので、
やっぱりパソコンで扱う場合、EDMなんか作る場合にそのDSDで作るなんていうことはほぼ不可能だし、
一部のジャズクラシックなどの特殊な業界のみで今後も使われていくフォーマットで、
誰もが普通に当たり前に使うものではなさそうだった。
EDMって何?
エレクトロニックデジタルミュージックだったかな。
ダンス音楽みたいなドゥンドゥン響く感じの音楽。
パソコンで作った感じの音楽みたいなやつ。
っていう感じで、そんなもののことも全然知らなかったということをハイレゾについてちゃんと調べてみたら、
いろいろ知ることができるようになりまして、
あと自分が波のこととかをちゃんと知らないからそこがうまくちゃんと説明ができないということも分かったりもして、
いろんなことを勉強するのにも学校の勉強がちゃんと役に立つんだなっていうことだったり、
21:05
今になって新しいことをこうやって勉強。
これはね、すげー面白かったんだよね。
だから44.1kHzで20kHzってそういうことだったんだみたいなこともやっぱり分かったのが面白かったりして。
なんかその腑に落ちる感じっていうのを自分の中で、
例えばそれが過去に学校で義務教育中とかに勉強したことだったり、
大学で専門的なことを学んだことだったり、
自分がその社会に出てから経験したことだったり、
いろんな自分の経験値とか本から学んだ知識とかそういうのがミックスされて、
なんかさ、そういうことかみたいに腑に落ちる感覚があると楽しいよね。
そう、なので今後も多分まだまだ知らないことはいくらでも無限にあると思うので、
なんかこう新しいことを学べたら、
積極的にポッドキャストとかブログなどでも紹介していきたいなと思っております。
こういう感覚とかさ、その小学校、中学校、高校とかにさ、
知っていればもっと勉強できる子になってたんじゃないかって思うんやけど。
それ難しいよね。誰もが言うことだよね。
でもまあ言ったら今からでも遅くないだと思う。
結局全ては。自分がその40歳になって思ったのは、
80歳まであと40年あるのでもう1回勉強すればいいじゃんって普通にっていうのはすごい思っていて、
さらに言うとポッドキャストとかでこうやってしゃべること自体が勉強することにもほぼイコールでつながっているので、
学んだことは積極的に話せていけたらなっていうふうに思っています。
遺伝子とかも最近だいぶこの半年ぐらいで理解が進んできて、
それとかも話せるようになったらいいなって思っているんだけど、そんな感じですかね。
今日はハイレゾについていろいろ調べて、いろんなことが分かっていないことが分かったのと、
いい音で聞くためには物理と数学の知識もいるぞっていう意味でも面白かったですね。
物理、数学、コンピューターかな、分野で言うなら。
っていうのも知っておくと、よりちゃんとした方向でいい音を追求できるっていうのも面白いなと思いました。
23:27

コメント

スクロール