1. 志賀十五の壺【10分言語学】
  2. #649 ジップの法則とは何か? ..
2024-05-07 09:04

#649 ジップの法則とは何か? from Radiotalk

X▶︎https://x.com/sigajugo
Instagram▶︎https://bit.ly/3oxGTiK
LINEオープンチャット▶︎https://bit.ly/3rzB6eJ
オリジナルグッズ▶︎https://suzuri.jp/sigajugo
note▶︎https://note.com/sigajugo
おたより▶︎https://bit.ly/33brsWk
BGM・効果音: MusMus▶︎http://musmus.main.jp/

#落ち着きある #ひとり語り #豆知識 #雑学 #教育

サマリー

ジップの法則についての話です。

ジップの法則について
始まりました、志賀十五の壺。皆さんいかがお過ごしでしょうか。青日月様時です。
お便り、お便りというか、ギフト、Radiotalk宛てに頂いております。
ハッシュさん、そしてすこやすみさん、そしてゆっこんこんさんからギフト頂きました。ありがとうございます。
Radiotalkだと、月末に限定ギフトみたいなのがあるので、送って頂きました。どうもありがとうございます。
さて、今回のエピソードは、ジップの法則というのをテーマにお話ししていきます。
ジップといっても日テレの番組ではなくて、人名でございます。
ジップという人が提案、発見した法則です。
これ、自負と言われることもあるみたいですね。自負の法則と言われることもあるみたいですが、何はともあれ、ジップの法則。
これがね、なかなか面白いんですよね。面白いから今取り上げてるわけですけど、
どういった法則かというと、例えば英語で一番よく使われる単語。
書き言葉で、話し言葉もそうかもしれませんけど、そのテキストの中で一番使われる単語は何でございましょうか。
みなさん予想つくでしょうか。正解はtheでございます。定漢詞のthe。これが一番英語で使われる単語です。
ちなみに英語で一番使われるアルファベットっていうのはeなんですね。それはそれとしてtheというのが一番よく使われる単語。
2番目はof、3番目がandで4番目がto、5番目がこれも漢詞のaという風に、漢詞とかね、前置詞、接続詞、そういったものがよく使われる単語、英語でよく使われる単語の上位を占めてるんですね。
こういったものは言語学で機能語と言われることがあります。内容語っていうのと対比されて、ドッグとかね、何でもいいですけどハウスとか、なんかそういったものは内容語なんですよね。
そういうのに比べたら機能語の方がよく出てくるだろうなっていうのはなんとなく想像ができるんではないかと思います。
で、最もよく使われる単語であるthe、一番使われるといって果たしてどれくらい使われてるかというと、全体の6.5%だそうです。
6.5%、まあ多いんじゃないですかね、何万と、もっとかな、ある単語の中でtheという一つの単語が6.5%占めてるんですね。
で、2番目のofっていうのはどれくらい使われるかというと、3.2%ぐらいの頻度でね、出てくるということです。
だからちょうどtheの半分ぐらいの頻度でofっていうのが出てきているということです。
これがまさにZIPの法則というもので、では3番目の単語、3番目に頻度の高いandっていうのは2.2%の割合を占めていると。
これはtheの3分の1に当たるんですね。
つまり1位の単語と比べて、2位の単語はその2分の1の頻度で品質出てきて、3位の単語はその3分の1。
4位だったら4分の1、5位だったら5分の1っていう風になるそうです。
これはずっと下の方まで続いて、例えば18番目の単語っていうのは英語だとasなんですけど、これはtheの18分の1の頻度で出てくるということです。
それはだいたい0.4%に当たるみたいです。
これはなかなか面白いですよね。
さらに面白いのは、これは英語に限った話ではないということです。
例えば、エジプトのヒエログリフのテキストでもこのことは当てはまるし、人工言語のエスペラントであってもZIPの法則は適用できるんだそうです。
ZIPの法則の適用範囲
面白いですね。
自然言語だけではなくて人工言語であっても、やっぱり1位の単語と2位の単語を比べたときに2分の1の頻度になってて、3位だったら3分の1、4位だったら4分の1となるんだそうです。
おそらく日本語にも当てはまるんでしょうけど、日本語についてのZIPの法則は調べてないので、ちょっとなんとも言えないんですけど、どんな言語にでもこのZIPの法則っていうのは当てはまるということです。
ウィキペディアでZIPの法則あるいはZIFの法則っていうのを見てみると、それが言語以外にも当てはまるんだみたいな話が書いてあります。
そのZIPの法則が言語に当てはまるっていう話ですけど、それは1つの雑誌とか1冊の本であっても当てはまるんだそうです。
テキストの規模によらず当てはまる法則だそうです。
それが言語以外にも当てはまるということですが、
ウィキペディアを見てみると、例えばウェブページのアクセス頻度。
だから1番アクセスされているページと2番目と比べると2分の1になっていて3番目は3分の1っていうそういうことなんでしょうね。
あとは都市の人口。
音楽における音符の使用頻度。
あと個体が割れた時の破片の大きさ。
これがちょっとピンとこないですけど、いろんなものにこのZIPの法則っていうのは当てはまるそうです。
こういうふうに考えると、言語っていうのもやっぱり自然の一部なんだなというかね。
自然の法則に従ってるんだなっていうのがなんとなく感じられますね。
ちなみに僕は人口言語を作っているんですけど、
自分の人口言語でこのZIPの法則が当てはまるかどうかはわかんないですね。
そんなにテキストがまずないので、文法書を書いているだけといえば書いているだけなので、
ひとつなんかね、物語でもなんでも作ってみたらZIPの法則が当てはまるのかな。
英語を見る限り漢詩とかね、禅知詩とか節俗詩とかね、
さっきお話ししたように機能語が多かったので、おそらく機能語が上位に来るでしょう。上位を占めるでしょう。
というわけで今回はZIPの法則というね、言語の奥に潜む法則、あるいは言語のみならずね、いろんなものの裏に潜んでいる法則についてのお話でございました。
それではまた次回のエピソードでお会いいたしましょう。
番組あてのギフトお便りお待ちしております。
番組フォローも忘れずよろしくお願いします。
お相手はしがじゅうごでした。
またねー。
09:04

コメント

スクロール