コーパスとその重要性
おはようございます。英語の歴史を研究しています堀田隆一です。 このチャンネル英語の語源が身につくラジオheldioでは、英語に関する素朴な疑問に英語史の観点からお答えしていきます。
毎朝6時更新です。フォローしていただきますと更新通知が届くようになります。 是非フォローしていただければと思います。
またコメントやシェアの方もよろしくお願い致します。 本日の話題は
コーパスから飛び出してきた、いかにもブリティッシュ、いかにもアメリカンな単語たち という話題です。
息抜き的に楽しめる面白い話題だと思いますね。 コーパスと言いますと、このチャンネルのリスナーの多くの方々は、あのことかと思うかもしれませんが
初めて聞いた、あるいはコーパスって聞いたことあるけど何のこと?という方のために 簡単に説明しておきたいと思うんですけれども、例えば英語のコーパス。
現代英語のコーパスというものは、現代英語の書き言葉であったり話し言葉であったり というものをバランスよくいろんなジャンルから集めて言語資料とする。
言語研究のために編参された、集められた一種の言語資料の総体ですね。 これをコーパスと呼んでいて、様々なものが出ています。
もちろん言語上のあるデータを拾い出そうと思ったら、今だったらウェブ上で、 例えばGoogle検索などで出してみればいいということかもしれませんが、
Googleの中身はあまりに多様で多すぎて、量もですね。 元の総体がどれくらいの規模なのかとか、どういうジャンルが主に集まっているかっていうのが、
ある意味ではブラックボックスなんですね。大きすぎてって言いますか。 こうすると言語研究にあまり向かないんですね。
やはり、正体が知れていたほうが言語研究所、言語研究というのは科学ですから、 客観的な科学ということで、元が知れているっていうことは割と重要になってきて、
そうすると言語学者が言語研究のために意図的に編んだ、 編集した言語資料っていうのがあるほうが安心するっていうことで、
コーパスっていうのは言語学者によってだいたい作られた、 言語研究を目的として用いる言語資料ということになるんですね。
英語コーパスの比較
英語というのは最も研究されている言語なので、 このコーパス、基本的には電子的な形態ですね。
これがさまざまに作られているわけなんですけれども、 その中でもある程度ジャンルに特化していたり、
ある特殊な編集に特化していたりっていうものを、 さまざまなコーパスが作られています。
一番分かりやすいのは、アメリカ英語のコーパスと イギリス英語のコーパスみたいなタイプで、
英語のある種方言ですね、編集といいますか、 アメリカ編集とイギリス編集っていうコーパスを、
2つ比べられるような規模であるとか、 中身の構成というもので作っておいて、
その2つをいろいろと比べることによって、 アメリカ英語とイギリス英語の違いみたいなものを、
統計的に、数値的に取り出すことができるであるとか、 検索することができるっていうような、
そういったコーパスがいろいろと編纂されています。 レキスコーパスというのがありますね。
小英語のコーパスとか、中英語のコーパス、 近代語のコーパスみたいな形でやることによって、
数字的な変化、英語がどのように変化してきたのかっていうことを、 いろいろ統計的にやったり、
あるいは例文を拾い出したりっていうことができる。 そうしたものがコーパスと呼ばれるわけなんですけれども、
今回はこのコーパスの面白さといいますかね、 ここからちょっとした面白い話題を引き出したいと思うんですけれども、
私自身がやってみた調査なんですね。 コーパス自体は既成用のものというか、
既に出来上がっている、余れているものを利用させてもらったんですが、 今回使うのはですね、アメリカ英語とイギリス英語を比べてみたいっていう趣旨で選んだんですけれどもね。
今回利用したのはフラウンコーパスと呼ばれているコーパスで、 これは1992年時点でのアメリカ英語の書き言葉なんですけれどもね、
これを集めたコーパスです。100万語くらいからなる言語資料で、 今となっては実はこの100万語っていう規模はかなり小さいものなんですが、
コーパスの早々期といいますか、出来上がった時期はですね、 この100万語っていうのは一つのゴールとしてあって、よく使われたものなんですけれども、
資料は古いと言いながら、なかなか面白い結果は出ますので、 あえてこの時代にも1992年何回もですね、 フラウンコーパスというアメリカ英語のコーパスを一方でまず使います。
他方、イギリス英語でもそれに見合ったと言いますかね、 むしろ比較対象っていうのを想定したイギリス側のコーパスっていうのが作られまして、
これがエフロブコーパスというもので、 1991年の時点でのイギリス英語の書き言葉をやはり同じく100万語、 そして内部構成も大体同じということで比較可能にしたものがあるんですね。
この1990年代の前半という、今から30年ほど前の英語ではありますけれども、 しかも書き言葉限定ではありますけれども、その中における英米差、 英語の英米差っていうものを調べてみようと思ったんですね。
キーワード分析の結果
英米差といっても何を調べるかということになるんですけれども、 ここでちょっと面白いのは、キーワードアナリシス、キーワード分析っていうのがありまして、 この2つのコーパスを掛け合わせて、コンピュータにいろいろ計算させます。
頻度とか、書く単語の表れる頻度とかいうことですね。 これを掛け合わせて、キーワードという指標を一覧にするんですね。
一般用語でいうキーワードと違って、コーパス言語学でいうところのキーワードというものはですね、 例えばこの2つのアメリカ英語とイギリス英語のコーパスを比べたときに、 明らかに優位さを持ってアメリカ英語のコーパスの方にしょっちゅう現れる単語と、逆にイギリス英語のコーパスの方にやたらと現れるなっていう単語ですね。
つまり、いかにもアメリカンな英単語とか、 いかにもブリティッシュな英単語っていうのを、数値上、頻度計算をしながらランキングを作るわけですね。 それキーワード一覧として現れてくるわけです。 計算をさせると。それが上位からずっと上がってくるわけですね。
面白いのは、例えばイギリス英語では絶対使わない単語なんだけれども、 アメリカ英語のみで出てくるっていう意味で、アメリカ英語の特有のキーワードっていうのが出ますね。 こういうのも確かに上がってくるんですが、これはですね、実はそんなにすごく面白いわけではないですね。
っていうのは、最初からわかってるから。 これイギリス英語では出ない単語で、アメリカ英語では出てる単語だっていうのは、 割と英語の英米さんみたいな本であるとか辞典みたいのによく載ってるんで、 この対比関係っていうのはですね、よく知られている。 だからこれが出てきたところでも、そうだよねぐらいの反応にしかならないんですけど、 実は面白いのは、両方の編集で普通に使われてる単語である。
だけれども、統計という人間の直感が及ばないような操作を加えると、 両方に使われる単語で、当たり前に使われる単語ってわかってるんだけれども、 どうも統計にかけると、やたらとアメリカ英語でのほうが使われてるらしいよとか、 イギリス英語のほうで使われてるらしいよっていうものが現れてくる。
つまり、これは言語直感に必ずしも引っかからないようなところを、 コンピューターの統計操作によって、実はこれアメリカンだったんだよとか、 ブリティッシュだったんだよっていうものが出てくるっていうケースがあるんですね。 こっちのほうが実は見ていて面白い、閉眼感があるんですね。
中には、なるほどね、だからアメリカンなのねとか、 ブリティッシュなのねっていうふうに説明がつけられるものもあれば、腕組んでもわからない。 なんでこれ両方の編集で普通に出る単語だと思われるんだけれども、 なんでこれが上位に上がってくるんだろうみたいのもあったりして、謎がたくさん出てくるんですね。
これが面白いっていうことで、遊び感覚ではあるんですけれども、 今回はそれをやってみたっていうことですね。 では具体的にいくつか見てみたいと思うんですね。
詳しくはこのチャプターに貼り付けたURL先のヘログ記事なんですけれども、 こちらを参照していただければと思うんですけれども、 例えばですね、アメリカ英語に対していかにもイギリス英語的な単語、 いかにもブリティッシュっていうもののランキング上からですね、50位というのを取り出しました。
第1位がですね、セントなんですよ。C-E-N-Tのあのセントです。 なんでと思うじゃないですか。セントって言うとダラーの100分の1の単位の効果で、むしろこれアメリカンだろうと思われるんですが、 イギリス英語に典型的な単語、計算させるとキーワードの第1位で出るのがセントなんですね。
これは全く下せないわけなんですが、同じようにですね、アメリカ側でアメリカ英語的な単語は何かというキーワードでランキング50位を取ると、トップがですね、なんとパーセントなんですね。これでわかりました。
イギリス英語では実はパーセントっていうあの単位のことをパラレルとセントを分かち書きするんですよ。
2語になっちゃうんですね。それに対してアメリカ英語ではパーセント1語で綴るんですね。 そしてそのコーパスは比較的その何とかパーセントっていう表現がアメリカ側もイギリス側も多かったんじゃないかと思うんですけれども、その際に綴りの違い、つまり分かち書きするかしないかっていうここの違いですね。
コンピューターはとにかく分かち書きされていれば1語とみなすんで、イギリス側のパーセントは2語、アメリカ側は1語とやりますよね。そうするとやたらとイギリス側でパーセントのセントが出るなという、その辺りをつかんで統計にかけて数値化したらキーワードとして1になってしまったっていうことだと思うんですよ、おそらく。
それぞれのコーパスで1位がイギリスでセント、アメリカでパーセントというものの解釈はその辺りしかないんじゃないかなと思うわけですね。
人間から見るとバカバカしい話ですが、コンピューターとしてはそういう処理の仕方をするので、そういうことになるのかと。つまりセントが最もブリティッシュ、いかにもイギリス英語ということになって、トンチンカンな結果になりますが、これはこれでなんか面白いっていう感じですね。
英米のつづり字の違い
それからよくあるのは、英米でつづり字が違うっていうものです。あくまで書き言葉のコーパスですし、出てきたものもつづり字をベースに同じかどうかっていう判断がコンピューター内でなされているわけなので、そういうものがイギリス特有のつづり字の単語がイギリス英語のコーパスのキーワードとして上位に来るのは当然だし、逆もまたしんなりっていうことで、
こういうのは一般に言われているアメリカつづり、イギリスつづりみたいなものが一覧になっているような表がありますが、これが結局キーワードのランキングでも上位に来るってことです。
例えばセンターであるとかですね、カラーっていうのもそうですし、フェイバーとかレイバーとかプログラムなんていうのもそうですね。これなどはさすがに上位に来るんだろうなということで、これも説明もたやすいし、そういうことだろうなと納得しやすいんですね。
それよりももう少し面白くなってくるのは文化的な語っていうんですかね。イギリスの文化社会っていうものとアメリカの文化社会みたいなものがきれいにその違いが出てくるような単語がですね、リストの中にいくつか含まれていまして、
例えばイギリスの政治を特徴付ける、書き言葉ですからニュースみたいなものも多分多く含まれているコーパスなんだと思うんですね。なのでそういった単語、ニュースに関係するイギリスの政治みたいのを特徴付ける単語がたくさん上がってきまして、
そして例えばMPs、これ国会議員のことですね。メンバーオフパーラメントということでMPであるとかNHS、これイギリスの保険システムですね。それから議会のことパーラメントっていうのは出ますね。これはイギリス議会特有の単語です。そしていかにもイギリスらしいんですがロイヤルっていうのが上位に上がっています。
これはアメリカでは出ないでしょうね。それからスコットランドであるとか、トーリーという政党の名前なんかも上がってきて、いかにもブリティッシュという感じがしますね。対応するアメリカの方は、コングレス、フェデラル、プレズデント、ステイツ、ワシントン、ホワイト、これホワイトはホワイトハウスのホワイトだと思うんですね。
ということで、このリストを見ると、なるほどと面白くなってくるっていうことですね。さらに固有名詞で言うと、1990年代初頭や、あるいは少し以前の時期を特徴付ける人の名前として、ファッチャー、ブッシュ、クリントンというのも含まれていて、もちろんどちらが多く現れるかっていうのは分かると思うんですね。
このように言語的あるいは文化的な差がそのままランキングに反映してるっていう例は見ていて面白いし納得感があるんですが、実は一番よくわからなくて、その分一番面白いと言えるのが、何でこの単語が上位に上がってくるんだろうという、下せない例っていうのがあるんですね。
両方の編集で普通に使われてるはずなのに、なぜこっちでキーワードに上がってくるんだろうというのがありまして、例えば今回の例ではイギリス英語のなかなかの上位にワーズっていうのがあるんですね。
これなんでっていうことですね。それからイギリス英語で同じく、itっていうのもあるんです。B動詞のbeっていうのもあるんですね。thereっていうのもあります。これちょっと説明ができなすぎて、何なんだろうと思うんですね。もちろん最初の母体の交発自体に何らかの偏りがあると言いますかね。原因があるとかそういうことなのかもしれませんが、相当深く調べ込まないと、
これなんでなのかっていうのは行きつかないんじゃないかなと思うんですね。他にイギリスではyesterdayとかですね、なんでと思うわけですよ。beenとかbeingっていうbeの変化形も入ってまして、これイギリス英語の方が取り分け多いとかそういうことってあるんだろうかという感じですよね。よくわからない。
コーパスの利用と面白さ
アメリカ英語でもそういうものはありまして、例えばですね、上位になんでこれがっていうところで言うと、sayの3単元sの形ですね。これなぜこれがアメリカンというキーワードで上位に上がるのかっていうのはわからない。それからwomenってのも入ってますね。
womenの複数形です。複数形限定で上位に入ってるっていうのも、これアメリカ人の方がwomenって使うのかなとかいろいろ考えさせられるんですけれども、よくわかりませんね。コンピューターがやることなだけに面白い、人間には想像できないようなものが上位にランキング入ってくるっていうのは、これはこれで楽しみ方としてあるなというふうに思った次第です。
今日はコーパスというものを導入してみました。今では多くのコーパスがフリーでウェブ上で使えるっていう時代です。英語のコーパスも様々な形で公開されていまして、ちょっとした手続きでですね、みんなが使えるっていうものも多いです。
関心を持った方は、ぜひですね、いくつかのコーパス。例えば代表的なもので言えば、イギリス英語であればBritish National CorpusというBNCと呼ばれるものが有名ですし、アメリカ英語であればCOCAと呼ばれるCorpus of Contemporary American Englishというものもありますね。
いずれも少し登録作業を済ませれば、フリーで皆さんも利用することができます。英語学習や英語のちょっとした調べもの。通常は辞書であるとかウェブ上のGoogleなどでちょろっと調べるっていうことが多いかもしれませんが、ある意味では信頼のおける言語学者が言語研究のために編んだコーパスというもの。
これが無料で公開されていることが多いので、ぜひお使いになっていただければと思います。今回はコーパスの面白い使い方の紹介という感じでした。
今日も最後まで放送を聞いていただきましてありがとうございました。コーパスというものをHeldioで初めてコーパス自体としてコーパスの面白さということで紹介してみた回だったと思うんですけれども、コーパス言語学、コーパスを使った英語の研究であるとか、あるいは学習、教育ですね。
関心を持った方は、このチャプターにいくつかのヘログ記事を貼り付けておきましたので、そちらを参照していただければと思います。他に英語に関する素朴な疑問ですね。英語字の観点から迫ると解決することが多いということですので、ぜひこのチャンネルに関するご意見、ご感想、ご質問、そしてチャンネルで取り上げてほしいトピックなどがありましたら、
Voicyのコメント機能、あるいはチャンネルプロフィールにリンクを貼っています。専用フォームを通じてお寄せください。それではまた明日。