2025-10-10 42:29

#1594. 続・コーパスとは何か? --- khelf メンバー3名で議論しています

▼2025年10月15日に新刊書が出ます


📕井上 逸兵・堀田 隆一 『言語学でスッキリ解決!英語の「なぜ?」』 ナツメ社,2025年.


- YouTube 「いのほた言語学チャンネル」が書籍化されました

- Amazon 新着ランキングの英語部門で第2位を記録

- Amazon での予約注文はこちら:https://amzn.to/4nmDn6Y

- 本書を紹介するランディングページはこちら:http://user.keio.ac.jp/~rhotta/hellog/inohota_naze


▼2025年6月18日に新刊書が出ました


📙唐澤 一友・小塚 良孝・堀田 隆一(著),福田 一貴・小河 舜(校閲協力) 『英語語源ハンドブック』 研究社,2025年.


- Amazon 新着ランキングの英語部門で第1位を記録

- 発売3ヶ月で早くも3刷が決定

- 「本格的な語源本」としてご好評いただいています

- Amazon での購入はこちら:https://amzn.to/4mlxdnQ

- 本書を紹介するランディングページはこちら:http://user.keio.ac.jp/~rhotta/hellog/lp/hee.html


▼パーソナリティ,堀田隆一(ほったりゅういち)の詳しいプロフィールはこちらの note 記事よりどうぞ.


- https://note.com/chariderryu/n/na772fcace491


▼heldio のビデオポッドキャスト版を Spotify で始めていますので,そちらのフォローもよろしくお願いします.


- https://open.spotify.com/show/0xOyOIXBUrIZbnwSLeJsSb?si=zH5V2CjkS0ekqNz5ro7caw


▼helwa リスナー有志による月刊誌「Helvillian」の11号が公開されています


- 第11号(2025年8月28日):https://note.com/helwa/n/n2415c5e4db5e


▼2025年7月7日に『英語史新聞』第12号がウェブ発行されています.


khelf(慶應英語史フォーラム)による『英語史新聞』第12号がウェブ公開されています.こちらよりアクセスしてください


- 第12号:https://drive.google.com/file/d/1eQawDu2njFNMMVKDUr4JRZdIWTNHDdha/view?usp=drivesdk


第12号公開については,khelf 公式ツイッターアカウント @khelf_keio (https://x.com/khelf_keio) を通じても案内しています.

リツイートなどを通じて「英語史をお茶の間に」の英語史活動(hel活)にご協力いただけますと幸いです.


▼プレミアムリスナー限定配信チャンネル「英語史の輪」 (helwa) も毎週火木土の午後6時に配信しています


「英語史の輪」にこめる想い


1. レギュラー放送は,これまで通り,最大限に良質な内容を毎朝お届けしていきます.プレミアムリスナー限定配信チャンネル「英語史の輪」のための課金の余裕がない方々(例えば中高生や英語史を真剣に学びたい苦学生など)は,無料のレギュラー放送のみを聴き続けていただければと思います.レギュラー放送では,皆さんに最良の放送をお届けし続けます.


2. プレミアムリスナー限定配信チャンネル「英語史の輪」で得た収益の一部は,レギュラー放送の質を保ち,毎日円滑にお届けするための原資とします.


3. また,収益の一部は,Voicy 以外でのhel活をさらに拡大・発展させるための原資とします.


4. ときに khelf(慶應英語史フォーラム)やプレミアムリスナーにも協力していただき,hel活の新機軸を打ち出していきたいと思っています.企画本部としての「英語史の輪」です.

5. ぜひとも「英語史の輪」のプレミアムリスナーになっていただきたい方


 ・ hel活を応援したい方(資金援助,広報支援,盛り上げ係りなど.研究者,学生,一般の社会人など職種や専門は問いません.)

 ・ 毎日もっともっと英語史に触れたい方,レギュラー放送では足りない方

 ・ 私(堀田隆一)の話をもっと聴いてみたい方

 ・ レギュラー放送のような一般向けの話題にとどまらず,もっと専門的な英語史の話題も聴いてみたいという方

 ・ レギュラー放送で言えない/配信できないような「低い」話題(対談のアフタートークや飲み会での雑談など)も聴きたいという方

 ・ パーソナリティおよびリスナーさんどうしで,もっと交流したい方


以上,よろしくお願いいたします.

サマリー

このポッドキャストでは、ケルフのメンバーがコーパスの定義や使用方法について議論を交わしています。特に、電子コーパスの特性や重要性に関する意見が出され、研究におけるコーパスの役割が深く掘り下げられています。また、コーパスの研究においては、言語の偏りや代表性についても論じられています。歴史的な文書の研究の中で、コーパスの必要性や限界が触れられ、文化的要素を考慮した言語生活の重要性が強調されています。エピソードでは、コーパスの基本的な概念とその扱いについての深い議論が展開され、著作権やデータの解釈、フィロロジーとリングイスティックスの違いなどが取り上げられています。さらに、AI技術の進展が言語研究に与える影響や未来の研究の可能性についても考察されています。このエピソードは、コーパスの定義や目的についての議論を通じて、リスナーに考えを促しています。

00:00
おはようございます。英語の歴史の研究者、ヘログ英語詩ブログの管理者、英語の謎に答える初めての英語詩の著者、そして6月18日に研究者から刊行された英語語源ハンドブックの著者のホッタリウイチです。
加えて、来る10月15日に夏目社より新刊書が出ます。同僚の井上一平さんとお届けしているyoutube チャンネル 井の穂田言語学チャンネルから生まれた本です。
井上一平ホッタリウイチ長 言語学ですっきり解決英語のなぜ
ハッシュタグ井の穂田なぜとひらがな6文字で広報しております。 こちらもどうぞよろしくお願いいたします。
英語の語源が身につくラジオheldio 英語詩をお茶の間にをモットーに英語の歴史の面白さを伝え、
裾野を広げるべく毎朝6時に配信しています。 本日は10月10日金曜日です。皆さんいかがお過ごしでしょうか。
今日の話題は昨日の話と関連しています。 ただですね別日に収録しておりまして
直接の関係はですね ないと言えばないんですが話の内容としてはつながっています。
一人、ケルフより寺沢志穂さんは昨日の回にも今日の回にも出ているということでその辺のつながりはあるわけなんですけれどもね。
コーパスの基本的理解
タイトルは俗コーパスとは何か。 ケルフメンバー3名で議論しています。
ということで英語詩ライブ2025の当日に撮った声の書評からの流れでのコーパス談議、 昨日聞いていただきましたがそれとはまた別日にですね、後日
ケルフ会長の青木光さん、そして寺沢志穂さんと私堀田隆一、3人で集まったおりに改めてコーパス談議になっていったんですね。
そもそもコーパスとは何ぞやというメタなところから解き始めてなかなか濃い話になっていると思います。
昨日の回とは少し趣が異なるわけなんですけれども、ぜひですね、皆さんにこの機会に
英語詩研究とコーパスについて考えていただき、そしてコーパスに慣れ親しんでいただければと思うんですね。
俗コーパスとは何かというタイトルにしたのは実はだいぶ前なんですが、
俗が取れたですね、コーパスとは何かという第一回目と言いますかね、これをですね963回にヘルディオで配信しているんですね。
この辺り、昨日の配信会と合わせてさらにその963回、この辺りも聞いていただければと思うんですね。
各チャプターにリンクを貼っておきますので、そちらから訪れていただければと思います。
それでは行ってみましょう。俗コーパスとは何か。
ケルフメンバー3名で議論しています。どうぞお聞きください。
おはようございます。
コーパスの具体的な使用例
おはようございます。
本日はですね、ケルフ対談という形になるかと思いますが、まずケルフ会長を。
はい、青木です。よろしくお願いします。
そして、寺沢です。よろしくお願いします。
はい、3人でですね、集まる機会がありましたので、何か収録しようということで、いろんなお題が候補に挙がったんですけれども、コーパスについて語ってみようかということで、特にね用意はなく始めるんですけれども、
2人の研究は時代としては割と近いところですかね。
そうですね。私、近代英語機、初期近代英語機を主に扱っているので、そういう意味では寺沢さんとも近いですかね。
ほぼ同じですね。
話題としてはトートロジーと、あとつづり字ということでだいぶ異なるわけなんですが、時代として同じということは、使うテキストであるとかテキストの集合体は重なってくることも多いということで、
こういう際にですね、現代はコーパスと呼ばれるもの、主にこれ電子コーパスですね。紙のものもコーパスと言わなくはないんですが、現代コーパスという場合には通常マシンリーダブルっていうかね、のものですが、
コーパスってこのヘルディオでも多少紹介したりですね、考えてきたことがあったんですが、実際に使っているお二人の使用感とか、あとはそもそもコーパスを使うっていうことは言語研究によってどういうことなのかとか、
ちょっとコアなね、メタ的な話もしていきたいなと思うんですが、まずコーパスってどういうものだと思ってますかね。
コーパスってどういうものか。
一般的にはだから、基本マシンリーダブルで、現代においてはですね。そして、なんて言われますかね、いわゆるオーセンティックなテキストという言われ方で、つまり実際に基本文字、書き言葉だと思うんですけれども、多くの場合ね、古いものは、実際に書かれたものであって、ちゃんとものがある、そこから取ってきた。
つまり、例えばネイティブのその場で作った作文みたいなものではないっていうことですね。
コーパスに余れるっていうことを前提としていないで、素で存在していたテキストを、構成のものが集めて編集すると。
あとどんなイメージ。結局編集するっていう作業がありますよね。
基本的にはそうですよね。研究目的のために集められた言語データの集積体っていう感じですよね。
なんでもかんでもないわけですよね。例えば、Google検索だと、元のものがどこから集められてるのかわからないし、特に今のセセアイのLLMモデルなんかは、
もうありとあらゆるものっていう感じで限定されないぐらいですよね。
ただ言語研究でコーパスは元がちゃんとわかっているっていうか、ここからここまでを集めましたみたいなことが明示的になっているので、
つまりブラックボックス化していないっていうところが、客観的な言語学研究としては重要なので、
むしろ量だけあってたくさんあればいいっていうわけではないっていう思想が基本ありそうな気がするんだよね。
ある程度背景に質の担保の部分はありますよね。
そうですね。
そこと、あとコーパス。ただそうは言っても、例えば今、現代語の研究でよく使われる効果みたいなものは、
モニターコーパス的にもどんどん新たなものは付け加わってきているっていう意味では、
ちょっとブラックボックス的なところもありますかね。
それでいうと一個あったのが、私がトートロジーの研究してて、効果をベースにして表現を集めたんですけど、
なんかこれちょっとおかしいなと思う表現があって、ちょっと深掘りしてそれを研究してみたら、調べてみたら、
全然アメリカ人とかの発言じゃなくて、シエラレオネだったかの大統領の発言だったみたいなことがやっぱりあって、
ネイティブの英語を知るためにやってるのに、実はその全然ネイティブと関係ない人の英語が入っちゃってるみたいなことはありましたね。
たったありますよね。効果っていうのはコーパスコンテンポラリー?
アメリカンイングリッシュとか。そんな感じですよね。
ですが、アメリカのメディアから集めたっていうだけで、アメリカのメディアには多分いろんな人が発言していて、みたいなことを考えるとね。
似たような話は、寺沢さんが終始論文の研究などでやっていた、通り字の話でも、外国語が入ってきてると。
私が終始論文で、青木さんも使っていただいたと思うんですけども、
Early English Books Online、通称EVOっていうものを母体にしたコーパスがありまして、
初期近代英語記の印刷本のテクストを集めたコーパスになっているんですが、
この初期近代英語記っていうのは英語のテクストと言いつつも、
ラテン語のフレーズだったり、フランス語の文章だったりがかなり混ざっているテクストになっているので、
調べたいものを探していると、実はそれはラテン語だった、フランス語だった、みたいなことがある。
コーパス研究の課題と注意点
それに注意が必要というのはありましたね。
なるほど。そうすると、英語のコーパスですらなかったみたいな、まあ一部ですけどね。
そうすると、外国語の影響とか考えていろいろ研究なだけに、かなりこれは危ないというかリスキーですよね。
どうにそれを取り除いていくか、少なくとも結果のデータの中からは、
取捨選択というか、絞っていくかみたいなことはかなり悩んだ、ここ数年間でしたね。
あと何でしょうね。サンプリングが行われていて、なるべく、まあ本当にいろんなタイプのコーパスがあるんですが、いわゆるジェネラルコーパスというものだと、
いろんなジャンルが入っていた方が、現実の英語の多様な姿を近似的に模倣しているだろうということで、
例えば書き言葉ではなくて、話し言葉もあった方が本当はふさわしいし、
だけど収集の都合で、どうしても書き言葉が多くなってしまうという限界はあるんですが、書き言葉としても、例えば小説だったり、
詩だって書かれていることもあるし、あと説教集とか古くなると、いろんな媒体とかジャンルっていうのがあるので、なるべくいろんなものを
バランスよく努めて、何かに偏りすぎないようにというふうに最初に計画を立てるわけですよね。
コーパス編参者が。そのあたりが考慮されているっていうことですかね。ランダムではないっていう。
いわゆる代表性っていうやつですよね。実際の言葉を分析するっていった時に、その実際の言葉の分類って交互的なものが多いのか、書き言葉的なテクスト的なものが多いのかとか、
そういうバランスをうまく考えながら集めるっていう感じですよね。 だから英語を研究しようといった場合、ものすごく膨張としていて、
何を調べればいいのかっていう感じですよね。なので英語の、例えばテレビで話される英語とかニュースキャスターの英語ぐらいに絞れば、
その限定コーパスを作ることはできるんだけれども、多くの研究テーマって英語では最近こんな言い方になってるよとか、すごく大雑把に知りたいことが多いわけじゃないですか。
その時に逆にコーパスが偏っていると、間違った結果が出てしまうので、なるべくそのジェネラルなコーパスって欲しいわけですよね。
その点でいうと、やっぱりイーボって怖いですよねっていうのが。 これはどういう意味ですかね。
イーボって、これボイシーで話したことありましたっけ? 用語はね、ガンガン出してしまってると思うんですけれども、
ザンと言いますと、まあ先ほどね、省略形イーボで大元がEarly English Books Onlineということで、基本的には時代は
1473年ぐらいから1700年まで、15世紀末から17世紀いっぱいまで。
事実上、いわゆる初期近代英語記と言われている16、17世紀の200年間をターゲットにしていて、もちろんそこには
シェイクスピアも入っているし、近帝役聖書も入っているしっていう名だたるものも入ってますが、もちろんタイトルもね、はっきりつけられてないかのような
何も何もない、だけれども文章として残っているので、コーパスを作る時には入れてみましたっていうものも入っていて、相当何億語っていうレベルですよね。かなり大きなものですよね。
私も使ったことは何回かあるわけなんですが、これはどういう点で扱いに注意を要する感じでしょうかね。
個人的な感覚としては、まず一つがやっぱりそのテキストすごく宗教的なものが多いっていうのがすごく気になってて、
近代英語のその姿を知りたいっていう理由で、いろんなテキスト集めて研究者たち見ると思うんですけど、
イーボってやっぱり収録されているもともとのテキストが宗教的なものだから、じゃあそのコーパスを分析して、コーパスベースで分析して、
コーパスの偏りと代表性
近代英語ってこういう特徴がありましたって言った時に、それ本当に当時の近代英語の姿を捉えられているの?っていう、そういう不安っていうのが出てくるんですよね。
だからさっきシエラレオネだった大統領の発言があって、これ本当にネイティブの英語なの?みたいな、
そういう話題を挙げましたけど、そういうことが日常茶飯事に起こっているような気がしている怖さっていうのがあるなっていうのが一番感じるところですかね。
それは、いわゆるジャンルの偏りっていうことだと思うんですけど、ジャンルの偏りって二パターンあると思っていて、一つは、
その時代に書かれるものにはやっぱりこだわりとか偏りっていうのがあるので、どう探したところで集めたところでやっぱりそういう偏りになってしまうっていう、その時代が持っているジャンルの偏りっていうのがある。
これ一つ大元のね。もう一つは、いや、当時はやっぱりいろんなジャンルがあって、全体としてバランスの取れたコーパーズ作りようはあるんだけど、たまたまその偏参に関わった人が説教好きとかですね、そういうことを研究しているので、
自分、ある意味自分のために多く説教文章を入れてしまっただけですっていう結果としての偏りなのか、それとももう時代の限界っていうのがあって、
メディアも限界あるわけじゃないですか。現代でもテレビ、ラジオが廃れてきて、雑誌も廃れてきて、結局YouTubeとかね、いう形になってくると同じように、これはなんていうか、そもそもその時代が持っている言語資産っていうのかな、それにメディアとかジャンルの点で偏りがあるということで言うと、
どうしようもない。ただ、やっぱり一番欲しいんだけども得られてないのは話し言葉ですよね。普段の日常会話っていうのが一番ノーマルで、ある意味ではレプリゼンタティブで考えたいところがあるじゃないですか。
そこが基本なはずだから。他は全てその発展型とかね、考えたい基本があったりするんですが、そこにはどうしてもアクセスできないことが多いんで、そうすると書き言葉に偏って、書き言葉にはどんなジャンルがその時代によって好まれるかっていうのがある程度やっぱり出てしまうので、
その時代が持っている偏りだったらもう我々いかんともしようがない。ただ時代はまあまあレプリゼンタティブなんだけど、作る側の先入観が入って偏るのであれば是正できる可能性はありますよね。これやっぱりイーボの場合、あの時代の場合は説教が多いっていうことなんですけど、これはどうなんですかね。いかんともしようがないところはあります?
宗教改革が含まれている時代でもあるので、宗教テクストが入ってくるっていうのは自然にというか考えうることではありますよね。実際のところその出版された印刷本全体の中で宗教テクストがどれだけの割合だったかっていうのは別途調査する必要があると思うんですけど、時代の傾向とかはありそうな気はしますね。
研究者のアプローチ
このコーパスを用いたこの英語史研究も一番最初、第一世代とか何世代とかいう言い方あるんですけど、第一世代はやっぱりジェネラルに知りたい。小英語全体を知りたいんですっていう。中英語全体を知りたいんですっていうことで始まったんですが、今話してきたような理由で、小英語全体って何よとか小英語の代表的な文体とかレプリゼンタティブって何よっていう話になってきて、
一回挫折するというか限界があるよねみたいになった時に、今度はその挫折というか逆に触れて、だったら自分は近代英語記のしかも16世紀後半に限っての宗教文章だけでも研究しちゃうからねみたいに、今度どんどんグーッと狭まっていった。
レプリゼンタティブはなくなるけれども、何を対象にしているのかははっきりと、じたともに伝わるっていう感じで、そもそも無茶なレプリゼンタティブ全体を知ろうなんていう大きなことは考えずに、狭く狭く行こうよっていうのが次の世代に出てきたコーパスのあり方で、なのでコーパスも17世紀の説教のコーパスとかね。
シェイクスピアのコーパスってももちろんあるし、こういうふうに逆に細分化される方向で、これもコーパスと呼ぶようになってきたっていうところで、難しいよねコーパスってだから本来は多分だからジェネラルなことからスタートしたんだと思うんですよね。
マシンDWでいろいろ人間よりも捌けるから量ということで大きくやろうとしたんだけど、ジェネラルとかレプリゼンタティブって無理だよねみたいなことになって、むしろ特化型みたいな方向を歩んで、
さらには研究者が本当にさらに自分の研究対象に向けて特化させて自分で作っちゃうみたいな世代が現れ、かと思ったら一方で大規模コーパスということで、その効果のように今のLLMに結構近いですよね。
何でもかんでも入れてやれっていうことで、考えずに入れてやれっていうことで一番最初に求めたかったレプリゼンタティブみたいなものを、今この大容量を扱えるようになった時代は可能なんじゃないかみたいな夢とか希望が出てきたわけなんだけども、
でも一番最初に言ったような、何を扱ってるか担保できてないよねっていう科学的客観性の問題からはむしろそれる方法で進化しているんで、そうするとどういうふうにコーパスというものと我々付き合っていくべきか的な話になりますよね。
便利ではあるけど課題は本当に多いですよね。
やっぱり問題になるのはレプリゼンタティブってそもそも何なのかっていうのはやっぱり昔からあっていて、代表的とか英語って言われた時にじゃあ何が英語の最も典型的な姿なのかっていうのはわからないですよね。
あるかのように振る舞ってそれを例えば日本の英語教育なんかでも中心に据えているところがあるけれども、緩く標準的で日常的、文化的な会話あるいは読み書きができるようなレベルにまで持ち上げるというところで、
本当はやっぱり教育のターゲットにもなるんですごく重要な問題なんですけど、誰もレプリゼンタティブって定義できないんですよね。何なのね、レプリゼンタティブって。そもそも誰が言い出して、そんな無茶なものっていう感じはするわけですよね。
特に我々歴史やってるので、今ですらねこうやって手に入るのにレプリゼンタティブって何なのか結局わからないじゃないですか。そうすると昔なんてもっとねリソースがないし、わからないですよね。そうするとじゃあコーパス使わないのかっていうとそうもいかないですよね。
便利ですからね。
便利だし、数をさばけるっていうのがありますよね。
ただその数も数で怖さはありますけどね。
イーボとかだと特にやっぱりチェキストの中にラテン語入ってたりとかありますもんね。そういう怖さもあるから。
なんか、例えばこう数で研究するっていうとやっぱり言語研究の時って大体これぐらいのヒント出てきますよみたいな言うじゃないですか。100万語あたりに何回出てきますみたいな。
その100万が全部英語だったらまあある程度許せるかもしれないけど英語とかラテン語とかいろんなものがミックスされた中で何回出てきますみたいな言い方をされても結局それって代表性にも関わってきますけど
やっぱりそれじゃあその数に何の意味があるのっていう怖さもありますよね。
大規模コーパスっていう話でしたけど、私が綴り字の研究をしているっていうのも大きく関係はしてくるかと思うんですがその外国語が混ざってくる云々以前に
電子コーパスとして電子テクスト化された綴り字が実際のその元の印刷簿の綴り字を必ずしも正しく写し取ってくれてるわけではないっていう部分がありまして
文字が違う文字として電子テクストにされてしまっているとかそういう問題があるので結局そのコーパスのデータをまるまる信用することができないとなるとやっぱり元の
印刷簿のデータだったりその電子テクストのデータなんかを一個一個人間の力で目視で確認するしかないってなった時にその大規模コーパスというのも全部を扱う
扱い切ることはできないって問題があってじゃあ全部扱えないから一部をサンプリングするとか取り出そうとなるとじゃあどこを切り取ろうかとか
どこまでを含んだらそのレプリゼンタティブというかある程度量を扱ったっていう風にいうことができるのかとかだいぶ悩みはつきないですね
そうでしょうね
逆行しますよね大きい大規模だから頼っちゃえばいいかというと一番ミクロな結局写本まで戻ってその一文字のために確認するんだっていうのは
ちょっと逆行するしある意味滑稽な感じすらするしね何をやっているんだろうみたいなところはあったり
実際先ほどの話は結局OCRとかスキャンしてるんですよねスキャンして読み込ませてるんでご存知の通り100%ではありませんし
現代の英語だったら標準通りがあるんでそれをスペルチェックするわけなんですがその標準がない時代ですからねまだねスペルチェックしようがない
自動補正が効かないんですよねという側面もあったり
文化的言語生活の考慮
あと今の話を伺っててちょっと思ったのは初期近代の文章の中にラテン語が含まれるとかね
ラテン語の引用があるっていうような時確かにそれはラテン語であり英語ではないから英語のコーパスとしては相応しくない英語をレプリゼンタティブ
その分だけしてないっていう言い方は可能なんだけど一方ターゲットを英語というよりは英語国民の言語生活
ということでいえばラテン語入っているっていうのがあの時にというかそれなりの頻度であるっていうのも込み込みで
英語話者の文化的文字生活というのであればむしろ入っていた方がそのレプリゼンタティブではある
ターゲットが英語という言語なのか英語を中心としながらもそれを使っている人々の言語生活みたいなところにターゲットを置くのかによっても今の捉え方は異なるわけですよね
寺沢さんの場合はつづり字だし外国からの影響っていうことなのでこれ混ざったりちょっと判別できないと困っちゃうわけですよね
そこはわかりますね一方青木くんの場合はトートロジーなどっちかというと長めの表現を探すっていう感じなんですか
つづり字というよりはそうするとうまく正規表現を使ったりしてパターンを取り出したりっていう
その使い方が何をターゲットにしているかによって使い方が異なりますよね
つづりは相性はいい一方でさっきみたいな一文字異なっていたらこれ大問題になっちゃうっていうことなので
表現幅が大きければ一文字一文字にはこだわらないわけですね逆に全体の表現なんで
ここはやっぱり何を研究しているかによってもこのコーパスへの態度とか信頼感疑惑みたいなのって異なるかなと
レプリゼンタティブの話もそうなんですけど気がしますよね
そうすると万人に何か使える完璧なコーパスってないっていうのはちょっとわかってくる感じで
それで第3世代とかあたりはもう自分で研究者一人一人が自分のために作るしかないでしょうみたいなノリになってきたっていうのもわかるんですけどね
研究者が何を調べたくてどういう範囲を調査対象としたいかがやっぱり一人一人って違うんで
それに合わせたコーパスの方が研究する側もやりやすいし説明議論もしやすいっていうのはあるような気がしますね
その一方で自分のために作ったコーパス自分で編んだコーパスというのも
例えば論文なり研究成果を出した後にそのコーパス自体も公開しなければ確認が取れないっていう
コーパスと著作権の問題
一般的な市販コーパスとか外に出てるものであればみんな再現性があるっていう感じですけど
そこは一つ課題ですかね
今それを公開すること自体は大きく問題じゃないのかもしれないんですけど
現代だとその著作権とかね自分の研究のためなら自分で持ってる分だったらいいけど公開するのはやめてよっていうことになると
その問題やっぱり発生しちゃうかなと
近代とかね歴史やってればそういう問題は少ないと思うんですけど
そういう問題もありますよね
あとはこれあの大学院でも1回語ろうかと言って語り出したことあるけれども本格的にやってない議論はやっぱり数字をどう扱うかというか
通知とどう向かい合うかっていうね先ほどのどれくらいの頻度出たら好頻度と言えるのかとか
あの有意味だとかねもちろんあの統計学のその優位判定みたいなのあって
そういうのも我々文系研究者もですねやるようにはなってきてるんですけど
この数との向き合い方っていうのはどの分野でもなのかもしれませんが
言語研究の場合はコーパスが出てきたんでね
それ以前も数えてはきてるんですよ数えてはきてるんだけども
まあなんかそれなりにあのいい感じの大きい数字が出るわけじゃない
するとこれあの直感というわけにはいかないなということになりますが
ただ最後はね何ていうか
10現れてあの10個ね10回現れたら十分好頻度だっていう言語辞書もあれば
100万回現れても全然足りないっていう現象って
その現象とのね性質金配によるから
これだから判断ほんと1回1回ですよね
しかもそのあんまりなんか頼るべき指標みたいのないんですよね
私個人がなのか英語史研究者がなのかわからないですけど
言語変化だと何かが多数派に優先になったみたいなところを見る部分もあると思うんですけど
すごいニッチなこんな変な綴り方してた人がいたよとか
こんな変な表現使ってる人がいたよとかもちょっと見つけると嬉しかったりするんですね
それをどう議論に含めるのか含めないで個人的な喜びとして留める
基本的にフィロロジストはそういうニッチとかマイノリティとか
一つだけの孤立した例っていうのは大好きでそれを集めると
一方リングイストはそれだけ見ててもやっぱりジェネラルに何か結論導き出せないんで
一つ一つのねこの小さな例が邪魔となって大きなジェネラリゼーションですかね
できないっていうのは比較的嫌がる傾向があるかなと思うので
リングイストは細かなマイノリティっていうのはあえて方法論として割り切って省くっていう感じなので
同じ言語辞書を考えるにもすごく極端な分け方ですけど
フィロロジーとリングイスティックスみたいな大きな路線の違いはあるかなって気はしますよね
その場合なのでフィロロジストの立場に立つものがコーパスっていうのを用いるときに
だけど細かい例というのも切れないっていうと悩みが多いですかね
先ほどの例もありましたけど
寒服は両方両サイド
両方ですよねある程度数を出して傾向を見るっていうこともしますけど
やっぱり一例一例ちゃんと見ていかなきゃいけない部分もあると思うし
それでいいかなと思ってるんですよねある意味量でアプローチするところもあって質でアプローチする部分っていうのもあると思うんで
やっぱり量側面があってこそいい研究になるかなっていうのはずっと思っていることだから
そこはもういいとこ取りをしてっていう感じで迎え合ってますかね
私も両方やるようにはしてますね
ツールがある以上は量もやるし質もやるっていう
両方100%でやるとエネルギー200%いるでしょ
それ無理なんで結局半分半分でいいとこ取りっていうか
量で俯瞰しておきながら見るべきところを俯瞰した上で定めてそこにグーッと今度は狭く入り込んでいくみたいな方法とかね
それも量と質のバランスを取る一つのやり方だと思うんですよ
このあたりは意識はしているかなっていうところですね
数を無視できる時代ではないっていうところですかね
そもそもヒロロジーもやっぱり考えてみると数え続けてきたんですよ
機械がなかっただけで機械で桁が大きい桁で数えられるようになったんですけど
よく昔の研究とか見るとひたすら表ですよ数えてるみんな
その上でもちろん一つ一つの例をね例文を確かめたりっていうことは忘れないではいたと思うんですけど
数が取りやすくなったとかあるいは数えの信頼感とか客観性みたいなものが
非常に強くね意識されるようになってきたってのは確かですよね
あとまあ伝統的にというかいわゆる文系科目だったりするわけじゃないですか
そういう大学の学部に入ってその大学院に入って言語研究するってことなんで
得てして数は苦手って人は多いかもしれないですね
全体的には
そういう全体の流れはあった上でのこういう議論っていうか
英語史研究かける数みたいなところだと思うんですけどね
今は結構大学院なんかでもバリバリに統計を使うとかコーパスでっていう授業を用意されてますよね
実際受けてましたね
思ったよりバリバリですよね
プログラム書いたりとか
コーパスねどうなっていきますかね次は第5世代とかどうなっていくんですか
LLMとか来ちゃいましたからね生成愛でね
あれはどういう絡み方を言語学者運権学者していくことになるのかっていうのは
ブラックボックスもいいところですからね
やっぱりどうすればいいんだろうって思ってますもんね
一発で例えば英語ではこの10年この単語どんな使われ方したのっていうのを一発で引き出してくれる点では既存の大規模コーパスよりも
多分っていうかほぼ間違いなくAIは良いものを出してくれるのは間違いないですよね
その場合どっから取ってきたのか問題であるとか著作権とか倫理的問題もあるし
意外と我々に直結する話なんですよね生成愛は本当はね
10年後ねどういう研究してるかわかんないんですけど
10年前自分はこんな研究してたんだけど今はもうワンクリックでできるようになっちゃったよね
とか言ってる可能性は全然ありますよね
その時にアハハではなくあの時やっていたこの研究は価値があったし
今でも輝いているんだと言えるようになるためには何をやればいいんだろう
ところですかねむしろ逆に細かくシャフォンに戻るとかいうのが
安置的に尊われるような時代が来るのかどうですかね
シャフォンをAIとか文字起こしというか分析できるようになったらまたそこも話が変わってきそうですよね
今だと人間が頑張ってそのシャフォンの文字を古い文字を読み解くみたいなのがありますけど
それもAI化されていったらどうなるんだろう
どこまで何ができるようになるんだろうもありますし
人間にしかできないことって何なんだろうということもありますし
日本語のね遺体字なんかも読めるようになってるアプリが
KOで作ったものがあったりするんで日本語の遺体字に比べれば
西洋の方がまだいけるかなどうですかね
頑張ればいけそうな気もするんですよね
どうなっていくかわからないんですけどね
今やっていることが5年後10年後に
チンプというかワンクリックでできるようになる可能性っていうのは
本当にあり得るんですよね
なのでお二人も早めに博士論文を
AIに追いつかれる前にみたいなことはあるかもしれないですけどね
ちゃんと語ったこと確かにそんななかったかもしれませんし
これあのリツナーの皆さんとも共有できたで良かったかなっていう
メタ的な方法論の話なんですけど結構こういう問題
やっぱりすごくね自分で研究する際に大きいですよね
結局自分何やってるんだろうかっていう時に
突き当たる問題で結局こういうレベルの話だったりするんでね
意味があるのだろうかみたいな
納得必要あると思うんですよねこういう議論はね
ただね今回あれですよ研究者の裏っかみたいな感じの議論になっちゃいましたけど
コーパス自体は結構一般の方でも触れやすいものですからね
それだけで英語の傾向を知ることができるし
ネイティブっぽい言葉の使い方とか
どういう表現どれぐらい使うのかなとか
そういう簡単な調査は自分でもできるので
ぜひ活用してみてほしいですね
研究者の視点から何がレプリゼンタリブルかみたいな
やや批判的な話はしたんですけど
ポイントは余れているってことですね
意図的に研究者によって言語研究のために余れているってことで
もちろんその方針にはいろんな立場があるとは思うんだけども
ブラックボックスにはなっていないってところが最大のポイントだと思うんですよ
その編集の仕方に問題があったらそれはそれで議論できるんですよ
ただラージュラングウィッジモデルみたいなのは本当にブラックボックスじゃないですか
AIの影響と未来の研究
その点において信頼できると言いますか
少なくとも問題があった時に返ってこられるので
やっぱり議論は続けていけるんですよこのやり方だと
という意味での信頼感は間違いなくありますね
使いやすくもなっているというのも事実なのでインターフェースも含めて
昔本当に使いにくかったのはプレインテキストだけだったり
それだったらまだいいんだけど
作る人が勝手に自分の使いやすいようなプログラムとか組んで
インターフェースも自分好みにしちゃってそれでオープンにするもんだから
みんなマニュアル読んでその人の発想をインストールしないといけないんですよ
コーパスインストールというよりはどうやって作ったのかインストールしなきゃいけなくて
それが今かなり標準化とは言わないまでも
だいたいの考え方とか作り方みたいのが共有できるものができてきたので
しかもインターフェースもかなり磨かれているものがあったりするので
これ一般に使いやすいものになっていると思いますね
日本語コーパスもありますし
勉強さえちょちょっとやり方を覚えちゃえば本当に
それこそメーカースピーチとギバースピーチどっちが多いかなとか
そういう調べ方も簡単にできちゃうしスマホで検索できちゃうんで
そういう意味である程度信頼のおけるソースとして
そういう英語らしい表現を探す時とか
ぜひ活用できるのでこの辺りは知っておいていただけるといいんじゃないかなっていうのが
そうですね
本当はコーパス講座とかやるといいと思うんですけどね
ケルフ主催でやりましたっけ
ケルフ主催でっていうのはそういうのやってもいいかもしれないですね
そうですよねどこかのタイミングで
コーパスについて今日はいろいろ語りました
英語して研究する場合も本当に使うようになってきたんですが
時代によってまた異なるコーパスとか
ジャンルもいろいろ細かく分かれているのもあれば
割と一般ジェネラルを目指すものもあればということで
百貨両覧って感じですよね
無料のものから有料で手に入れなければいけないものまでということで
たくさん出てますよね
こんなことでコーパスというツールについて
一度ゆっくり語ってみたという回でした
ぜひ質問に答えられるかわからないですが
何かコメント等ありましたらぜひ寄せていただければと思います
今日コーパス談議って言いますかね
付き合っていただきまして
沖さん寺沢さんありがとうございました
ありがとうございました
エンディングです
今日も最後まで放送を聞いていただきましてありがとうございました
たっぷりと3人でコーパス談議やりましたね
コーパスの重要性
コーパスとは何か
これを機に沖の皆さんにもじっくりとお考えいただきたいと思います
言語学英語学などでは
猫もシャクシもコーパスコーパスと言っているわけなんですけれども
そもそもそれは何なのか
そしてどんな目的で研究目的で
余れているのか作られているのかということですね
これがわかると
いかにしてコーパスを使いこなすか
この問題にも当然関わってきますので
基本的な議論というのはとても大事なんですね
今日お話したことは本質的な問題ばかりです
コーパス一体何なのか
これはですね
代表性の問題であるとか
いろいろとですね立場があると思うんですね
その意味では
一人一人コーパスなるものの定義
理想的なコーパスの定義というのも
異なってくるんだろうと思われます
これを機にですね
皆さんぜひ一回コーパス考えてみてください
そして今回続コーパスとは何かだったんですが
第1弾のコーパスとは何か
冒頭にも述べましたが
963回でお話ししています
こちらリンクを貼っておきますので
合わせてお聞きいただければと思います
このチャンネル
英語の語源が身につくラジオヘルディオでは
あなたからのご意見ご感想をお待ちしています
Voicyのコメント機能を通じて
お寄せいただけますと幸いです
SNSでのシェアもよろしくお願いいたします
それでは今日も皆さんにとって
良い一日になりますように
英語詞研究者のほったり打ちがお届けしました
また明日
42:29

コメント

スクロール