おはようございます。
本日はですね、ケルフ対談という形になるかと思いますが、まずケルフ会長を。
はい、青木です。よろしくお願いします。
そして、寺沢です。よろしくお願いします。
はい、3人でですね、集まる機会がありましたので、何か収録しようということで、いろんなお題が候補に挙がったんですけれども、コーパスについて語ってみようかということで、特にね用意はなく始めるんですけれども、
2人の研究は時代としては割と近いところですかね。
そうですね。私、近代英語機、初期近代英語機を主に扱っているので、そういう意味では寺沢さんとも近いですかね。
ほぼ同じですね。
話題としてはトートロジーと、あとつづり字ということでだいぶ異なるわけなんですが、時代として同じということは、使うテキストであるとかテキストの集合体は重なってくることも多いということで、
こういう際にですね、現代はコーパスと呼ばれるもの、主にこれ電子コーパスですね。紙のものもコーパスと言わなくはないんですが、現代コーパスという場合には通常マシンリーダブルっていうかね、のものですが、
コーパスってこのヘルディオでも多少紹介したりですね、考えてきたことがあったんですが、実際に使っているお二人の使用感とか、あとはそもそもコーパスを使うっていうことは言語研究によってどういうことなのかとか、
ちょっとコアなね、メタ的な話もしていきたいなと思うんですが、まずコーパスってどういうものだと思ってますかね。
コーパスってどういうものか。
一般的にはだから、基本マシンリーダブルで、現代においてはですね。そして、なんて言われますかね、いわゆるオーセンティックなテキストという言われ方で、つまり実際に基本文字、書き言葉だと思うんですけれども、多くの場合ね、古いものは、実際に書かれたものであって、ちゃんとものがある、そこから取ってきた。
つまり、例えばネイティブのその場で作った作文みたいなものではないっていうことですね。
コーパスに余れるっていうことを前提としていないで、素で存在していたテキストを、構成のものが集めて編集すると。
あとどんなイメージ。結局編集するっていう作業がありますよね。
基本的にはそうですよね。研究目的のために集められた言語データの集積体っていう感じですよね。
なんでもかんでもないわけですよね。例えば、Google検索だと、元のものがどこから集められてるのかわからないし、特に今のセセアイのLLMモデルなんかは、
もうありとあらゆるものっていう感じで限定されないぐらいですよね。
ただ言語研究でコーパスは元がちゃんとわかっているっていうか、ここからここまでを集めましたみたいなことが明示的になっているので、
つまりブラックボックス化していないっていうところが、客観的な言語学研究としては重要なので、
むしろ量だけあってたくさんあればいいっていうわけではないっていう思想が基本ありそうな気がするんだよね。
ある程度背景に質の担保の部分はありますよね。
そうですね。
そこと、あとコーパス。ただそうは言っても、例えば今、現代語の研究でよく使われる効果みたいなものは、
モニターコーパス的にもどんどん新たなものは付け加わってきているっていう意味では、
ちょっとブラックボックス的なところもありますかね。
それでいうと一個あったのが、私がトートロジーの研究してて、効果をベースにして表現を集めたんですけど、
なんかこれちょっとおかしいなと思う表現があって、ちょっと深掘りしてそれを研究してみたら、調べてみたら、
全然アメリカ人とかの発言じゃなくて、シエラレオネだったかの大統領の発言だったみたいなことがやっぱりあって、
ネイティブの英語を知るためにやってるのに、実はその全然ネイティブと関係ない人の英語が入っちゃってるみたいなことはありましたね。
たったありますよね。効果っていうのはコーパスコンテンポラリー?
アメリカンイングリッシュとか。そんな感じですよね。
ですが、アメリカのメディアから集めたっていうだけで、アメリカのメディアには多分いろんな人が発言していて、みたいなことを考えるとね。
似たような話は、寺沢さんが終始論文の研究などでやっていた、通り字の話でも、外国語が入ってきてると。
私が終始論文で、青木さんも使っていただいたと思うんですけども、
Early English Books Online、通称EVOっていうものを母体にしたコーパスがありまして、
初期近代英語記の印刷本のテクストを集めたコーパスになっているんですが、
この初期近代英語記っていうのは英語のテクストと言いつつも、
ラテン語のフレーズだったり、フランス語の文章だったりがかなり混ざっているテクストになっているので、
調べたいものを探していると、実はそれはラテン語だった、フランス語だった、みたいなことがある。
それに注意が必要というのはありましたね。
なるほど。そうすると、英語のコーパスですらなかったみたいな、まあ一部ですけどね。
そうすると、外国語の影響とか考えていろいろ研究なだけに、かなりこれは危ないというかリスキーですよね。
どうにそれを取り除いていくか、少なくとも結果のデータの中からは、
取捨選択というか、絞っていくかみたいなことはかなり悩んだ、ここ数年間でしたね。
あと何でしょうね。サンプリングが行われていて、なるべく、まあ本当にいろんなタイプのコーパスがあるんですが、いわゆるジェネラルコーパスというものだと、
いろんなジャンルが入っていた方が、現実の英語の多様な姿を近似的に模倣しているだろうということで、
例えば書き言葉ではなくて、話し言葉もあった方が本当はふさわしいし、
だけど収集の都合で、どうしても書き言葉が多くなってしまうという限界はあるんですが、書き言葉としても、例えば小説だったり、
詩だって書かれていることもあるし、あと説教集とか古くなると、いろんな媒体とかジャンルっていうのがあるので、なるべくいろんなものを
バランスよく努めて、何かに偏りすぎないようにというふうに最初に計画を立てるわけですよね。
コーパス編参者が。そのあたりが考慮されているっていうことですかね。ランダムではないっていう。
いわゆる代表性っていうやつですよね。実際の言葉を分析するっていった時に、その実際の言葉の分類って交互的なものが多いのか、書き言葉的なテクスト的なものが多いのかとか、
そういうバランスをうまく考えながら集めるっていう感じですよね。 だから英語を研究しようといった場合、ものすごく膨張としていて、
何を調べればいいのかっていう感じですよね。なので英語の、例えばテレビで話される英語とかニュースキャスターの英語ぐらいに絞れば、
その限定コーパスを作ることはできるんだけれども、多くの研究テーマって英語では最近こんな言い方になってるよとか、すごく大雑把に知りたいことが多いわけじゃないですか。
その時に逆にコーパスが偏っていると、間違った結果が出てしまうので、なるべくそのジェネラルなコーパスって欲しいわけですよね。
その点でいうと、やっぱりイーボって怖いですよねっていうのが。 これはどういう意味ですかね。
イーボって、これボイシーで話したことありましたっけ? 用語はね、ガンガン出してしまってると思うんですけれども、
ザンと言いますと、まあ先ほどね、省略形イーボで大元がEarly English Books Onlineということで、基本的には時代は
1473年ぐらいから1700年まで、15世紀末から17世紀いっぱいまで。
事実上、いわゆる初期近代英語記と言われている16、17世紀の200年間をターゲットにしていて、もちろんそこには
シェイクスピアも入っているし、近帝役聖書も入っているしっていう名だたるものも入ってますが、もちろんタイトルもね、はっきりつけられてないかのような
何も何もない、だけれども文章として残っているので、コーパスを作る時には入れてみましたっていうものも入っていて、相当何億語っていうレベルですよね。かなり大きなものですよね。
私も使ったことは何回かあるわけなんですが、これはどういう点で扱いに注意を要する感じでしょうかね。
個人的な感覚としては、まず一つがやっぱりそのテキストすごく宗教的なものが多いっていうのがすごく気になってて、
近代英語のその姿を知りたいっていう理由で、いろんなテキスト集めて研究者たち見ると思うんですけど、
イーボってやっぱり収録されているもともとのテキストが宗教的なものだから、じゃあそのコーパスを分析して、コーパスベースで分析して、
このコーパスを用いたこの英語史研究も一番最初、第一世代とか何世代とかいう言い方あるんですけど、第一世代はやっぱりジェネラルに知りたい。小英語全体を知りたいんですっていう。中英語全体を知りたいんですっていうことで始まったんですが、今話してきたような理由で、小英語全体って何よとか小英語の代表的な文体とかレプリゼンタティブって何よっていう話になってきて、
一回挫折するというか限界があるよねみたいになった時に、今度はその挫折というか逆に触れて、だったら自分は近代英語記のしかも16世紀後半に限っての宗教文章だけでも研究しちゃうからねみたいに、今度どんどんグーッと狭まっていった。
レプリゼンタティブはなくなるけれども、何を対象にしているのかははっきりと、じたともに伝わるっていう感じで、そもそも無茶なレプリゼンタティブ全体を知ろうなんていう大きなことは考えずに、狭く狭く行こうよっていうのが次の世代に出てきたコーパスのあり方で、なのでコーパスも17世紀の説教のコーパスとかね。
シェイクスピアのコーパスってももちろんあるし、こういうふうに逆に細分化される方向で、これもコーパスと呼ぶようになってきたっていうところで、難しいよねコーパスってだから本来は多分だからジェネラルなことからスタートしたんだと思うんですよね。
マシンDWでいろいろ人間よりも捌けるから量ということで大きくやろうとしたんだけど、ジェネラルとかレプリゼンタティブって無理だよねみたいなことになって、むしろ特化型みたいな方向を歩んで、
さらには研究者が本当にさらに自分の研究対象に向けて特化させて自分で作っちゃうみたいな世代が現れ、かと思ったら一方で大規模コーパスということで、その効果のように今のLLMに結構近いですよね。
何でもかんでも入れてやれっていうことで、考えずに入れてやれっていうことで一番最初に求めたかったレプリゼンタティブみたいなものを、今この大容量を扱えるようになった時代は可能なんじゃないかみたいな夢とか希望が出てきたわけなんだけども、
でも一番最初に言ったような、何を扱ってるか担保できてないよねっていう科学的客観性の問題からはむしろそれる方法で進化しているんで、そうするとどういうふうにコーパスというものと我々付き合っていくべきか的な話になりますよね。
便利ではあるけど課題は本当に多いですよね。
やっぱり問題になるのはレプリゼンタティブってそもそも何なのかっていうのはやっぱり昔からあっていて、代表的とか英語って言われた時にじゃあ何が英語の最も典型的な姿なのかっていうのはわからないですよね。
あるかのように振る舞ってそれを例えば日本の英語教育なんかでも中心に据えているところがあるけれども、緩く標準的で日常的、文化的な会話あるいは読み書きができるようなレベルにまで持ち上げるというところで、
本当はやっぱり教育のターゲットにもなるんですごく重要な問題なんですけど、誰もレプリゼンタティブって定義できないんですよね。何なのね、レプリゼンタティブって。そもそも誰が言い出して、そんな無茶なものっていう感じはするわけですよね。
特に我々歴史やってるので、今ですらねこうやって手に入るのにレプリゼンタティブって何なのか結局わからないじゃないですか。そうすると昔なんてもっとねリソースがないし、わからないですよね。そうするとじゃあコーパス使わないのかっていうとそうもいかないですよね。
便利ですからね。
便利だし、数をさばけるっていうのがありますよね。
ただその数も数で怖さはありますけどね。
イーボとかだと特にやっぱりチェキストの中にラテン語入ってたりとかありますもんね。そういう怖さもあるから。
なんか、例えばこう数で研究するっていうとやっぱり言語研究の時って大体これぐらいのヒント出てきますよみたいな言うじゃないですか。100万語あたりに何回出てきますみたいな。
その100万が全部英語だったらまあある程度許せるかもしれないけど英語とかラテン語とかいろんなものがミックスされた中で何回出てきますみたいな言い方をされても結局それって代表性にも関わってきますけど
やっぱりそれじゃあその数に何の意味があるのっていう怖さもありますよね。
大規模コーパスっていう話でしたけど、私が綴り字の研究をしているっていうのも大きく関係はしてくるかと思うんですがその外国語が混ざってくる云々以前に
電子コーパスとして電子テクスト化された綴り字が実際のその元の印刷簿の綴り字を必ずしも正しく写し取ってくれてるわけではないっていう部分がありまして
文字が違う文字として電子テクストにされてしまっているとかそういう問題があるので結局そのコーパスのデータをまるまる信用することができないとなるとやっぱり元の
印刷簿のデータだったりその電子テクストのデータなんかを一個一個人間の力で目視で確認するしかないってなった時にその大規模コーパスというのも全部を扱う
扱い切ることはできないって問題があってじゃあ全部扱えないから一部をサンプリングするとか取り出そうとなるとじゃあどこを切り取ろうかとか
どこまでを含んだらそのレプリゼンタティブというかある程度量を扱ったっていう風にいうことができるのかとかだいぶ悩みはつきないですね
そうでしょうね
逆行しますよね大きい大規模だから頼っちゃえばいいかというと一番ミクロな結局写本まで戻ってその一文字のために確認するんだっていうのは
ちょっと逆行するしある意味滑稽な感じすらするしね何をやっているんだろうみたいなところはあったり
実際先ほどの話は結局OCRとかスキャンしてるんですよねスキャンして読み込ませてるんでご存知の通り100%ではありませんし
現代の英語だったら標準通りがあるんでそれをスペルチェックするわけなんですがその標準がない時代ですからねまだねスペルチェックしようがない
自動補正が効かないんですよねという側面もあったり
一般的な市販コーパスとか外に出てるものであればみんな再現性があるっていう感じですけど
そこは一つ課題ですかね
今それを公開すること自体は大きく問題じゃないのかもしれないんですけど
現代だとその著作権とかね自分の研究のためなら自分で持ってる分だったらいいけど公開するのはやめてよっていうことになると
その問題やっぱり発生しちゃうかなと
近代とかね歴史やってればそういう問題は少ないと思うんですけど
そういう問題もありますよね
あとはこれあの大学院でも1回語ろうかと言って語り出したことあるけれども本格的にやってない議論はやっぱり数字をどう扱うかというか
通知とどう向かい合うかっていうね先ほどのどれくらいの頻度出たら好頻度と言えるのかとか
あの有意味だとかねもちろんあの統計学のその優位判定みたいなのあって
そういうのも我々文系研究者もですねやるようにはなってきてるんですけど
この数との向き合い方っていうのはどの分野でもなのかもしれませんが
言語研究の場合はコーパスが出てきたんでね
それ以前も数えてはきてるんですよ数えてはきてるんだけども
まあなんかそれなりにあのいい感じの大きい数字が出るわけじゃない
するとこれあの直感というわけにはいかないなということになりますが
ただ最後はね何ていうか
10現れてあの10個ね10回現れたら十分好頻度だっていう言語辞書もあれば
100万回現れても全然足りないっていう現象って
その現象とのね性質金配によるから
これだから判断ほんと1回1回ですよね
しかもそのあんまりなんか頼るべき指標みたいのないんですよね
私個人がなのか英語史研究者がなのかわからないですけど
言語変化だと何かが多数派に優先になったみたいなところを見る部分もあると思うんですけど
すごいニッチなこんな変な綴り方してた人がいたよとか
こんな変な表現使ってる人がいたよとかもちょっと見つけると嬉しかったりするんですね
それをどう議論に含めるのか含めないで個人的な喜びとして留める
基本的にフィロロジストはそういうニッチとかマイノリティとか
一つだけの孤立した例っていうのは大好きでそれを集めると
一方リングイストはそれだけ見ててもやっぱりジェネラルに何か結論導き出せないんで
一つ一つのねこの小さな例が邪魔となって大きなジェネラリゼーションですかね
できないっていうのは比較的嫌がる傾向があるかなと思うので
リングイストは細かなマイノリティっていうのはあえて方法論として割り切って省くっていう感じなので
同じ言語辞書を考えるにもすごく極端な分け方ですけど
フィロロジーとリングイスティックスみたいな大きな路線の違いはあるかなって気はしますよね
その場合なのでフィロロジストの立場に立つものがコーパスっていうのを用いるときに
だけど細かい例というのも切れないっていうと悩みが多いですかね
先ほどの例もありましたけど
寒服は両方両サイド
両方ですよねある程度数を出して傾向を見るっていうこともしますけど
やっぱり一例一例ちゃんと見ていかなきゃいけない部分もあると思うし
それでいいかなと思ってるんですよねある意味量でアプローチするところもあって質でアプローチする部分っていうのもあると思うんで
やっぱり量側面があってこそいい研究になるかなっていうのはずっと思っていることだから
そこはもういいとこ取りをしてっていう感じで迎え合ってますかね
私も両方やるようにはしてますね
ツールがある以上は量もやるし質もやるっていう
両方100%でやるとエネルギー200%いるでしょ
それ無理なんで結局半分半分でいいとこ取りっていうか
量で俯瞰しておきながら見るべきところを俯瞰した上で定めてそこにグーッと今度は狭く入り込んでいくみたいな方法とかね
それも量と質のバランスを取る一つのやり方だと思うんですよ
このあたりは意識はしているかなっていうところですね
数を無視できる時代ではないっていうところですかね
そもそもヒロロジーもやっぱり考えてみると数え続けてきたんですよ
機械がなかっただけで機械で桁が大きい桁で数えられるようになったんですけど
よく昔の研究とか見るとひたすら表ですよ数えてるみんな
その上でもちろん一つ一つの例をね例文を確かめたりっていうことは忘れないではいたと思うんですけど
数が取りやすくなったとかあるいは数えの信頼感とか客観性みたいなものが
非常に強くね意識されるようになってきたってのは確かですよね
あとまあ伝統的にというかいわゆる文系科目だったりするわけじゃないですか
そういう大学の学部に入ってその大学院に入って言語研究するってことなんで
得てして数は苦手って人は多いかもしれないですね
全体的には
そういう全体の流れはあった上でのこういう議論っていうか
英語史研究かける数みたいなところだと思うんですけどね
今は結構大学院なんかでもバリバリに統計を使うとかコーパスでっていう授業を用意されてますよね
実際受けてましたね
思ったよりバリバリですよね
プログラム書いたりとか
コーパスねどうなっていきますかね次は第5世代とかどうなっていくんですか
LLMとか来ちゃいましたからね生成愛でね
あれはどういう絡み方を言語学者運権学者していくことになるのかっていうのは
ブラックボックスもいいところですからね
やっぱりどうすればいいんだろうって思ってますもんね
一発で例えば英語ではこの10年この単語どんな使われ方したのっていうのを一発で引き出してくれる点では既存の大規模コーパスよりも
多分っていうかほぼ間違いなくAIは良いものを出してくれるのは間違いないですよね
その場合どっから取ってきたのか問題であるとか著作権とか倫理的問題もあるし
意外と我々に直結する話なんですよね生成愛は本当はね
10年後ねどういう研究してるかわかんないんですけど
10年前自分はこんな研究してたんだけど今はもうワンクリックでできるようになっちゃったよね
とか言ってる可能性は全然ありますよね
その時にアハハではなくあの時やっていたこの研究は価値があったし
今でも輝いているんだと言えるようになるためには何をやればいいんだろう
ところですかねむしろ逆に細かくシャフォンに戻るとかいうのが
安置的に尊われるような時代が来るのかどうですかね
シャフォンをAIとか文字起こしというか分析できるようになったらまたそこも話が変わってきそうですよね
今だと人間が頑張ってそのシャフォンの文字を古い文字を読み解くみたいなのがありますけど
それもAI化されていったらどうなるんだろう
どこまで何ができるようになるんだろうもありますし
人間にしかできないことって何なんだろうということもありますし
日本語のね遺体字なんかも読めるようになってるアプリが
KOで作ったものがあったりするんで日本語の遺体字に比べれば
西洋の方がまだいけるかなどうですかね
頑張ればいけそうな気もするんですよね
どうなっていくかわからないんですけどね
今やっていることが5年後10年後に
チンプというかワンクリックでできるようになる可能性っていうのは
本当にあり得るんですよね
なのでお二人も早めに博士論文を
AIに追いつかれる前にみたいなことはあるかもしれないですけどね
ちゃんと語ったこと確かにそんななかったかもしれませんし
これあのリツナーの皆さんとも共有できたで良かったかなっていう
メタ的な方法論の話なんですけど結構こういう問題
やっぱりすごくね自分で研究する際に大きいですよね
結局自分何やってるんだろうかっていう時に
突き当たる問題で結局こういうレベルの話だったりするんでね
意味があるのだろうかみたいな
納得必要あると思うんですよねこういう議論はね
ただね今回あれですよ研究者の裏っかみたいな感じの議論になっちゃいましたけど
コーパス自体は結構一般の方でも触れやすいものですからね
それだけで英語の傾向を知ることができるし
ネイティブっぽい言葉の使い方とか
どういう表現どれぐらい使うのかなとか
そういう簡単な調査は自分でもできるので
ぜひ活用してみてほしいですね
研究者の視点から何がレプリゼンタリブルかみたいな
やや批判的な話はしたんですけど
ポイントは余れているってことですね
意図的に研究者によって言語研究のために余れているってことで
もちろんその方針にはいろんな立場があるとは思うんだけども
ブラックボックスにはなっていないってところが最大のポイントだと思うんですよ
その編集の仕方に問題があったらそれはそれで議論できるんですよ
ただラージュラングウィッジモデルみたいなのは本当にブラックボックスじゃないですか