2025-03-15 19:44

#1385. corpus と data をめぐる諸問題 --- コーパスデータについて語る回ではありません

▼パーソナリティ,堀田隆一(ほったりゅういち)の詳しいプロフィールはこちらの note 記事よりどうぞ.


- https://note.com/chariderryu/n/na772fcace491


▼heldio のビデオポッドキャスト版を Spotify で始めていますので,そちらのフォローもよろしくお願いします.


https://open.spotify.com/show/0xOyOIXBUrIZbnwSLeJsSb?si=zH5V2CjkS0ekqNz5ro7caw


▼helwa リスナー有志による月刊誌「Helvillian」が2024年10月28日に創刊しています.第4号まで公開されています.


- 創刊号(2024年10月28日):https://note.com/helwa/n/ne2b999d5af72

- 第2号(2024年11月28日):https://note.com/helwa/n/n94e9d9a74706

- 第3号(2024年12月28日):https://note.com/helwa/n/na7394ab1dc4c

- 第4号(2025年1月28日):https://note.com/helwa/n/nb6229eebe391


▼2024年12月30日に『英語史新聞』第11号がウェブ発行されています.


khelf(慶應英語史フォーラム)による『英語史新聞』第11号がウェブ公開されています.こちらよりアクセスしてください


- 第11号:https://keio.box.com/s/kk0jss15l22pz1rpuysa0ys4nkpc3lwr


第11号公開については,khelf 公式ツイッターアカウント @khelf_keio (https://x.com/khelf_keio) を通じても案内しています.

リツイートなどを通じて「英語史をお茶の間に」の英語史活動(hel活)にご協力いただけますと幸いです.


▼2024年第3四半期のリスナー投票による heldio 人気配信回


- 第1位 「#1219. 「はじめての古英語」第10弾 with 小河舜さん&まさにゃん --- 「英語史ライヴ2024」より」 https://voicy.jp/channel/1950/6049608

- 第2位 「#1212. 『英語語源辞典』の「語源学解説」精読 --- 「英語史ライヴ2024」より」 https://voicy.jp/channel/1950/6052858

- 第3位 「#1139. イディオムとイディオム化 --- 秋元実治先生との対談 with 小河舜さん」 https://voicy.jp/channel/1950/1298775

- 詳しくは hellog 記事「#5645. リスナー投票による heldio 2024年第3四半期のランキング」をどうぞ http://user.keio.ac.jp/~rhotta/hellog/2024-10-10-1.html をどうぞ


▼2024年9月8日(日)に12時間連続生放送の「英語史ライヴ2024」を開催しました.英語史界隈では前代未聞のイベントとなりました.詳細は以下の配信回,あるいは khelf の特設ページを! イベント後は,数ヶ月間かけて各番組をアーカイヴで通常配信していきました.


- heldio 「#1119. 9月8日(日)「英語史ライヴ2024」を開催します」 https://voicy.jp/channel/1950/1296042

- khelf 特設ページ: https://sites.google.com/view/khelf-hotta/英語史ライヴ2024特設ページ


▼2024年8月26日より特別企画「helwa コンテンツ for 「英語史ライヴ2024」」が始まっています.ぜひ特設ホームページに訪れて,ライヴ当日まで毎日1つか2つずつ公開される helwa メンバーによる英語史コンテンツをお楽しみください.


- http://user.keio.ac.jp/~rhotta/hellog/etc/helwa_content_for_hellive2024/


▼X(旧Twitter)上で「heldio コミュニティ」が開設しています.


Voicy 「英語の語源が身につくラジオ (heldio)」のリスナーさんどうしの交流と情報発信の場です.heldio やそこで配信された話題を「待ち合わせ場所」として,英語史やその他の話題について自由にコメント・質問・議論していただければ.heldio が広く知られ「英語史をお茶の間に」届けることができればよいなと.今のところ承認制ですが,お気軽に申請してください.

https://twitter.com/i/communities/1679727671385915392


▼「英語史の古典的名著 Baugh and Cable を読む」シリーズ(有料)を展開しています.


英語史の古典的名著 Baugh, Albert C. and Thomas Cable. *A History of the English Language*. 6th ed. London: Routledge, 2013. のオンライン講座です.毎回1セクションンずつゆっくりと進んでいき,内容について縦横無尽にコメントしていきます.シリーズについて自由にご意見,ご感想,ご質問をください.皆さんで議論しながら読んでいきましょう.1回200円です.

https://voicy.jp/channel/1950/570931


▼プレミアムリスナー限定配信チャンネル「英語史の輪」 (helwa) も毎週火木土の午後6時に配信しています


「英語史の輪」にこめる想い


1. レギュラー放送は,これまで通り,最大限に良質な内容を毎朝お届けしていきます.プレミアムリスナー限定配信チャンネル「英語史の輪」のための課金の余裕がない方々(例えば中高生や英語史を真剣に学びたい苦学生など)は,無料のレギュラー放送のみを聴き続けていただければと思います.レギュラー放送では,皆さんに最良の放送をお届けし続けます.


2. プレミアムリスナー限定配信チャンネル「英語史の輪」で得た収益の一部は,レギュラー放送の質を保ち,毎日円滑にお届けするための原資とします.


3. また,収益の一部は,Voicy 以外でのhel活をさらに拡大・発展させるための原資とします.


4. ときに khelf(慶應英語史フォーラム)やプレミアムリスナーにも協力していただき,hel活の新機軸を打ち出していきたいと思っています.企画本部としての「英語史の輪」です.

5. ぜひとも「英語史の輪」のプレミアムリスナーになっていただきたい方


 ・ hel活を応援したい方(資金援助,広報支援,盛り上げ係りなど.研究者,学生,一般の社会人など職種や専門は問いません.)

 ・ 毎日もっともっと英語史に触れたい方,レギュラー放送では足りない方

 ・ 私(堀田隆一)の話をもっと聴いてみたい方

 ・ レギュラー放送のような一般向けの話題にとどまらず,もっと専門的な英語史の話題も聴いてみたいという方

 ・ レギュラー放送で言えない/配信できないような「低い」話題(対談のアフタートークや飲み会での雑談など)も聴きたいという方

 ・ パーソナリティおよびリスナーさんどうしで,もっと交流したい方


以上,よろしくお願いいたします.

00:00
おはようございます。英語の歴史の研究者、ヘログ英語詩ブログの管理者、英語のなぜに答える初めての英語詩の著者、
そして英単語のスペリング愛好家の堀田隆一です。 英語の語源が身につくラジオheldio、英語詩をお茶の間におもっとうに、英語の歴史の面白さを伝え、
質問を広げるべく、毎朝6時に配信しています。 本日は3月15日土曜日です。
皆さん、いかがお過ごしでしょうか。 ここ数日、お聞きの方、ボイシーで聞かれている方が圧倒的に多いかと思うんですが、
他のプラットフォームでも配信しております。 Spotify のビデオポッドキャストという形でも、同じタイトル
英語の語源が身につくラジオとして配信を始めております。 そちらのほうは動画、画像をついていますので、情報としてはリッチなんですが、
今日のところは顔出しをするというよりは、初めて文字起こしした文字をキャプション的に画像、映像という形でお届けするという形を
トライしてみたいと思いまして、これうまくいってるかわからないんですけれども、 昨日まではカメラを回して、私が収録している風景をお示ししてきたんですけれども、
こればかりやっていても、特に面白いものでもありませんので、一度文字起こして、文字をキャプションみたいな形で付けるということもやってみようかなということで、
うまくいっているといいんですけれども、そんな感じでSpotifyのビデオポッドキャストのほうも、ぜひ見ていただければと思います。
そして、できましたらフォローのほどよろしくお願いいたします。 基本的には、このVoicy Heldioという形でお届けして、耳で聞いていればラジオ的に理解できるという形での配信は、
これからも続けていくつもりなんですけれども、たまにですね、例えば英文、長めの英文であるとか、その他ビジュアル資料等ですね、
これはですね、当然ビデオポッドキャストという形のほうがですね、情報をリッチにお伝えできる場面もあるかもしれませんので、そんな時にはぜひですね、利用していきたいという風に思っているんですね。
ですので、Spotifyのほう、こちら冒頭チャプターにリンクを貼っておきますので、こちらのほうもぜひですね、見ていただきまして、そしてフォローいただけますと幸いです。
この3日間、4日目ぐらいですかね、今日がいろいろと試してみる今段階ということでですね、安定はしないかもしれませんが、Spotifyのほうでもどうぞよろしくお願いします。
03:06
さて、今日なんですけれども、コーパスとデータをめぐる諸問題、コーパスデータについて語る回ではありません、というちょっと謎のタイトルなんですけれども、
これはですね、コーパスデータをめぐる研究手法であるとかアプローチについて語る回などでは全くありません。
実はですね、コーパスという単語、それからデータという単語、この2つに関する面白いWebコンテンツがですね、ちょうど昨日ですね、昨日別々に上がってまいりまして、
私のヘルカツ仲間と言ってももう良いでしょう、ラコラコさん、そして専修大学の菊地翔太先生ですね、それぞれが独立してですね、ラコラコさんはご存知の通り、英語語源辞典通読ノートということでですね、
結果から出版されております、英語語源辞典をAから順に読んで、Eに差し掛かっておりまして、長いコンのトンネルを抜け切ったということでですね、最新のノート記事がですね、昨日アップされました。
そこでコーパスという単語にもですね、言及されているんですよね。そんなことでですね、コーパスだけでもこれ十分に語れる話題だよなと思いつつですね、今日の配信しようと思っていたらですね、また同じ日、昨日ですね、菊地翔太先生が今度はですね、データに関するノート記事をアップされたということでですね、これはもうドッキングさせてしまおうということで、
今日はコーパスという単語とデータという単語をめぐるお二人の言及をですね、紹介するということで、これは全く私の自身の話題ではないということでですね、ヘルカツのお知らせということになるかと思いますが、各ですねノート記事へのリンクはこの後のチャプターで貼っておきますので、
ぜひ皆さんそのリンクからたどってですね、お読みいただければと思います。ということで冒頭長くなりましたが、お二人のヘルカツ紹介ということになりますかね。どうぞよろしくお願いいたします。
さてまず、なこらこさんですね。ヘルメイトとして非常に頼りになるヘルメイト。非常に安定感があってですね、英語語源辞典をとにかくAから順に続けて読んでいくということがしっかり継続されてるんですよね。でもこれも長い旅ですよ。マラソンみたいなものなんですけれども、Cまでたどり着いてるんですね。
06:01
これなかなかもうこれだけでもですね、これ異形だと思うんですよ。Zまで終わったらもうこれもう大粛紹介になるんでしょうけれども、Aが終わっただけでもですね、何ヶ月前ですかね、これ私もびっくりしてですね、お祝いと言いますかね、の言葉を送ったわけなんですけれども、今Cに差し掛かっています。
それぞれですね、やはりAで始まる単語、Bで始まる単語、それぞれの面白さ、難しさというのが、難しさっていうんですかね、読み進めて通読していく上でのきつさみたいのがあるようで、これはやってみたですね、なこらこさん本人にしかきっとわからないだろうというところがあるわけなんですけれども、
Cに今差し掛かって、CORとかですね、COOあたりですかね、このあたりから始まってるんですよ。で、昨日あげられた最新の英語語源辞典通読ノートCはCOOK、COOKからCORPUSという馴染み深い単語ですよね。
少なくともCORPUSっていうのは一般に馴染み深い単語ですね。このHeldioをお聞きの方はですね、言語学のツールとしてのCORPUSというものはですね、耳にしてきたんではないかと思うんですね。
で、過去2回ですね、なこらこさんはCONあたりをですね、あげてきておりまして、私追いかけては来たんですけれどもね、3回分ぐらいたまってご紹介しようかなと思ったんですが、あまりにですね、ちょっと面白い話題か、この今回の最新の記事の最後の部分ですね。
CORPORATE、CORPS、CORPUSというところにですね、なかなか集中している感がありましたので、今日はですね、ここについて少し集中的にらこらこさんが読み進めている成果をご紹介するとともに、皆さんにもご関心持っていただければなと思うんですね。
CORPORATE、これ法人のとか団体のという意味ですよね。形容詞になってますね。で、それからCORPS、これわかりますかね。CORPSEと書いて、これ死体という意味なんですね。死体、デッドボディーですよ。
そして次にCORPUSですね。CORPUSと書くものなんですが、これがですね、すべて動語根に遡ると。ラテン語のCORPS、これは体という意味なんですね。
引用語根はCREPという形で再現されているんですけれども、特にその後半の2つの単語ですね。CORPSとCORPUSですけれども、これは完全に同じCORPSに遡る単語で二重語ということなんですね。
09:23
最初の死体を意味するCORPSのほうは、ラテン語からフランス語を経由して英語に入ってきた。一方CORPUSのほうは、ラテン語から直接英語に入ってきたと。
この辺りがですね、経路が違うということで、意味も、そして綴りも違うということなんですが、この入ってきた年代を比べたりするとですね、いろいろとわからないことがあるというふうに、なこらこさんはですね、この項目について論じてらっしゃるんですね。
この問題ですね、確かに結構厄介で、ちゃんとこれに答えようとすると、しっかりと調べないといけないんですよ。私、OEDを見たりですね、MED、Middle English Dictionaryですね、この辺を見たりしたんですが、これちゃんとですね、本腰を入れて、それぞれの年代、そして意味の重なり、そして語彙ごとの使われ始めた年代等をですね、精査しないといけない。
最終的には、だいたい時期が中英語から近代語にかけての、この時代にですね、両方現れてきて、考えていかなければいけないという、その注目の時代は中英語から近代語にかけてなんですけれども、この辺りの文献をたどったり、それこそコーパスでですね、その綴りを確認したりしなければ、これ最終的な答えをですね、導くことができないというぐらい、実はなかなか難しいですね。
しかし、実はなかなかこれ厄介な問題なんですよ。これをですね、ラコラコさんがご指摘してくださいまして、これはなかなか大きな問題ですよ。
で、このコープス、主体のコープスとコーパスの方ですね、やるテキストの集合体という意味なんですけれども、現代ではですね、これの他にですね、今回触れられていなかったと思うんですが、必ず目は通されたと思う箇所ですね、これがCORっていう単語があるんですね。
CORPSと書きます。ものすごく変な綴りと発音の関係で、つまりコープスとこれも読みたい単語なんですが、COREですね、これフランス語から入ってきた軍隊という意味です。
軍隊というのもいわば、国家の体という考え方もできますね。集団という意味のボディもありますので、その辺りと結びついているんですけれども、フランス語から入ってきて、Marine Corpsっていうと、これ海軍ということになるわけですよね。
12:07
これもやはりですね、ラテン語コルプスにされているという意味で、実は35なんです。
さらにですね、この五摺りとしてCORSEみたいな単語もあってですね、これはあくまで五摺りということだったりはするんですが、これも合わせると45ということになるんですね。
ダブレットどころか、トリプレット、さらにクアドルペットっていうんですかね。あれ、45、あまりない、なかなか珍しいので、これはですね、皆さん記憶していただければと思うんですが、こういう面白い単語をですね、今回ラポラコさん取り上げて話題にしていただいたということなんですよね。
これはですね、本当にちゃんと調べる価値があるぞという問題提起していただきました。私もですね、昨日の今日ということで、いろいろ調べることができずにですね、深掘りはできませんでした。ただですね、これ私、エティモロジカルスペリング、語源的綴り字という話題ですね。これラポラコさんもこのターム出してもらいましたから、ノートで。
これについてはですね、私、いろいろと研究しておりまして、実はこのCorpsのこのPですね、これがいつ落ちたり、それから入ったりしたか、綴り字上ですね、というのをちょっと調べたことがありまして、だいたいですね、語源的綴り字っていうのは16世紀ぐらいの言語なんですが、この単語に関しては14世紀となかなか早い段階、Pが挿入されています。
挿入されているという、ちょっと特殊事情があったりするんですよね。この辺りですね、やっぱりこれどんどん深掘りできると、研究できるぞというところなんですよね。またですね、新情報と言いますか、これについてちらっと触れた、私も自身の研究論文があるんですけれども、そんなに深掘りしてないんですね。
なので、改めてこのCorps問題、Corpus問題ですね、追っかけていきたいなと思った次第です。ラコラコさん、ありがとうございました。そして、今日の2件目なんですが、データに関する話題ですよね。これですね、まずは菊池先生のノート記事読んでいただければと思うんですけれども、一つは発音の問題ですね。これ皆さんどう発音しますか。
日本語で横文字でもデータとなっているので、英語として使う場合もデータと言って済ますというケースがほとんどかと思うんですね。私もそうです。ですが、一方でダータというネイティブの発音、それからデータという発音もあったりしてですね、実は結構発音が揺れているっていうところがポイント1として菊池先生が触れられているんですよね。
15:03
このDATAという4文字だけの単語で短いんですが、これ発音がですね、3種類あるっていうのも面白いはずだね。これ思い出すのがMake America Great Againのトランプ大統領のあのモットーですよね。これも省略するとMAGAとなりますよね。
データに近いんですけども、これ普通はMAGAとかMEGA2つありますね。これデータのようにMEGAっていうのはあまり聞かないんでしょうかね。なのでしんえいしんえいっていうこの手の単語ですね。これをどう発音するかっていうのは3通り、少なくも2通りあたりで、これは音素配列の音素配列って言うんですかね。
どうシラブル刻みで読むかみたいな問題になってきて、これはこれで面白いんですね。もう一つは意味といいますか、文法的な話題でデータっていうのは加算名詞なんですか、不加算名詞なんですかというこれもですね、面白い話題に触れられています。
そして実際ですね、この問題について深掘りした私にも、そして菊池先生もですね、身近な方がいるんですね。これはKERFのメンバーがですね、この研究を実はしておりまして、そして菊池先生のノート記事でも触れられているように、今度のですね4月12日土曜日に京都大学で開催されます英語字研究会でもこの発表が実はなされる予定なんですよね。
ご関心のある方はぜひですね、英語字研究会の公式ホームページに飛んでご確認いただければと思います。つい数日前にですね、このお聞きのHeldioでも実は英語字研究会のことはですね、ご案内しておりますので、そちらも併せて聞いていただければと思います。
ということでですね、今日はコーパスデータの話と言っておきながら、実はですね、コーパスという単語、それからデータという単語について、それぞれ私のヘルカツ仲間2名がですね、それぞれをついてですね、触れて話題を提供していただいたと。
私はそれをちょっとですね、まとめサイト的にですね、触れて、そしてこのHeldioでですね、話させていただいたということで、まさに人のうんどしで相撲を取るということでですね、ネタ不足。常にネタを探し求めている私には本当にですね、昨日はありがたい2つのヘルカツコンテンツがアップされたなというところで、ラコラコさん、そして菊池翔太先生ありがとうございました。
エンディングです。今日も最後まで放送を聞いていただきましてありがとうございました。
というわけで、今日はお2人のヘルカツ紹介ということでお届けいたしました。
18:03
関連するリンクはですね、Voicyお聞きの方はそれぞれのチャプターに貼り付けておきます。
そしてあの最後に述べました英語子研究会の方もですね、4月12日京都大学で開催されます。
4月12日の土曜日の午後ですね。午後、私ももちろん参加いたしますし、ラウンドテーブルでですね、少しお話といいますか、司会することになっております。
そちらも含めましてですね、なかなか面白い会になるのではないかと思いますので、ぜひですね、英語子を学んでいる方、そしてこれからバリバリ学んでいきたいなというこのヘルディお聞きの方はですね、ご参加いただければと思います。
参加の方法は登録制となっております。3月20日ですね、今月の20日、1週間ほど先ですかね、5日ほど先ですか、に参加登録締め切りとなっております公式ホームページより詳細見ていただければと思います。
ということでですね、ぜひ今日のご紹介したノート記事読んでいただきまして、そしてラホラコさんと菊池総裁先生のノートをフォローしていただければと思います。
このチャンネル、英語の語源が身につくラジオヘルディオでは、あなたからのご意見ご感想をお待ちしています。ご意思のコメント機能を通じてお寄せいただけますと幸いです。
SNSでのシェアもよろしくお願いいたします。
それでは今日も皆さんにとって良い1日になりますように、英語字研究者のほったりうちがお届けしました。また明日。
19:44

コメント

スクロール