今回はコーパス言語学の第2回です。「まず文字を数える。書籍の総文字数を知るには?」「怒涛の許可取り3万点」「古書店を駆けずり回り、大量の本を集める」など、「ここが大変だったよBCCWJ」と題して、実際にコーパス作りを行なった丸山岳彦先生がコーパス作りの過酷さを語ります。
【丸山先生のX】
https://twitter.com/maruyama_take
【目次】
命題:ミニチュアデータベースを作れ
1億語の書き言葉とその内訳
コーパスのはじまり
ここが大変だったよ BCCWJ TOP3
第3位 文字数え
第2位 実物集め
怒涛の許可取り3万点
3万冊の購入リストを見る
第1位 サンプル作り
国語研は理想的スタートアップ
コーパスの宿命
言語を捉える難しさ
【参考文献・参照URLへのリンク】
◯現代日本語書き言葉均衡コーパス
https://clrd.ninjal.ac.jp/bccwj/
◯書き言葉コーパス 設計と構築(講座 日本語コーパス 2)
◯講義「日本語の表記―指針と実態―」(柏野和佳子)/言語学レクチャーシリーズ Vol.17
https://www.youtube.com/watch?v=B1ckyMTqH_s
◯『現代日本語書き言葉均衡コーパス』におけるサンプル構成比の算出法 : 現代日本語書き言葉の文字数調査
https://doi.org/10.15084/00002838
◯『現代日本語書き言葉均衡コーパス』利用の手引 第1.0版
https://doi.org/10.15084/00003227
【サポーターコミュニティへの加入はこちらから!】
https://yurugengo.com/support
【我々の初の著書『言語沼』はこちら!】
https://www.valuebooks.jp/bp/VS0058755147
【サポーターコミュニティへの加入はこちらから!】
https://yurugengo.com/support
【実店舗プロジェクト:ゆる学徒カフェ】
https://www.youtube.com/@yurugakuto
【姉妹チャンネル:ゆるコンピュータ科学ラジオ】
https://www.youtube.com/@yurucom
【Twitterあるよ!】
ゆる言語学ラジオのTwitterアカウントがあるので、是非フォローしてください!面白語源ネタなどが流れてきてあなたの知識欲が満たされます。
→https://twitter.com/yuru_gengo
【おたよりフォーム】
https://forms.gle/mTGM7A9QNqgjZMgN7
※皆様からの楽しいおたよりをお待ちしています!
【お仕事依頼はこちら!】
info@pedantic.jp
【堀元見プロフィール】
慶應義塾大学理工学部卒。専門は情報工学。WEBにコンテンツを作り散らかすことで生計を立てている。現在の主な収入源は「アカデミックに人の悪口を書くnote有料マガジン」。
Twitter→https://twitter.com/kenhori2
個人YouTube→https://www.youtube.com/@kenHorimoto
【水野太貴プロフィール】
名古屋大学文学部卒。専門は言語学。
某大手出版社で編集者として勤務。言語学の知識が本業に活きてるかと思いきや、そうでもない。
Twitter→https://twitter.com/yuru_mizuno
【BGM提供】
・フリーBGM・音楽素材MusMus様 https://musmus.main.jp
・OtoLogic様 https://otologic.jp/