1. むらスペ
  2. chatGPTの教師としての質は目..
2023-04-17 21:04

chatGPTの教師としての質は目標言語による

「chatGPTの教師としての質は目標言語による」

英語や日本語のようなメジャーな言語を学ぶときはプロンプトを何語で書くかとか、有料版でしか使えないGPTのバージョンを使うかはあまり問題がないが、マイナーな言語(話者の数が少ない言語ではなく、その言語で書かれたネット上のウェブページの数が少ない言語)を教えるときはGPT4の方がいいということを、教材の文字数を基準に比べてみました。

--- Send in a voice message: https://podcasters.spotify.com/pod/show/murasupe/message
00:00
はい、冒険家のみなさんおはようございます。今日もですね、ラクダに揺られて灼熱の砂漠を横断していらっしゃいますでしょうか。本日は2023年4月17日ですね。インドでは午前8時36分を回ったところです。今日も音声配信、むらスペを始めさせていただきたいと思います。どうぞよろしくお願いします。
今日話したいのはですね、チャットGPTの教師として、語学教師としての質は目標言語によるということなんですね。
はい、でね、ここで皆さんも、もし複数の言語をチャットGPTで使ったことがあったら、その時のリアクションを思い出してほしいんですよ。
はい、それで僕自身もですね、ヒンディ語を勉強しているので、そのヒンディ語でチャットGPTを使うこともあるし、それから日本語とか英語で使うこともあるわけですね。
はい、それで僕がいつもやっている、ヨーロッパ共通参照枠のA1レベルのヒンディ語で物語を作ってもらうっていうのはね、それ私いつもやって、それで読解の勉強をしているんですけど、それを日本語でも同じプロンプトを出して、
しかもですね、そのチャットGPTにはGPT3.5っていう無料でも使えるバージョンと、GPT4っていうね、有料でなければ使えないバージョンがあるので、それでもその2つも比較してみました。
さらにそのプロンプトですね、つまりそのチャットGPTに入力する質問とか指示の文ですけど、その文を英語にした方がいいのか、あるいは日本語にした方がいいのか、日本語のままでもいいのかですね。
それでもちょっと結果がどのぐらい違うかっていうのをですね、比較してみました。ただし、質的にね、比べるのがちょっと難しいので、ここではとりあえず長さで考えてみたいと思います。文字数ですね、文字数。
なんでかっていうと、やっぱりそのヨーロッパ共通3小学のA1レベルで読める文章っていうのはかなり短いわけですよね、物語。物語にしても短いので、それをどのぐらい短く書けるかっていうこともその一つの語学教師のね、こういうストーリーを書く語学教師としての能力に
能力の一つの指標として使えるんじゃないかと思いましたので、それでちょっとこういうことをやってみたいと思ったわけですね。まず具体的な数字をご紹介してみたいと思いますが、最初は日本語ですね。日本語で物語を作ってもらいました。
03:06
最初は有料バージョンのGPT-4ですね。それで、プロンプトを英語と日本語でしたときに文字数がどう変わったかというのをちょっとご紹介してみますが、GPT-4でプロンプトはこういう英語です。
Please write an adventure movie like story in Japanese at CEFR A1 level ですね。こうすると日本語のとても簡単な冒険映画っぽい物語が出てくるんですけど、その文字数を数えてみると483文字でした。
次にそれを英語で、物語は日本語で書いてもらうんですけど、その指示を日本語で書いてもらいました。つまりプロンプトはこういう日本語です。
Please write an adventure movie like story in Japanese at CEFR A1 level ですね。そうすると452文字だったんですね。これだけ考えると同じプロンプトを日本語でも英語でも聞いてみたら、日本語のほうがかえって短かったんです。
つまり英語にするとそのほうが短くなる、つまり簡単な読み物が出てくるとはこの結果では言い切れないということがわかると思いますね。これはGPT-4の有料バージョンでしか使えないほうです。
次にGPT-3.5ですね。無料バージョンでも使えるチャットGPTです。これも日本語の物語を作ってもらうんですけど、同じようにプロンプトを英語と日本語でやってみました。
さっきと同じプロンプトなのでもう一回読みませんけど、無料バージョンでは英語のプロンプトで日本語の物語を作ってもらったら405文字、次は日本語のプロンプトで同じように日本語の物語を書いてもらったら413文字でした。
つまりここでは日本語のほうがわずかに多いですね。
ですので少なくとも今日本語でGPT-4とGPT-3.5、日本語の物語を書いてくださいというタスクでGPT-4とGPT-3.5という無料バージョンと有料バージョン、
06:01
それぞれに対してプロンプトを英語で入れたときと日本語で入れたときは日本語のほうが短いときもあれば英語のほうが短いときもあるということで必ずしも英語でプロンプトを入れたほうが短くなるというわけではないということがわかりましたね。
それともう一つはGPT-4とGPT-3.5の違いですね。これもGPT-4.5の場合は483文字と452文字でした。だけどGPT-3.5の場合は405文字と413文字でした。
つまりこれも必ずしもGPT-4のほうが短い物語を出してくれる。つまり優しい物語を書いてくれるとは限らないということがわかりました。
むしろGPT-4のほうが長い文章を返してくるというわけですね。ここでは有料バージョンのほうにするとより短く読みやすい文章を返してくるという効果がないということが少なくともこの実験ではわかります。
ただしこれはチャットGPTはいつも同じ結果ではなくて質問するごとに最初から回答を生成してくれるんですね。
なのでもっとたくさん生成して数を 統計を出したほうがもちろん正確だとは思いますが
でも少なくとも有料バージョンにバージョンアップしたらそれが日本語の先生として質が高くなるわけではない。必ずしもそうなるわけではないということはここでもはっきりわかるんじゃないかと思いますね。
次は同じことをヒンディ語でもやってみたんですよ。これはヒンディ語でやってみたというのはヒンディ語のコンテンツですよね。冒険映画っぽい物語をヒンディ語で書いてくださいというのをGPT-3.5でもやりましたしGPT-4でもやりました。
GPT-3.5の場合もGPT-4の場合も両方ともプロンプトを日本語でも入れましたし英語でも入れてみたんですね。それをちょっとご紹介してみるとまたさっきと同じように有料版のGPT-4の方からご紹介しますと
まずヒンディ語の方が文字数が多くなります。これは日本語は漢字があるからそういう意味でヒンディ語の方が長くなっちゃうのはしょうがないかもしれませんね。まずGPT-4の方ですけど英語でプロンプトを入れると1365文字でした。
09:14
英語でプロンプトを入れてヒンディ語の物語をGPT-4で書いてもらうと1365文字でした。同じGPT-4でヒンディ語の物語を書くことを日本語でプロンプトを日本語で入れると1515文字でした。
ここでは日本語の方がちょっと1割ぐらいですかね多くなっていますね文字数がね。英語でプロンプトを書いた方がちょっと短くて日本語でプロンプトを書くと1割ぐらい長くなるというのがあります。
次にヒンディ語のGPT-3.5で物語を書いてもらうと思います。チャットGPT-3.5でヒンディ語の冒険的な物語を書いてもらったんですけど
これも最初に英語でやってみたらその時は2094文字でしたね。同じようにヒンディ語の冒険的な物語をGPT-3.5で書いてもらったんですけど今度はプロンプトを日本語で書いてもらいました。
そしたら1950文字でしたね。これだけ見るとここでもまずプロンプトの言語を見てみるとプロンプトが日本語の時の方が長い時もあれば
プロンプトが英語の方が短い時もありますね。つまりプロンプトの言語は影響してないです。両方あります。だけど長さが全く違う。GPTのバージョンによって長さが全く違うというのはここで大きな違いが出てくるんですね。
つまり日本語ではなくてヒンディ語ですよ。日本語ではなくてヒンディ語のコンテンツを作ってもらう時にGPT-4の方では1365文字だった時と1515文字だった時があります。
だけどGPT-3.5の時は2094文字と1950文字でした。なのでこれはかなり長くなってしまっているというのがありますね。
12:06
つまり日本語で物語を書いてもらう時とヒンディ語で物語を書いてもらう時に大きな違いはプロンプトを日本語で書くか英語で書くかということではなくてGPTのバージョンです。GPTのバージョンが非常に大きな影響を持っているということですね。
今ここまでのところをまとめてみるとまずプロンプトを英語で書いても日本語で書いてもあまり大きな違いはありません。
あとGPTのバージョンですね。チャットGPTを3.5にするか無料で使える3.5にするか4.5にするかという時は日本語ではむしろ古い方が短いんですよね。
つまり日本語を勉強する人にとってはバージョンもGPTのバージョンもつまり有料版を使うか無料版を使うかあるいはプロンプトを日本語にするか英語にするかというのもそれほど大きな決定的な違いは見られないと思います。
その一方でヒンディ語を勉強するときもプロンプトを日本語で書くか英語で書くかということはあまりその長さに影響がないです。
だけどGPTのバージョンが非常に大きな影響を持っているということですね。つまりその有料バージョンだと短い初心者にも読みやすいものが出てきますが
無料バージョンだとそれがあまりコントロールされていないつまり普通のヒンディ語っぽいものそれに近いものが出てきてしまって結果的に長くなるということですね。
今日はこれは数字でご紹介していますけど僕もヒンディ語の学習者としてこれは本当に主観的なのであまり数値ではご紹介できないんですけど
でも主観的にはすごく大きな違いとしてあります。つまりその有料版のGPT-4ですね。
GPT-4でヒンディ語の読解教材を作ってもらうと今の僕では自分一人でも結構読めます。
そのチャットGPTに質問しなくても最初に出てきたところでも大まかなストーリーはわかるんですね。
15:06
細かいところはわからなくても大まかなストーリーはわかるんですけどそれを同じヒンディ語をチャットGPTで習うにしても
無料版で読解用の教材を作ってもらうと現在の僕のヒンディ語では質問も何もしないで初見で全体を読むのはかなり辛いです。
まず長さも長くなって辛いし、あと出てくる文とか単語のレベルも僕の今のヒンディ語ではかなり難しくて
最後まで読み通すことができないというのが正直なところですね。
ここには本当に大きな違いがあることが僕も主観的に感じています。
どうして日本語とヒンディ語でこういう違いが出てくるかというと
チャットGPTというのはインターネット上にあるブログとかそういうものをデータセットとして利用しているんですね。
日本語とヒンディ語ではそれを使っている人の数だけではヒンディ語の方がずっと多いんです。
4億人ぐらいの人がヒンディ語を使っているという統計もありますね。
日本語は1億何千万かですけど3倍以上の人がヒンディ語を使っているんですが
ただインド人は皆さん結構英語が上手なのでインターネット上の資料っていうのは
ヒンディ語っていうのはそれほど多くないんですね。
普通にツイッターとかでもインド人も英語でツイートしている人とかがとても多いですし
本屋さんとかも行ってみると分かるんですけど本当に驚くほどヒンディ語の本というのはないです。
田舎の方はちょっとわからないんですけど僕が住んでいる地域の都市部の本屋さんだったら9割以上が英語の本ですね。
9割以上9割5分ぐらい英語だと思っていいんじゃないかと思います。もっと多いかもしれません。
ヒンディ語っていうのはそれほど少ないんですよ。文字で見るものがですね。
もちろん言語で例えば映画とかそういうところではヒンディ語の音声のものがほとんどですけど
ヒンディ語とかテレグ語とかそういう英語の音声のものはあんまりないですけど
文字として使われているものは英語の方が圧倒的に多くて
ヒンディ語とかインドの人の母語が文字化されてインターネット上に公開されているものは少ないんですね。
つまりその結果このチャットGPTが持っているヒンディ語のデータセットっていうのは
ヒンディ語の話者が4億人いるにもかかわらず非常に少ないという事実があると思います。
18:02
このチャットGPTは持っている言語のデータセットの量によって品質がかなり変わってしまうので
それがこの違いに出てくるんだと思うんですね。
つまりデータセットが少ない言語を勉強するときはGPTのバージョンが大事ということですね。
つまりその有料にすると品質が上がってくる価値があると思います。
でもその一方でプロンプトを日本語で書くのかあるいは英語で書くのかっていうのは
それほど大きくない、影響が大きくないということが分かりました。
それを考えると日本人で英語を勉強する人っていうのは
英語のデータセットっていうのは非常に多いんですよね。
チャットGPTの持っているデータセットの半分ぐらいは英語だと聞いたことがあります。
ですので日本人で英語を勉強する人は無料のままで日本語プロンプトを書いて
それほど大きな弊害はないんじゃないかと思いますね。
でも一方でヒンディ語のようなデータセットの量があまり多くない言語で勉強する場合は
その場合もプロンプトを何語で書くか、日本語で書くか英語で書くかっていうことは
それほど大きな影響はないんですけど
だけどGPT4ですね、これは有料バージョンでしか今は使えないんですけど
そのGPTのバージョンが上の方のものを使うことが重要であるということが
言えるのではないかと思います。
では今日のムラスペで申し上げたいのはここまでになりますので
ぜひ皆さんも自分が何語を勉強したいのか
英語みたいなメジャーな言語を勉強したいのか
それともヒンディ語みたいなインターネット上ではマイナーな言語を勉強したいのか
それによってGPTの有料版を使うかとか
そういうことは考えたほうがいいんじゃないかと思いますね
それでは本日もムラスペにご参加くださいまして
ありがとうございました
今日のChatGPTの語学教師としての質は目標言語による
こういうコンテンツにつきましてご感想とかコメントなどがありましたら
ぜひムラスペのハッシュタグ付きでご共有いただければと思います
それでは本日も良い1日をお過ごしください
今日は月曜日ですからね
今週も良い1週間をお過ごしください
21:00
そして冒険は続きます
21:04

コメント

スクロール