2022-04-24 20:35

第627回 Wordで音声ファイルから文字起こしをする方法 (2022/4/24)

Discordサーバー(チャットルーム)はこちら(WoodStreamのデジタル生活と電器屋Walker共同運用) RadioTalk版ポットキャスト番組はこちら YouTubeで動画を配信しています。 番組オリジナル「 […]
00:02
スピーカー 1
マイクロソフトの製品や技術を楽しく、分かりやすくお話しするPodcast番組
WoodStreamのデジタル生活です。
スピーカー 2
第627回目の配信になります。お届けしますのは木澤です。よろしくお願いします。
はい、今週もお聞きいただきありがとうございます。
この配信はクラウドファンディング、キャンプファイアのコミュニティにより、皆様のご支援をいただいて配信しております。
今回もヤサリさん、ホワイトカラーさん、はじめ合計10名の方にご支援をいただいております。
ありがとうございます。
ご支援の内容に関しましては、この番組ウェブサイト、windows-podcast.comでご案内しております。
もしご協力いただけるのでしたら、よろしくお願いします。
スピーカー 1
また、リサの皆さんとのコミュニケーションボードとして、チャットサイトDiscordにサーバー開設しております。
スピーカー 2
こちらはPodcast番組、電気ワーカーと共同運用しております。よかったら参加してみてください。
スピーカー 1
DiscordサーバーのURLは番組ウェブサイトにリンクがあっております。
スピーカー 2
ということで、今回またいろいろ試そうということで、YouTubeとPodcast同時収録をまたしています。
スピーカー 1
なかなか難しいです。YouTubeだと画面で出しながらというのをやると、今度はPodcast番組側が音声だけなので分かりづらくなってしまうという、
スピーカー 2
非常にどっちつかずの配信になることが今まで何度かあったんですが、
今回はとりあえずしゃべっているところを動画で撮って、まずPodcastの方、音声の方を主体にして、
あとでYouTube側は動画をここにつけて、ここら辺ってすでにYouTube側の話しちゃってますけど、
うまい具合に編集できないかなということを試しにやってみようかなと思っています。
ということで、YouTube側はできるだけカメラ目線でしゃべろうと思いますが、
スピーカー 1
現行が目の前のパソコンにあるので目がそれちゃうかもしれませんが、ご了承いただきたいと思っております。
今週はまず何を話しようかなと思ったんですが、
スピーカー 2
ちょっとその前に、ここ最近ずっとWindows10とかWindows11のインスタでピリビューの話をしていました。
前回とかはWindows11とWindows10のリリースピリビューが新しいバージョンが出ましたというところで、
スピーカー 1
21H1というのが適用されるんじゃないでしょうかという話を結構私はしてたんですね。
スピーカー 2
言ってたんですけど、どうも他の方のお知らせの方がいろいろな話をしていたら、
スピーカー 1
21H1って出ないですよね、21H2になるから今後のWindowsのバージョンって何とかH1っていうのはもう出ないんですかねなんて話をしていて、
スピーカー 2
どうも他の記事でも、これ噂の記事しか見つけられなかったんですけど、
スピーカー 1
この春のバージョンってひょっとしたら例えば21H1とかそういった名前でも出ないかもしれないです。
スピーカー 2
ということで先週私堂々と21H1が出ますなって言ったんですけど、ひょっとしたら違うかもしれません、ごめんなさいというところで。
03:09
スピーカー 1
ちょっとまた5月になるとそこが明確になると思いますし、一時情報で何かないかなっていうのはちょっと漁ってるところなんですけど、なかなか見つけられないという状況です。
それで今回お話しする内容が全然違う話なんですけど、ワードで文字起こしをしようという話です。
文字起こしって言ってるのは、音声の情報を実際のテキストファイル、文字にするということになります。
なかなかこれ難しい話で、私は結構永遠の課題だったかなと思うんですけど、実際言葉でしゃべったことを文字にしましょうということ、そのままなんですけど、
スピーカー 2
今まで何度か試してるんですけど、なかなか精度が上がらなかったりして難しかったんですね。
パワーポイントとかでも実際しゃべった言葉を文字に起こしてかつ翻訳をしてっていう、できるっていうのをだいぶ前から話しててできるんですけども、なかなかうまくいかないですね。
スピーカー 1
私がやっぱり.NETROBOとかのコミュニティでもワードでパワーポイントで出しながら、自分で日本語で話してテロップで英語で出してこんな風にできますっていうのをやってたんですけど、
スピーカー 2
いやーけささん厳しいねまだっていう話はしてたんです。
だいたい自信がしゃべっていることとこういう風に英訳されるんだとかね、こういう風に文字起こしされるんだっていうことを言われてたっていう。
なんとなく見ててこういう風なところで頑張ってるんだっていうところは皆さんの視点では見れてたんですが、なかなかうまくいってないと。
一方ですね、どの編集ソフトも結構良くなってて、アドビのプレミアですね。
スピーカー 1
あれとか見ると結構文字起こしをかなりの精度でやってくれてるんですね。
スピーカー 2
だったらDAVINCI RESOLVEもできないかなっていうところもあったんですけども、文字起こしをなんとかできないかなっていうところをいろいろ調べてたらですね。
まずマイクロソフトのほうから調べると、マイクロソフトWordのほうでトランススクリプトという、ちょっと一瞬呼び方が合ってるかなって調べちゃいましたけど、
スピーカー 1
トランススクリプトという機能があって、これもともとディクテーションということでね、やっぱり音声で入力されたやつを文字にするっていう機能の一つなんですけど、これが実装されてますってことが出てるんですね。
スピーカー 2
実装はされてて、ただ英語版だったんですね。
去年の開き口ぐらいには出てて、私この番組で喋ったかどうかかなり怪しいんですけど、そういったところで音声をマイクで入力したやつを認識してくれますというのは英語版はリリースされてました。
06:04
スピーカー 2
日本語版はまだですって言ってたんですけど、日本語版は実際も対応されているというところがありまして、実際私試してみました。
まず、皆さんがMicrosoft 365で契約されているワードを入れているようでしたら、ワードの画面を見ていただくと、ディクテーションというものが出てきます。
スピーカー 1
それを選ぶと、マイクに向かって喋ってくださいと、それを文字にしますというふうに出てくるんですね。
スピーカー 2
これ便利だなということでやってみたら、結構な精度で日本語にしてくれます。日本語対応してるんですね。
スピーカー 1
というところでやったと思ってたら、それはディクテーションの機能なんですけど、トランスクリプトって何かというと、さらに音声ファイルを文字にしてくれるんですね。
スピーカー 2
これはやったぜと思ってみたら、まずワードのアプリケーションを見るとディクテーションだけしか出てこないんですね。
スピーカー 1
よく見るとですね、Microsoft 365のWeb版のワード、こちらの方を起動するとですね、ディクテーションの下にメニューでトランスクリプトって出てくるんですよ。
スピーカー 2
これを選ぶと、読ませたいファイルを選んでください、音声ファイルを選んでくださいって入れるんですよ。
スピーカー 1
そうするとそれに合わせて文字に起こしてくれます。
というのがね、ワードのトランスクリプト機能なんですが、これはWeb版のOfficeワードだけに対応しているというものになります。
スピーカー 2
実際読ませてみました。読ませたのはもちろんこの番組、第626回ですね、前回の配信を。
ポッドキャスト番組の音声ファイルを何の加工もせず音楽もつけたままそのまま放り込んでみたんですね。
スピーカー 1
処理時間でだいたい5分、10分くらいだったかな、ちょっと正確に覚えてないんですけど、だいたいそのくらいの間隔で翻訳をしてくれて、
もちろんそのマイクロソフトの高度なAIがですね、翻訳をしてくれるんですが、翻訳というか文字起こしてくれるんですが、結構的に文字起こしてくれました。
ところどころ直さなきゃいけないなというところがあるので、完全なものにするとそれなりの労力はくると思うんですが、
だいたいね、だいたい直してくれて、文字にしてくれてます。
スピーカー 2
ただ、Windows11っていったのがずっとWindows7分だけ拾ったのかって感じするんですけど、Windows11が全部Windows7になってたっていうのもあったりするんですけどね。
スピーカー 1
ただこれだけ文見見ると、まあ間違えてるなと思いつつも、ポッドキャスト番組で喋った内容はだいたい通じるというものになります。
09:03
スピーカー 1
ですからこれをちゃんとしたものにするのであれば、文字直していけば結構ちゃんとしたものに仕上がるかと思っています。
スピーカー 2
まあ、ですからその限界はありますからね。
私の喋り方の問題もあると思うんですよ。
ただ、この喋りで文字にしてくれます。日本語にちゃんとしてくれますので。
そこはね、ちょっと期待してもいいと思います。
英語だともっといいのかもしれませんね。
スピーカー 1
要は集まるデータの量が違いますから、AIってそういうものですからね。
だから日本語は集まるデータ量が少ないよりいいのかなと思っていますし、逆にどんどん使い込んでフィードバックする口があればね、いいかなと思っています。
この文字起こし、無料でできるんですよ。
スピーカー 2
無料でできるんですが、制限があって1ヶ月最大300分までですね。
スピーカー 1
300分っていうことは、あれですよ、5時間ですよね。
スピーカー 2
だから、5時間分だったら十分じゃないですかね。
十分っていうのは私の使い方と十分かなと思っています。
スピーカー 1
だってポッドキャスト番組にしても、YouTubeにしても、1ヶ月トータル5時間喋ることはないと思いますし。
スピーカー 2
ただビジネス用途で議事録を起こしたいとかね、それやるんだったら1ヶ月5時間はつらいと思うんですよね。
スピーカー 1
1回1時間の定例会を月4回、あーなんとかギリギリかな。
無駄に時間を延ばす人とか出てきそうなんですけど。
でも最近会に行ってスパッと終わらせましょうとかね。
だらだらと長くやることはいけないことだと思っています。
そういう使い方で割り切って考えると、実は5時間って割とちゃんと使える時間かなと思っています。
これ大丈夫かな、会社で使えるんだったらちょっと、皆さんの会社の都合で合わせて見ていただければなと思っていますけども。
毎月300分までっていうのが5時間。結構いいじゃないですか。
だったらこの番組文字起こししてもいいかなと思っています。
ただぶっちゃけね、先週の内容文字起こしたら大したことしゃべってないのにがっくりきちゃったっていうのがあるんですけども。
そんなところでね、マイクロソフト365を契約されてWeb版のOfficeワードを使える方であれば、今すぐ誰でも文字起こし使えますので、ぜひ活用してみていただければなと思っています。
特に企業とかで利用される、お仕事とかで利用されるっていう方は、契約していればですね、ちょっとWeb版のワードを開いてみて、音声ファイル、例えば会議のレコーディングしたものを音声にするとかね、
12:07
スピーカー 1
それはやっていいかどうかっていうのは各企業によると思うんですけど、それを放り込んで議事録にするとかね、そういったことも活用できるんじゃないかなと思いますので、ぜひ試してみてください。
私の活用方法何かっていうと、ちょっと今思ってるんですけど、文字に起こしてくれるとどういう形式で出てくるかっていうんですけど、
ワードに貼り付けられるんですけどね、いろんなパターンが選べるんですけども、誰が何時何分何秒にどんな言葉をしゃべりましたっていうブロックで出てくるんです。
だから、マイクロソフトの製品や技術を楽しくわかりやすく話しているポータキャスト番組、運動しているデジタル生活ですっていうと、冒頭の例えばオープニングの音楽が流れた後の13秒ぐらいから00分何秒からマイクロソフトの製品や技術をっていう言葉が並んでるんですね。
誰がしゃべったかはもう私一人しかしゃべってないんで、これ多分ユーザー一だったかな、そういう味気ない名前が出てくるんですけども、そのふうに出てきます。
これ複数だとちょっと分けてくれるんですかね、だったらちょっと期待しないなと思ってますけど、ちょっとそれは私一人しかしゃべってないのでわからないんですけど、その選べ方もできるかなと、そんな表示の仕方もできるかなと思ってます。
まずこれだけでも活用できると思うんですが、これですね、じゃあ今度は機械用音声、音声合成にかけてみるとどうでしょうということになるんですね。
これボイスピークというアプリケーションソフトがあります。これアップルンルンとかでタロケンさんがお話をされていて、私も興味を持って今体験版を入れてみたんですけど、つまりテキストファイルをすごく自然な日本語として再生をしてくれるんですね。
私体験版を入れたんですよ。どうしたかというと、自分のポッドキャスト番組をワードのトランスクリプトで文字化して文字にしたやつを体験版のボイスピークに貼り付けて、アナウンサーのような女性の声でしゃべらせるということをやってみました。
スピーカー 2
これ今音声載せるのは、私今体験版なので載せていいかどうか判断つかないのでちょっと流しませんけど、すごい流暢な日本語でこの番組を素敵な女性の声でしゃべってくれるということができたので、これちょっとやってみてもいいかなと。寝かまって言われそうなんですけどね。
スピーカー 1
というようなこともできます。そういったことに活用できるんじゃないかなと思っています。あとは、さっき何時何分何秒にしゃべったという情報が作っていますよね。これってテロップ揺れをするときに使うようなSRTというファイル形式があるんですね。
15:13
スピーカー 1
これにうまく変換できると、例えばプレミアだとか、ダヴィンチリゾルがそれができるかどうか確認しますけど、動画ファイルに音声として貼り込むことができるんですね。動画ファイルにテロップとしてはめ込むことができるんですよ。
このSRTファイルって何かというと、どんな形式かというと、まず通し番号1番2番って振ってあるのがまずテキストファイルなんですよ。テキストファイルで次に何時何分何秒、カンマー、ゼロゼロゼロ、ぺけぺけぺけってこれはミリオ単位。
スピーカー 2
で、スペース開けて、-2つのダイナリストレーニング記号でスペース開けて、そのしゃべり終わった時間、例えば00分13秒の567ミリセクみたいなね、そんなような形で1行しゃべっている時間帯、テロップの流す時間帯を書いて、その後に日本語の文字を入れて、あと空の行、次は2番目ということで並ぶようなテキストファイルなんですね。
SRTファイル。そういうのにこのワードのファイルをうまく変換できれば、テロップ入れのSRTファイル作れちゃうんですよ。
スピーカー 1
だったらこれどうなんでしょう。SRTファイルっていうのが、先ほど言いましたボイスピークにそのまま読ませられるんですよ。で、読ませて流暢な日本語でしゃべってもらえると、実はこの番組のこの私の困ったような音じゃなくて、明瞭な配信ができるということになります。
スピーカー 2
もっともね、ここまで感情を込めてしゃべることってできないんで、それが良し悪しですよね。音声合成で配信されている、Podcast番組で配信されている方もおられますけど、ちょっと私は別に否定はしませんけど、あんまり伝わらないなと思ったんですよ。
スピーカー 1
なんていうのかな、この番組聞いてくださる方って、私がしゃべってるから聞いてくれてるって方も多いと思うんですよね。それはね、とても流暢な女性の声で聞いたからっていいのかなっていうのがある。そういうことで別にやろうかどうしようかっていうとちょっとどうだろうなっていうのは私は思っています。
それはPodcast番組の話なんですけど、例えば動画の話をすると、例えば自分でしゃべりました。ただ、ちゃんと伝えることで、例えばお客さんに納品するだとか、きちんと仕上げたいと。どう私のしゃべりだとっていう方は、気になる方は機械音声しちゃってもいいと思うんですね。
ボイスピークって声のアクセントとかつけるの微妙にできますので苦労しますけど、そこら辺でね、結構ちゃんとしたものに仕上がるので、例えばしゃべった動画の音声を抜き出して文字起こしをして、そのSRTファイル形式で時間まで区切ってやって、それをそのままボイスピークにかけて音声出力させて。
18:21
スピーカー 1
時間があっているので、その動画にピタッと音声ファイルを放り込んで、自分の音声を消して、音声合成したファイルを有効にすると、時間ぴったりタイミングぴったり合わせて、音声合成でしゃべってくれるということになるわけですね。
そういう使い方ってできるんじゃないかなと。その手助けをするのがこのWordのトランスクリプト機能だと思うんですね。ここでしゃべっているとね、そこまでなるプレミア使いをという、何のオチもないという話になってしまうんですが、ただとにかく今文字起こしを簡単にできるという方法としては、このWordのトランスクリプト機能、すぐ無料で使えます。
無料じゃないか、マイクロソフト36を契約しなきゃいけませんけどね。使うことができますので、ちょっと試してみるといいかなと思っております。以上ですね、Wordの文字起こし機能、トランスクリプトについてお話しさせていただきました。
あとエンディングで話すことは何かなというと、掃除機を買いました。ハンディクリーナーを買いまして。シャークニンジャというアメリカのメーカーの掃除機を買ったんですね。全然関係ないし、それは電気屋ウォーカーに任せなさいという予想なんですけど。
結構吸引力があって、デザインもおしゃれで、すごくいい掃除機を買いました。それについてはYouTubeで動画を作ってリビュー動画を上げていまして、今エンコード中で無駄に4Kで撮っちゃったので、エンコードに30分くらいの動画に1時間半かけてエンコードしているということをまだやっています。
動画の伸縮率は72%なので、そのうちにこれをアップしたいと思いますので、YouTubeチャンネルの方を見ていただければなと思っております。はい、そういうことで、またいろいろなネタを集めてお話したいと思います。またよろしくお願いします。
20:35

コメント

スクロール