1. アシカガCAST
  2. 文字起こしツールを音声の頭出..
2023-03-06 10:41

文字起こしツールを音声の頭出しに使う(第631回)

spotify apple_podcasts youtube

動画を編集するときやインタビュー音声をもとに原稿を書くときに、音声文字起こしツールを頭出しに使っている話をしました。文字起こししたテキストをそのまま使うのでなく、検索してそこの音声を聞き直したり、頭出しする時間を確認するのに利用しています。

=== 目次 ===
音声文字起こしツールが精度アップ
頭出しに文字起こしツールを利用
わたしの文字起こしツール利用法
Clova Noteの機能制限について
類似ツールNottaはUIが似ている
Nottaの便利そうな機能
-------
#アシカガCAST
デジタル活用のヒントをスキマ時間で。
話題のサービス、注目のソフトウェアの紹介、デジタルツールの活用術など、テック系情報をわかりやすくお届けします。
月〜水 朝8時に更新

■Twitterアカウント
https://twitter.com/ashikagacast

Apple Podcast、Spotify、Google Podcastなどでも配信しています。
■アシカガCAST on アシカガノオト
http://bit.ly/ashikagacast_notion

■アシカガノオト
http://bit.ly/ashikaganote

00:01
音声データをもとに、テキストに、文字に自動で文字起こしをしてくれる。
そういうツールが、今や当たり前のものになっています。
英語で言うと、Audio-to-Textというジャンルのツールですね。
ちなみに、テキストデータをもとに、コンピューターが喋ってくれる、音声にしてくれるのは、テキスト-to-オーディオといいます。
どちらも、AIの進化とともに、より精度が高くなって、十分実用的になってきていると思います。
特に、英語については、すごく性能が良くなっていて、いろんなツールに組み込まれていますね。
文字起こしツール、Audio-to-Textで言うと、Whisperというツールが最近話題になりました。
これは、今話題のChat AIのChat GPTや画像生成AIのStable Diffusionと同じく、Open AIというところが開発して提供しています。
Stable Diffusionと同じく、自分で環境を作ってインストールして使わないといけないので、使い始めるのがちょっと難しいです。
私はGoogleコラブというサービスを利用して、ちょっとだけ試したことがあるくらいです。
日本語の文字起こしもかなり精度が高いと好評のようです。
私は音声ファイルから文字起こしをして、その文字起こしをしたテキストを何かに最終的に利用するというよりも、
元の動画や音声を見直す、聞き直す時の頭出し用に利用するケースが多いです。
文字起こしをしたテキストと元の音声ファイルとが連動していて、テキストを選んでそこの部分の音声を再生できるツールがあるんですね。
LINEが提供しているクローバーノートというサービスでそれが実現できています。
クローバーノートはAI技術を活用した音声記録管理サービスという風に歌っていて、まさに私が便利だなと求めているツールはそういう音声記録管理サービスなんでしょうね。
なのでウィスパーのように、ただテキストデータとして文字起こしをすればいい、その精度がどんどん上がってほしいというよりも、音声データの頭出しをするときに音声を聞かなくても文字起こしされたテキストの方から探せると、そういうツールがあって便利ですよという話がしたいんですね。
03:12
私の使い方としては大きく分けると2種類あって、1つは取材をして原稿を書くという仕事のときに取材メモとして録音した音声データを文字起こししておいて、原稿を書くときにあそこどういう風な言い方してたかなと、もう1回聞きたいところだけを探すのに使うという使い方です。
クローバーノートではクローバーノート上の機能で文字起こししたテキストを検索できます。文字起こしの際に言った言葉を漢字として認識しているか平仮名かカタカナかとか、日本語の場合いろんな表記があるのでテキストで検索するときにうまく引っかからないということもあるんですが、そもそも誤認識というか違う言葉で認識されていることもあるんですが、
まあなんとか意外とこんな感じの言葉を言ってた部分として探せることが多いです。
次にZoomのオンラインミーティングの動画を元に後から内容を確認したり、一部ピックアップして動画にしたりしてるんですが、そういう場所を探すためにクローバーノートの検索機能を使って文字起こししたテキストから検索したり、
ざっと内容を拾い読みするのに音声を聞かなくてテキストで探せるのですごく便利ですね。
これ今お手伝いしているキャラクターデザイナーの井上ひさとさんと私の妻と私との3人で打ち合わせをしてるんですが、私以外の2人がすごいおしゃべりで2時間半から3時間くらいの長丁場になるので、
その中からあれどこで言ってたっけなと音声で探すとしたらとても大変だと思うんですが、文字起こしされていてさらにそこからテキスト検索できるのでとても便利ですね。
クローバーノートで扱えるファイルは音声ファイルなのでここの部分をピックアップして動画にしたいという場合にはそこの音声の部分が何時間何分何秒のところかをメモっておいて動画から同じ位置を探すという感じでやっています。
クローバーノートは一度にアップできる音声ファイルが2時間までなので、この長いズーム会議の音声が2回に分けてアップロードしないといけないのがちょっと面倒です。
06:01
クローバーノートは今ベータ版として無料で提供されています。毎月300分利用できるんですが、サービスの品質向上のためのユーザーデータ取得というのに同意するとこの制限が倍になって毎月600分まで利用できるようになります。
ただ最近は私の使い方だと600分10時間もオーバーしてしまうことがあって、でも有料でもいいからもっと多くの時間をというのが今のところできないんですね。
LINEのアカウントと紐づいているので複数アカウントを作るというのも難しいですね。
それならばということで、似たツールを探したところ、のったというツールがありました。こののったの説明を見たり試しに自分で使ってみたりして驚いたのが、インターフェースがクローバーノートとそっくりでした。
クローバーノートは2022年5月に提供が始まり、のったの方は2020年6月にリリースされているのでクローバーノートの方が真似したんだと思います。
LINEは結構パクリの常習犯的なところがあるのでまたやったなと思いました。
例えばLINEというアプリの左右に分かれた吹き出しが出てきて、吹き出しの色に意味があってと。
あのユーザーインターフェースはAppleのメッセージ系アプリのそのまんま真似ですよね。
とはいえApple標準のメッセージアプリと同じような見た目、同じような使い勝手でメッセージがやり取りできるというのはメリットが大きいですし、
Appleにとっても悪いことじゃないですし、ある意味標準化みたいなものですよね。
なので音声記録管理ツールというものの標準化として似たようなものになるのは悪いことではないですね。
ちなみにこのノッタは日本製のツールではなく中国の会社が開発したものでした。
無料でも月に120分の文字起こし時間が利用可能と書いてあったので、ほぼ120分の、119分の音声ファイルをアップロードしてみたんですが、
文字起こし時間が不足のためテキスト化できませんと出て、有料版に誘導されてしまいました。
なんか悔しいのでそこで有料版にはしてないので音声のテキスト化についてはまだ試せていません。
09:05
有料版は個人の場合だと月2000円あるいは年間一括で払うと月当たり1200円です。
有料版の方にも時間制限はあるんですが月に1800分、30時間なので大体の場合これぐらいあれば十分かなと思います。
私もさすがに月に30時間もあれば足りなくなることはないと思います。
ノッタはリアルタイム文字起こしできるところも売りにしています。
喋った言葉をリアルタイムでテキストにしてくれますし、
web上にある動画だったり音声ファイルだったりをリアルタイムで録音して文字起こしする機能もあります。
あとZoomやMicrosoft Teams、Google Meetの会議にノッタを参加させて会議の音声を文字起こしさせることができます。
会議中にその文字起こしは見られないんですが裏側でリアルタイムで文字起こしをしているようで、
会議が終わったらすぐ文字起こししたテキストを見られるということで便利だと思います。
ということで文字起こしツールを音声の頭出しに使ってますという話でした。
今回は以上です。アシカガコウジがお届けしました。
10:41

コメント

スクロール