1. アシカガCAST
  2. 文字起こしツールを音声の頭出..
2023-03-06 10:42

文字起こしツールを音声の頭出しに使う(第631回)

動画を編集するときやインタビュー音声をもとに原稿を書くときに、音声文字起こしツールを頭出しに使っている話をしました。文字起こししたテキストをそのまま使うのでなく、検索してそこの音声を聞き直したり、頭出しする時間を確認するのに利用しています。

=== 目次 ===
音声文字起こしツールが精度アップ
頭出しに文字起こしツールを利用
わたしの文字起こしツール利用法
Clova Noteの機能制限について
類似ツールNottaはUIが似ている
Nottaの便利そうな機能
-------
#アシカガCAST
デジタル活用のヒントをスキマ時間で。
話題のサービス、注目のソフトウェアの紹介、デジタルツールの活用術など、テック系情報をわかりやすくお届けします。
月〜水 朝8時に更新

■Twitterアカウント
https://twitter.com/ashikagacast

Apple Podcast、Spotify、Google Podcastなどでも配信しています。
■アシカガCAST on アシカガノオト
http://bit.ly/ashikagacast_notion

■アシカガノオト
http://bit.ly/ashikaganote
00:00
アシカルゲスト
音声データをもとにテキストに文字に自動で文字起こしをしてくれる
そういうツールが今や当たり前のものになっています
英語で言うとオーディオトゥーテキストというジャンルのツールですね
ちなみにテキストデータをもとにコンピューターがしゃべってくれる音声にしてくれるのはテキストトゥーモディオと言います
どちらもAIの進化とともにより精度が高くなって十分実用的になってきていると思います
特に英語についてはすごく性能が良くなっていていろんなツールに組み込まれていますね
文字起こしツールオーディオトゥーテキストで言うとウィスパーというツールが最近話題になりました
これは今話題のチャットAIのチャットGPTや画像生成AIのStableDiffusionと同じくOpenAIというところが開発して提供しています
StableDiffusionと同じく自分で環境を作ってインストールして使わないといけないので使い始めるのがちょっと難しいです
私はGoogleコラブというサービスを利用してちょっとだけ試したことがあるくらいです
日本語の文字起こしもかなり精度が高いと好評のようです
私は音声ファイルから文字起こしをしてその文字起こしをしたテキストを何かに最終的に利用するというよりも元の動画や音声を見直す聞き直す時の頭出し用に利用するケースが多いです
文字起こしをしたテキストと元の音声ファイルとが連動していてテキストを選んでそこの部分の音声を再生できるツールがあるんですね
LINEが提供しているClover Noteというサービスでそれが実現できています
Clover NoteはAI技術を活用した音声記録管理サービスという風に歌っていてまさに私が便利だなと求めているツールはそういう音声記録管理サービスなんでしょうね
なのでウィスパーのようにただテキストデータとして文字起こしをすればいいその精度がどんどん上がってほしいというよりも音声データの頭出しをする時に音声を聞かなくても文字起こしされたテキストの方から探せると
03:07
そういうツールがあって便利ですよという話がしたいんですね
私の使い方としては大きく分けると2種類あって一つは取材をして原稿を書くという仕事の時に取材メモとして録音した音声データを文字起こししておいて
原稿を書くときにあそこどういうふうな言い方してたかなともう一回聞きたいところだけを探すのに使うという使い方です
クローバノートではクローバノート上の機能で文字起こししたテキストを検索できます
文字起こしの際に言った言葉を漢字として認識しているか平仮名かカタカナかとか日本語の場合いろんな表記があるのでテキストで検索するときにうまく引っかからないということもあるんですが
そもそも誤認識というか違う言葉で認識されていることもあるんですがまあなんとか意外とこんな感じの言葉を言ってた部分として探せることが多いです
次にZOOMのオンラインミーティングの動画をもとに後から内容を確認したり一部ピックアップして動画にしたりしてるんですが
そういう場所を探すためにクローバノートの検索機能を使って文字起こししたテキストから検索したり
ざっと内容を拾い読みするのに音声を聞かなくてテキストで探せるのですごく便利ですね
これ今お手伝いしているキャラクターデザイナーの井上久人さんと私の妻と私との3人で打ち合わせをしてるんですが
私以外の2人がすごいおしゃべりで2時間半から3時間くらいの長丁場になるのでその中からあれどこで言ってたっけなと
音声で探すとしたらとても大変だと思うんですが文字起こしされていてさらにそこからテキスト検索できるのでとても便利ですね
クローバノートで扱えるファイルは音声ファイルなのでここの部分をピックアップして動画にしたいという場合には
そこの音声の部分が何時間何分何秒のところかをメモっておいて動画から同じ位置を探すという感じでやっています
クローバノートは一度にアップできる音声ファイルが2時間までなのでこの長いズーム会議の音声が2回に分けてアップロードしないといけないのがちょっと面倒です
06:02
クローバノートは今ベータ版として無料で提供されています毎月300分利用できるんですが
サービスの品質向上のためのユーザーデータ取得というのに同意するとこの制限が倍になって毎月600分まで利用できるようになります
ただ最近は私の使い方だと600分10時間もオーバーしてしまうことがあってでも有料でもいいからもっと多くの時間をというのが今のところできないんですね
LINEのアカウントとひも付いているので複数アカウントを作るというのも難しいですね
それならばということで似たツールを探したところNottaというツールがありました
このNottaの説明を見たり試しに自分で使ってみたりして驚いたのがインターフェースがクローバノートとそっくりでした
クローバノートは2022年5月に提供が始まりNottaの方は2020年6月にリリースされているのでクローバノートの方が真似したんだと思います
LINEは結構パクリの常習犯的なところがあるのでまたやったなと思いました
例えばLINEというアプリの左右に分かれた吹き出しが出てきて吹き出しの色に意味があってと
あのユーザーインターフェースはAppleのメッセージ系アプリのそのまんま真似ですよね
とはいえApple標準のメッセージアプリと同じような見た目同じような使い勝手でメッセージがやりとりできるというのはメリットが大きいですし
Appleにとっても悪いことじゃないですしある意味標準化みたいなものですよね
なので音声記録管理ツールというものの標準化として似たようなものになるのは悪いことではないですね
ちなみにこのNottaは日本製のツールではなく中国の会社が開発したものでした
無料でも月に120分の文字起こし時間が利用可能と書いてあったのでほぼ120分の119分の音声ファイルをアップロードしてみたんですが
文字起こし時間が不足のためテキスト化できませんと出て有料版に誘導されてしまいました
なんか悔しいのでそこで有料版にはしてないので音声のテキスト化についてはまだ試せていません
09:06
有料版は個人の場合だと月2000円あるいは年間一括で払うと月当たり1200円です
有料版の方にも時間制限はあるんですが月に1800分30時間なので大体の場合これぐらいあれば十分かなと思います
私もさすがに月に30時間もあれば足りなくなることはないと思います
Nottaはリアルタイム文字起こしできるところも売りにしていますしゃべった言葉をリアルタイムでテキストにしてくれますし
web 上にある動画だったり音声ファイルだったりをリアルタイムで録音して文字起こしする機能もあります
あとzoomやmicrosoft teams google meetの会議にNottaを参加させて会議の音声を文字起こしさせることができます
会議中にその文字起こしは見られないんですが裏っ側でリアルタイムで文字起こしをしているようで会議が終わったらすぐ文字起こししたテキストを見られる
ということで便利だと思います
ということで文字起こしツールを音声の頭出しに使ってますという話でした
今回は以上です
足利麹がお届けしました
10:42

コメント

スクロール