OCR技術の現状と課題
最近AIの発展が著しいですけれども、もう少し進化してほしいなというところにOCRがあります。
私が手書きでバーッと書いたメモとかをファイルとして共有することがあるんですけれども、
その時に私の字が汚いために読めないとか、読みづらいというような苦情が取ることがあります。
そういったものをOCRとかで完全に文章化できたらいいなと思っているんですけれども、
いかにせんがホワイトボード的といいますか、会議資料的に書いていますので、
文章だけじゃなくて手書きの図が書かれていたりとか、ある単語のところに矢印を引っ張って説明を加えていたりとか、
ちょっとある種自由な書き方をしているので、その辺もOCRの難しい理由なのもひとつかなと思っています。
当然英語よりも日本語の方が遅れているというのもあるかもしれません。
いろいろなAI関連のソフトとか、もともとそのノートを書いたiPadのアプリとか、いろんなものを試してみたんですけれども、
やっぱりどうも完璧なといいますか、ある程度使えるなという感じの文字の書き起こしになりませんでした。
さらに言うと、結構これ仕事使おうとしているので、やっぱりある程度のクオリティーが必要になってきますので、
そう考えると、OCRで書き起こしたものをさらに自分の手で書き直すということが必要になるかと思いまして、
やっぱりこういう仕事レベルで使うということになっていくと、どの道やっぱり手でやった方が早いのかなと思います。
これはノートブックLMとかで、よくPhotocastとかを作っている方もおられるんですが、
やっぱりこの辺にしても、やっぱりなかなか読み方が違っていたりとか、ちょっと違和感があったりとか、
そういうところを趣味でやる分には全然構わないんですが、
仕事レベルでやるってなると、かなり手直しが必要そうだなというような印象を受けています。
この辺りも自分が手書きなりなんなりで作ったメモをノートブックLMなりで、
ちょっと研修用の資料とか動画みたいに書き起こしたいなとか思う気持ちがある反面、
結局AIを使って書き起こしした後に、いざ仕事場レベルで使うということを考えると、
やっぱり手直しが必要なので、結局自分が最初から音声で吹き込んだ方が早いんじゃないかなとか思っています。
本当にこの辺、そもそも字が汚いという時点でOCRを求めるわけですけれども、
字が汚い上にOCRが向かわないという、結局欲しい人のところにその機能がどこに届かなくなっているという、
ちょっと悲しいと言いますか、しょうがない事情があるんですけれども、
この辺りもっと進化すると、パッパッパッと新しい資料を作れると嬉しいかなと思っています。