ViaVoice with ATOK 15(Windows版)を買いました。これはパソコンに取り付けたマイクに向かってしゃべると、その言葉をパソコンが聞き分けて、文字にしてくれるというソフトです。言葉を聞き分けるって部分はIBMのViaVoice V9の音声認識エンジンが担当し、漢字変換についてはATOK 15が担当するというものです。(ちなみにViaVoiceV9の機能すべてがあるわけではありません。あるのは音声認識エンジンのみです)
ViaVoiceも登場当初は、まっとうに日本語を認識できなかったそうですが、最近はなかなかの認識精度を誇るようになったとか。
使う前に何分間かかけて使用者の声を覚えさせる必要があるそうで、インターネットで検索したらその声を覚えさせる作業が苦痛(誰もいない部屋で一人パソコンに向かって話しかけてるのが恥ずかしいとか)という意見もありました。
コンピューターが指示する文章を順に使用者が読み上げていく…という作業です。確かに私の下宿ではしゃべり声は廊下や外に筒抜け。恥ずかしいのは事実ですが、まあ我慢しましょう。
マイクに向かってしゃべるだけで文章が書かれていくなんて、すばらしいじゃないですか。最近はキーボード入力も速くなってきましたが、マイクに向かってしゃべり、コンピューターが聞き間違えたところだけ手で修正していく…その方がいまより速く入力できるはずです。
そんなわけで、自宅のPCにViaVoice & ATOK 15をインストール。声を覚えさせる作業(“エンロール"という)をはじめました。
この作業には、完全版と簡易版というのがありました。
正式にすべてやろうとすると、1時間くらいかかるのかな。それじゃ長すぎるだろうってんで、簡易版(クイックエンロール)が用意されてました。簡易版は3分くらいでできる内容。
説明書によると簡易版だけでもかなりの認識精度があるらしいです。
さっそく簡易版開始・・・終了。
音声入力開始!! ・・・・・だめだめ。
全然正しく認識できてません。どうやら私の発音がコンピューターには認識しにくいみたい。それじゃあ、完全版のエンロールも行いましょう。
完全版にはいくつか長めの文章が用意されていて、それぞれ読み上げるのに10〜15分かかり、それを録音・解析することでコンピューターは使用者の声の癖を覚えていく…らしいです。すべてやると多分1時間くらいかかるかと思いますが、ひとつひとつ選びながらやっていけばいいわけです。3〜4日かけて順番にこなしていけばいいだけ。
早速、ひとつめから。
{次の文章を声に出して丁寧に読み上げてください。・・・・・}
「次の文章を声に出して丁寧に読み上げてください」
読み上げると、文字が黒から灰色に変わっていきます。
{・・・録音した内容を解析します。・・・}
「・・・録音した内容を解析します」(ポンッ!)
ポンッという音は、コンピューターが認識しきれなかったときに鳴る音です。
{録音した内容を解析します。・・・}
もう一度読みなさいとばかりに、画面に印が出てきます。
「録音した内容を」(ポンッ!)
・・・・・。
結構、文句つけてきますね…(私の発音が悪いってことでしょうが…)
{・・・マイクに向かってしゃべるだけで認識できます。}
「・・・マイクに向かってしゃべるだけで認識できます」(ポンッ!)
{認識できます。}
「認識できます」(ポンッ!)
「認識できます?」(ポンッ!)
「認識できます!」(ポンッ!)
「ニ、ン、シ、キ、デ、キ」(ポンッ、ポンッ!)
「認識(ポンッ!)できてねぇよ!」(ポンッ、ポンッ、ポンッ!)
・・・・・。
ふぅう〜〜〜〜〜〜[←ため息] (ポンッ!)
・・・・・・・。
・・・ここまで苦痛を伴うものだとは思いませんでした。
コンピューターが私の言葉の癖を覚える…と聞いてましたが、これでは逆にコンピューターが認識しやすい発音を練習させられてるような気がします。上の「認識」なんて何度言い直したことか・・・
怒りの臨界点に達し、顔を引きつらせながらエンロールの作業を終え、あらためて音声入力をしてみました。
なるほど、さすがに30分くらいかけて文章を読み上げた甲斐があり、ちょっとましになりました。
一部誤入力しているというか、一部正しく入力できているというかは微妙ですが、認識精度は上がりました。まだいまいちなので、あと残りのエンロール作業も順次行っていくつもりです。
それにしても、これって、本当にコンピューターが私の癖を覚えた結果なんでしょうか? 単に私がコンピューターの癖を覚えつつあるってだけのような気がしてしまいます…
結局まだ音声入力についてはほとんど試していません。
その便利さが、初回エンロールの苦痛に見合ったものであることを期待しています。
(2002.7.1)