音声認識ソフトウェアベンダーである米Nuance Communicationsの日本法人「ニュアンス・コミュニケーションズ・ジャパン」は、2月23日、「In-Car Communication(ICC)」のデモと同時に、車内での利用に有効な音声信号処理技術「VoCon SSE」についての説明会を開催した。
「VoCon SSE」の“VoCon”とは、同社が10年以上も前からVoice Controlを略して使ってきた通称で、それをベースとした“Speech Signal Enhancement(SSE)”を指す。
SSEの機能としては、(1)クルマや屋外、工場など高騒音下での音声認識の向上、(2)ハンズフリー通話時の音質向上、(3)バージイン※1や雑音の中から対象の声だけを選択する機能の実現、(4)音声認識エンジンである「Nuance VoCon Hybrid」や「Dragon Drive」において最適化された音声処理技術の提供が含まれる。
※1 バージイン:音声認識システムで音声ガイダンスの途中でも割り込んでユーザーの発話を認識する機能
この日、SSEを使った効果として示されたのは、ロードノイズや風切り音といった騒音下で必要な音声だけを抜き出す技術だ。デモでは「VoCon SSE」によって、通常のロードノイズ(定常ノイズ)に加え、道路の継ぎ目によるノイズ(非定常ノイズ)を取り去った結果を披露した。
一般的なノイズキャンセルでは定常ノイズは取り去ることができても、時折入ってくる非定常ノイズを取り去ることは難しいのだという。「VoCon SSE」ではそのノイズも効果的に除去し、音声が鮮明になっていることが示された。
続いて披露されたのは、同乗者が話をしたり、音楽を楽しんでいるような騒々しい車内でも特定の声だけがクローズアップできるマルチマイクの応用例「Passenger Interference Cancellation(PIC)」技術だ。
これは車内の各所にマイクを設置しておき、あらかじめ決められた“合い言葉”発することで、発声者を自動的に特定。その声だけを抽出して認識できるというもの。デモではPCモニターの周囲にマイクが4つ用意され、モニター上に映し出されたCG上において認識したマイクがわかるようになっていた。
まず、ランダムにマイクに向かってこの日の合い言葉である『ハロー、テトラ』と呼びかける。この合い言葉をマイクが認識すると、CG上には認識した位置が示される。これで合い言葉を拾ったマイクの声だけが抽出されるモードに切り替わったことが分かる。
この時、他のマイクから入力される音声は自動的にキャンセルされるので、同乗者に対して静かにするよう依頼する必要もなければ、楽しんでいる音楽の音量を下げる必要もない。また、いちいち音声入力のスイッチを押さなくても、合い言葉を発するだけでReady状態にできるというメリットもある。
ニュアンスコミュニケーションズではこうした音声認識技術をベースとした数々の新技術を開発し、世界中の自動車メーカーに対して採用を働きかけてきた。採用されてもすべてがOEMで提供されるため表に出てくることはないが、音声信号処理技術によって車内でのインターフェイスはもっと便利で使いやすくなることを改めて実感できる説明会だったと言える。