AI活用でパーソナライズ化、最新の音声認識技術がもたらす利便性とは…ニュアンス・コミュニケーションズ[動画]

自動車 ビジネス 企業動向
PR
ニュアンスブース(フランクフルト・モーターショー2017)
  • ニュアンスブース(フランクフルト・モーターショー2017)
  • ニュアンス・コミュニケーションズ モバイル・エンジニアリング&プロフェッショナル・サービス シニアバイスプレジデントのステファン・オルトマン氏(左)と、オートモーティブ部門シニア・バイスプレジデント兼ジェネラルマネージャーのアーンド・ヴァイル氏(右)
  • ニュアンスブース(フランクフルト・モーターショー2017)
  • ニュアンスブース(フランクフルト・モーターショー2017)
  • ニュアンス社は、音声認識システムをリビングで使うスマート(AI)スピーカーでも対応できるよう開発を進めている
  • ニュアンスブース(フランクフルト・モーターショー2017)
  • ニュアンスブース(フランクフルト・モーターショー2017)
  • アーンド・ヴァイル氏

自動運転の未来が語られる中、クルマとドライバーのインターフェイスとして重要な役割を担うのが音声認識システム。その分野でなくてはならない存在となっているのが「ニュアンス・コミュニケーションズ」(以下:ニュアンス社)だ。同社が手掛ける音声認識の近未来を聞いた。

◆カーナビの鍵を握る、音声認識システム

実は車載機での音声認識の歴史は古い。カーナビが登場して間もない1990年代にはすでに音声認識機能を搭載するカーナビの登場が相次いだことがある。音声認識を使えば、メニューからたどる複雑な操作なしに一発で回答を引き出せるはず。そんな理想を求めての搭載だったが、現実は違った。ドライバーが発したコマンドと、車載機に収録した音声認識の辞書を一致させることが難しく、結果として認識率の低さが「音声認識は使いにくい」という印象を与えてしまったのだ。

その状況が大きく変化したのは、スマートフォンがクラウドを経由することで認識率を高めたことがきっかけだ。クラウド側には膨大な辞書を登録したスーパーコンピューターがあり、通信によって入力されたコマンドと一致するキーワードを高速で検索。前後の文脈も考慮して適切な回答を導き出す。その様子はまるで会話しているかのようだ。従来の音声認識はカーナビの中で行っていたため辞書数も処理能力も自ずと限界があったが、クラウドを経由することでその枠を大幅に超える能力を発揮できるようになったというわけだ。

ニュアンス社が提供している音声認識システムはこの考え方が基本にある。音声認識システムとして高い認識率を持つことで、画面を見ながら操作する必要がなくなりクルマとの相性も良い。結果、AIの進化と共にカーナビやインフォテインメントシステムへの採用例が相次ぎ、ニュアンス社は車載カーナビに限って言えば日米欧ほとんどのカーメーカーへ技術提供するまでになっている。特に欧米では音声認識の精度や性能が車載機の品質に関わる大きな要素ともなっており、それを陰で支えているのがニュアンス社というわけなのだ。

◆ユーザーの好みも反映、「Dragon Drive」の最新バージョン

そんな中、ドイツで開催されたフランクフルトモーターショー2017でニュアンス社は車載向けコネクテッドカー・プラットフォーム「Dragon Drive」の最新バージョンのデモを行った。Dragon Driveは、組込み(車載器)とクラウドの双方に音声認識、自然言語理解、音声合成の各機能を持つハイブリッド型アーキテクチャが特徴のソフトウェアだ。ドライバーの音声によるコマンドを理解して応答するDragon Driveは、日本車をはじめ世界中で多くの車両に採用されている。つい先日も新型アウディ『A8』にその採用が発表されたばかりだ。

「今回見てもらったのは、これまでニュアンス社が提供してきたシステムをベースに機能を進化させたもの。ユーザーが発したコマンドにのみ対応するのではなく、AIがコマンドに対して文脈の流れや背景を理解して回答します。個人の好みも含めてAIが判断することを可能にしたのが最大のポイントです」と話すのは、同社オートモーティブ部門シニア・バイスプレジデント兼ジェネラルマネージャーのアーンド・ヴァイル氏。

ヴァイル氏はその具体例を挙げてくれた。「フランクフルトモーターショー会場近くのレストランを探すとします。GPSによって得た位置情報から近所にどんな施設があるかを判断し、そこにはフランクフルトにいるユーザーの情報を加え、入力されたコマンドにマッチした最適な情報を引き出すのです」。

「最新技術ではユーザーの好みも条件として組み入れて判断する」と話してくれたのはインタビューに同席した同社モバイル・エンジニアリング&プロフェッショナル・サービスのシニア・バイスプレジデントを務めるステファン・オルトマン氏だ。

「最新バージョンでは、ユーザーが話している文脈を理解し、AIがユーザーの好みを判断することができます。それを音声認識やナビゲーションと連携させることで、ユーザーの好みを回答に反映させることを可能としたのです」(オルトマン氏)。つまり、ここで要の技術となっているのがAIの理解力。ニュアンス社にとって、この分野での能力アップこそが、より便利でスムーズな音声対話を実現するために重要な項目となっているのだ。

AIはどこまで学習し、それを音声認識に反映してくれるのだろうか。「システムには学習機能があって、ユーザー一人ひとりの行動や好みが反映されます。例えば、毎朝子供を保育園へ送っているけれど、土日には送らない。あるいは通勤途中でコーヒーを購入することが多いことも学習します。極論を言えば、酒に酔っていることの情報が入れば、運転そのものをやめさせるメッセージを送ることだって出来るのです」とオルトマン氏。ドライバーが行動する日常が情報として自動的に蓄積され、これをAIが判断して最適な回答を導き出すことができるというわけだ。

◆コマンドをスムーズ化する新機能「Just Talk」

そして、最新技術として見逃せないのが「Just Talk」という機能だ。これはシステムが常に“Ready”状態となっていて、会話の中からコマンドだけを抽出して結果を出すというもの。従来なら「Hallo Dragon!」という、いわばトリガーのようなものが必要だったが、最新技術ではそれが不要となった。そのままコマンドを発するだけでいいのだ。これはコマンド入力の時間短縮にもつながるわけで、この便利さは想像するだけでワクワクする。その技術的な背景はどうなっているのだろうか。

ヴァイル氏は「『Just Talk』実現の背景には2つの技術があります。1つは“Wake- up-Word認識機能”で、操作を指示する様々なフレーズを常に待機しています。2つ目がこれと並行してある技術で“声紋認識機能”です」と語る。

「基本的な考え方は、システムにとって重要な機能のみを認識するということです。車内でサッカーの話をしていても、“◯◯まで案内してほしい”と言えば、そのキーワードを自動的に抽出してコマンドとして認識します。これがシステムにとって重要なキーワードをピックアップする機能なのです」

一方で声紋認証は個人を特定するのに使う。「たとえば車内に複数の人が乗車していて、それぞれが立て続けに“妻へ電話をかけて”とコマンドを発したとします。しかし、システムはその“妻”を間違えたりはしません。事前登録は必要になりますが、一度登録すれば確実にそれぞれの“妻”へ電話をつなぎます」(ヴァイル氏)。これによって、ユーザーは特に気にすることなく、普段の言葉で話しかけるだけでAIが正しい判断をして対応してくれるというわけだ。

この新たな技術ではかなり高度な処理を行っているようだが、開発の過程で課題はないのだろうか。ヴァイル氏は、「実は解決すべきことは数多くあります。肝となる技術は文脈の中からどこからがコマンドなのかを正確に抽出するアルゴリズムだと理解しています。ただ、ここの部分はかなり難しく、現状では会話とコマンドの間に少し間を置くことで対応できるようになっています。長めの文脈になると認識できませんが、話に切れ目を入れるとコマンドとして認識できるようになります。今後はアルゴリズムを追い込むことで、ユーザーが意識することなく音声認識を使えるようにしていきたいですね」と話す。

◆スマートスピーカーへの対応も

ところでニュアンス社は、この音声認識システムをリビングで使うスマート(AI)スピーカーでも対応できるソフトウェア製品を開発し、メーカーからの引き合いがあれば提供が可能な状態だ。スマートスピーカーと車載システムとでシステムに違いはあるのか、ヴァイル氏に聞いてみた。

「スマートスピーカーの場合はほぼ100%クラウドで認識します。ドイツの場合は、周辺国の言語にも自動的に対応できるようになっています。これはクラウドで接続することが前提になっているからです。これが車載だと電波が届かないエリアでの利用も想定しなければなりません。コアとなる技術は共通ですが、車載機だけで対応できるハイブリッド型とする必要があるのです」

驚くのはその対応言語だ。このシステムではなんと40以上の言語に対応済みで、その中には日本語も含まれる。さすがに言葉そのものが異なる方言には対応しきれていないが、アクセントの違いにはほぼ完全に対応できるという。

「Just Talk」の開発は既に最終段階に入っているとのことで、実際のシステムへの搭載は来年を予定する。搭載車種はカーメーカー次第だが、過去の例からして上級車から搭載される流れとなるのが一般的だろう。とはいえ、過去の技術の例では、2015年秋にBMWの『7シリーズ』に搭載され、2016年のCESアジアで『3シリーズ』『5シリーズ』にも拡大された。さらには、プレミアムブランドではない中国の上海汽車でも採用例がある。新技術搭載が進むのは意外に早いのかもしれない。

《会田肇》

【注目の記事】[PR]

編集部おすすめのニュース

特集