【インタビュー】音声認識AIの進化と現状、将来実現しようとするものとは？… ニュアンス社アーンド・ヴァイル氏

カーナビやインフォテインメントシステムの操作に音声認識を導入し、さらにNLU（自然言語理解）やAI（人工知能）開発でその精度を高め続けているニュアンス・コミュニケーションズ（以下、ニュアンス）。

BMWやメルセデス・ベンツなどの欧米自動車メーカーに採用されるなど、近年自動車業界に大きな存在感を示してきたニュアンス社だが、この一年ではどのような進化を遂げてきたのか。今年新たに発表された新機能、そして現在の開発状況と今後の展開とは。CES 2017の自社デモ展示会場で、オートモーティブ部門シニア・バイスプレジデント兼ジェネラル・マネージャーのアーンド・ヴァイル氏に話を聞いた。

◆言語理解から“提供”への進化

----：昨年のCESから今回までに、どのような変化があったかを教えてください。

アーンド・ヴァイル氏（以下ヴァイル氏）：昨年CESでイノベーション・アワードを受賞したニュアンスのDragon Driveソリューションですが、その付加価値としてのAIを開発してきました。これこそ私たちがこの一年で実現した新たなレイヤーです。

音声認識のレイヤーはユーザーが言ったことを理解し、その上に昨年お見せしたNLUレイヤーがあります。NLUレイヤーはユーザーの意図することを理解し、その上にあるAIレイヤーが新たな提案をし、本当にユーザーが必要としているものを提供します。

例えば「ベラッジオの近くの良いレストランを探して」といった場合、まず各単語を理解し、次に意味を理解しなければいけません。ベラッジオはホテルの名前であり、その近くのレストランを探さなくてはならないということです。しかし「良いレストラン」とは何でしょうか？　ここでAIレイヤーが文脈、個人の趣向、専門知識をもって対応します。AIはパーソナルアシスタントなので、例えばその時、私がインド料理屋を探しているとしたら、その趣向を理解していなければなりません。それに「良いレストラン」は良い評価を受けていなくてはなりません。そのためクラウドから受け取る「どのレストランがどの評価を受けているのか」といった専門知識、そしてこれらすべてのレイヤーを統合するものが、この一年で成し遂げられたものです。

----：AI開発の現状はどうなっているのでしょうか。難しい点などは？

ヴァイル氏：すでにAI開発は研究段階から製品開発段階に移っています。これは大きな一歩です。AIを実際に製品として世に出すのは大変なことであり、さらにそれが広く使われるようになることはとても難しく、乗り越えなければならない大きな壁です。そしてどんどんAIの知識を広げていかなければいけません。人間も同じですが、新たな分野は新たに学ばなければならず、これはずっと直面し続ける課題です。

◆CES2017で発表された2つの新技術

----：今回のCESで新たに発表された、「マルチパッセンジャー・コミュニケーション」とはどのような技術なのでしょうか。

ヴァイル氏：ドライバーである自分と奥さん、子ども達がクルマに乗っているのを想像してください。今まで機械はドライバーの声を認識することしかできませんでしたが、この新しい機能により全員の声を認識できるようになります。

実はデモ用に「Dragon Tunes」というゲームを作りました。運転中に最大6名まで楽しむことができます。ゲームが始まると音楽が流れ始め、プレイヤーたちはその歌の歌手名と曲名を当てるのです。その際「わかった（Got it）」と言ってから答えを言います。つまりシステムは6名全員を同時に聞き、キーワード（「わかった」）が認識されると、その人の声だけを聞き始めます。正解すると正解者にポイントが入ります。これにより、今回クルマに搭載した新機能をわかりやすく体験できます。音声信号処理によって発話した人の場所を特定し、その場所からの音声だけを認識できるようにするのが、「マルチパッセンジャー・コミュニケーション」の仕組みです。

----：では例えば、「お気に入りの曲をかけて」と言った場合、流れ始める曲は言った人によって変わってくるということでしょうか。

ヴァイル氏：はい、声紋認証による「パーソナライゼーション」で実現できます。声による個人認証は銀行などの高度なセキュリティが必要な分野で使われてきましたので、これをクルマに応用するというのはそれほど難しいことではありませんでした。

----：次にもう一つ発表された、「AIテキスト・メッセージング」について詳しく教えてください。

ヴァイル氏：機能としては2つあります。1つ目はメッセージ入力です。例えば、奥さんと夕食に行くとします。そして「場所を◯◯レストランに設定。着く時間を妻にテキスト」と言います。システムはまずナビの行き先を設定し、パーソナリゼーションにより「妻」が誰を意味するのか理解し、何時にレストランに着くのか予測します。送られるテキストの内容は「◯◯レストランで7時に会おう」となります。これはAIによって作られたメッセージです。

2つ目は逆にメッセージを受信したときです。「◯◯レストランで7時に会おう」というテキストを受け取ったとします。システムはこれを読み、理解し、行動に移します。そこに行きたいか聞いてきますので、「はい」と答えればナビにレストランの場所が設定されます。また、例えば朝、夕方のスケジュールに関するテキストを受け取った場合、システムは「カレンダーにこの予定を入れますか？」と聞いてきます。このように、システムは受け取ったメッセージの内容が今の内容なのか、あとで起こる内容なのかを理解し、適切に対応するのです。

◆AI開発はどこに向かうのか

----：AI開発は何をもってしてゴールとなるのでしょうか。

ヴァイル氏：オートモーティブ部門では「自動車と人間の対話の仕方を変える」のが目標です。現在はまだコマンドベースの操作が主流になっていますが、これを私たちは自然で対話的な方法にしようとしています。まだ人がクルマに話しかけ、クルマが指示通りに動くといった状況ですが、将来的にはアシスタントのような体験をもたらしたいと考えています。

例えば100km先の目的地を設定したとします。クルマには40km分の燃料しか入っていないことがわかっていますので、どこかで給油しなくてはいけません。クルマはあなたの好みを把握しているので、どこにあるどのブランドのガソリンスタンドで給油するべきかを提案します。ただ単にユーザーに返事をする機械から、より自発的なものに変わっていくのです。

----：目指しているものはどのようなアシスタントなのか、具体的に教えてください。

ヴァイル氏：移動に必要なことをすべてしてくれるアシスタントです。移動はクルマに乗る前から始まっています。交通状況やガソリンの量が事前にわからなかったら、クルマに乗った時点ですでに予定よりも遅れているかもしれません。また、クルマを目的地近くで駐車した後は待ち合わせの場所を探し、そこまで歩いて行かなければいけません。現状では、クルマ以外の部分ではスマートフォンのような外部デバイスの活用が大半ですが、将来的には移動の始まりから終わりまでアシストできるようにしたいと思っています。

----：来年のCESにはどのようなデモを出展する予定でしょうか。

ヴァイル氏：すでに自然な会話が可能になっているので、今後はもっと多くのAIソフトウェアを開発していきます。特に今年はセンサーデータに力を入れており、センサーから得られる情報をAIの性能向上につなげたいと考えます。そして、パーソナライズ情報も増やしていきたいと思います。来年にはこれらの成果をお見せしたいと思っています。

編集部おすすめのニュース