ニュアンス、新型 BMW 5シリーズ で体験会を開催…AI技術活用の最新音声認識技術

自動車 テクノロジー ネット
新型BMW「5シリーズ」に搭載する自然言語対応の音声認識機能を体験
  • 新型BMW「5シリーズ」に搭載する自然言語対応の音声認識機能を体験
  • ニュアンス・コミュニケーションズの音声認識・自然言語処理技術の車載器を搭載する新型BMW「5シリーズ」
  • 音声認識中は「5シリーズ」のメーター内にその動作状況が表示される
  • 音声認識用マイクは運転席側だけでなく、写真のように助手席側にもある
  • 音声認識最大のメリットは走行中でもコマンド入力が行えることにある
  • 音声認識のスイッチは新型「5シリーズ」ではステアリング右側にある
  • まずは「近くのファミレスを探して」と発話し、周辺のファミレスを表示
  • 続いて、場所を特定して「お台場にあるファミレス」としてその一覧から一カ所を選ぶ

車両向け音声認識技術を提供するベンダーのニュアンス・コミュニケーションズ。同社はこれまでも世界中の自動車メーカーにこの技術を提供してきた。そして今、その最新バージョンを採用したインフォテイメント端末が登場。その最新バージョンの体験会に参加した。

ローカル処理とクラウド側の処理を同時に行なう「ハイブリッド」方式採用

このシステムは現在、BMW『7シリーズ』『5シリーズ』に標準搭載されるカーナビ・インフォテイメント端末「iDriveナビゲーションシステム」に組み込む形で提供されている。最大の特徴は、端末内のローカル処理とクラウド側の処理を同時に行なう「ハイブリッド」構成としていることだ。また、助手席からの不要な音声を取り除くことにも世界で初めて対応。あらゆる場面でコマンドの実行が高速かつ適切に行えるメリットを生み出している。

ステアリング右側にある音声操作のボタンを押すと、即座に発話モードに切り替わり、ドライバーが発する音声コマンドを受け付けるようになる。入力されたコマンドデータはコマンドの内容に応じて常にローカル側とクラウド側にパラレルに送信され、ローカル側とクラウド側それぞれで処理される。地名や施設名など定型のコマンドはローカルで処理され、曖昧なコマンドなど自然言語処理が必要なコマンドはクラウド側で処理するといった区分けだ。

操作可能なコマンドは多岐にわたる。カーナビの目的地検索をはじめ、AV機能のモード切替、ショートメッセージの作成/送信の他、車両情報のチェックなどで、ショートカットとしての音声機能のメリットが最大限に活かせる内容となっている。では、この機能の何が最新なのか。

単純に地名や施設名を検索できるのはこれまでの音声認識と変わらないが、「○○を食べたい」とか「お腹空いたなぁ」といった曖昧な表現に対しても近くにあるレストランの一覧を表示する。つまり、従来は探す対象を頭の中で整理した上でコマンドとして発話する必要があったが、感じていることをそのまま発話するだけでコマンドとして認識してもらえることに新しさがあると言っていい。

しかも、その検索条件として複数のコマンドを組み合わせることも可能だ。「お台場にあるファミレス」といった内容でも、そのコマンドを絞り条件として認識。自動的に東京・お台場のファミレスを一覧表示するのだ。また、「マック」「スタバ」といった俗称にも対応するので、従来のような“構えて”音声入力をする必要はない。気象情報は目的地や現在地の天気予報として呼び出せ、最新ニュースの読み上げにも対応している。気が向いたときにこれらのコマンドを発すればいい。

探す対象項目が多くても音声認識がショートカット的な役割を果たす

使っているうちに特に便利と思えたのが、車両の取扱説明がこの機能を使って呼び出せることだ。これまで取扱説明書は必要なページを分厚い中から探す必要があったが、これならショートカット的に即座に探したい項目を表示できる。さらにエンジンオイルや空気圧といった簡単なチェックであれば、たとえ走行中であっても音声でのコマンド入力でその状態が正常かどうかを表示できる。クルマの安全を意識する意味でもありがたい機能と言える。

一方、AV機能の再生で便利そうなのが、楽曲名やアーティスト名を組み合わせて呼び出す機能だ。車載ドライブに収録したメディアから聴きたい楽曲を検索し、そのまま自動的に再生を始める。この日も「井上陽水の“少年時代”を聞きたい」と入力すると、数秒の検索の後、音楽の再生がスタートした。たくさんの楽曲を収録しているときは特に重宝しそうだ。

ショートメッセージへの対応も本システムの機能の一つ。ただ、ショートメッセージでは音声認識で本文が入力できるが、これ自体、それほど使われる機能とは言えない。広く使われているLINEなどSNSへの対応を望みたいところだ。

体験会を通じて感じたのは、システムが従来の音声認識からさらに一歩進んだ能力を身につけていたことだ。それを実感したのが、助手席での不要な音声を取り除く技術。運転席と助手席それぞれに音声入力用マイクが装備されており、この差分から不要な音声を自動的にキャンセルする。つまり、ドライバーがコマンドを発している最中に助手席で電話をかけていてもその通話に邪魔されずコマンドが認識されるというわけだ。

さらにシステム側が発話していても、その途中でもコマンド入力ができる「バージイン(割込発話)」機能も装備。システム側の丁寧な発話は時に長ったらしくて煩わしさを感じるものだが、これなら内容がある程度わかった時点で次の操作に入っていける。この効率の良さは従来の音声認識にはなかった感覚だ。

これらのシステムの提供に当たって、ニュアンス・コミュニケーションズでマーケティング マネージャーを務める村上久幸氏は、「この技術は必ずしもBMWだけを対象にしているわけでなく、他の自動車メーカーにも順次採用をお願いしていくもの。我々としては他社にも積極的にこの技術を売り込んでいく」と話す。その中で、AmazonのAlexaといった新規参入技術はライバルとなるのだろうか。村上氏は「我々はOEM先の要求に応じて臨機応変に技術を提供する黒子としての立場。決まった規格を押しつけるようなことはない」とその違いを強調した。

ニュアンス・コミュニケーションズでは、今年1月に開催されたCESで、常時、乗員の音声を自動的に聞き分けて認識する次世代システムを公開した。現在使われているAI技術よりもさらに先へ進化させたシステムがこれを実現しているわけで、今後は音声認識を通じて将来の自動運転時代に向け、クルマと人間がより自然な形でコミュニケーションできる時代へと向かっていくことだろう。

《会田肇》

【注目の記事】[PR]

編集部おすすめのニュース

特集