セレンス、視線入力を併用する新たな音声認識エンジンの日本版を公開…都内でデモ

セレンスジャパン（Cerence Japan）は11月7日、インターフェースに視線検知技術を使った「Cerence Multi Modal PoC」を日本国内で初公開した。この技術は得意としてきた音声認識に加え、視線を含めた複数の情報を活用することで、ドライバーが視線を向けた先にある情報を案内するものとなる。

【画像全16枚】

マルチモーダルな考え方がベース「Cerence Multi Modal PoC」

セレンスジャパンについて聴き慣れないという人も多いと思うが、同社は音声認識技術を提供する会社として世界的に知られているニュアンス・コミュニケーションズ（Nuance Communications）から、今年10月1日に自動車関連事業を分社した新会社「Cerence Inc.」の日本法人で、オートモーティブ事業を専業としてセレンス全体で年間330億円ほどの売上を見込む。説明によれば、ニュアンス・コミュニケーションズとは資本関係をまったく持たない独立した会社となっているが、設立後5年間はニュアンス・コミュニケーションズがオートモーティブ事業に参入しないことを明記した上で分社化されているという。

今回、セレンスジャパンが公開した「Cerence Multi Modal PoC」は、すでに今年1月にニュアンス・コミュニケーションズがCES2019でデモした技術をベースに日本語版とした技術。この日は東京・お台場エリアでの走行しながらドライバーが発話して情報を獲得するデモとして用意された。CES2019での体験ではブース内で停止した状態で行われており、実際に走行して行うデモは日本初とのことだ。なお、このデモ版は製品化に向けてOEMへの採用を働きかける一歩手前のレベルとして披露された。

この技術のポイントは、システム側で発話者が向けた視線の方角を認知し、それに応じてあらかじめ用意された地図の座標と合わせ込むことでターゲットを特定することにある。たとえば「あの建物は何？」とか、「ここの営業時間を教えて」と発話しながら視線を送ると、そのコマンドに応じた情報が音声で知らされるというもの。ここで活かされているのがシステムの名称にもある“マルチモーダル”という考え方だ。

実は人は多くの場合、複数のインターフェースの下でコミュニケーションを取っている。それは視角、聴覚、嗅覚、触覚などで、これらが同時に伝わることでより正確な感覚として捉えることができている。そこには人が話す様子で伝わる顔の表情や身振りなどの視角情報が含まれる。これがマルチモーダルだ。それに対して、電話のように単一のコミュニケーション（ユニモーダル）となると、より神経を研ぎ澄まさないと内容を把握することは難しくなってくる。

セレンスジャパンシニアセールスエンジニアリング・マネージャー兼プリンシパルマーケティング・マネージャーの村上久幸氏は、「普段のコミュニケーションを捉えればマルチモーダルであることが自然であって、より正確に情報を得るにはこの考え方が適切。Cenrence Multi Modal PoCでは車内に設置した赤外線カメラでドライバーの様子を把握しており、その方向を向いてコマンドを発するだけで、システムがそれを認知して最適な情報で戻すことができる」と話す。これが走行中でも安全に情報を取得できる「新たな価値を生み出す」（村上氏）というわけだ。

デモ走行を通して「視線検知技術」を体験

デモ走行はメルセデスベンツ『Vクラス』を使って行われた。運転席の前には昼夜を問わず視線の動きを検知できる赤外線カメラが設置され、これがドライバーの視線の方向を把握する。操作の流れは、視線を送ると対象の建物がリンクする地図上で特定され、それに対する音声コマンドに応じて回答を示すというもの。システムは常にコマンド対応可能状態にあり、「ハイ、○○…」といったウェイクアップコマンドは必要しない。また、この日のデモでは地図データに無料で使えるオープンストリートマップを使用。ここにセレンスが独自に整備した情報を埋め込み、それを使ってコマンドに応える形を採った。

提供できる情報は地図データに含まれるものなら基本的にはすべて対応できる。施設の概要だけでなく営業時間や電話番号を案内してくれるほか、ホテルなら価格帯や評価点なども返答してくれる。某ホテルの価格を聞いた時、ユーザーの評価を反映させたのか「高いです」と笑いを誘うような回答をする時もあった。これらの情報はクラウド経由で提供することも想定しており、その場合は常に最新情報にアップデートされ、たとえば時刻情報と紐付けた情報の提供も可能になるという。村上氏によれば「地図データはOEMの都合で何を採用しても対応はできる。ただ、地図データごとに合わせ込みは必要となる」と語った。

なお、発話した内容を認識するタイミングについては、最初の発話で対象をシステムが認知できるようになっており、コマンドを発話している間、ずっと対象物に視線を送り続ける必要はない。

デモ中には何回か正しい情報を案内できない時があったが、これはGPSがマルチパスの影響を受けて位置を正しく表示できないことが考えられる。ドライバーを務めたセレンスジャパンのプリンシパル・セールスエンジニア野中新一郎氏によれば「今回はデモ用として作った地図データであり、マップマッチングにも対応できていない。実際の運用ではマップマッチングは組み合わされるため、このようなエラーはかなり低減される」と話してくれた。

今回のデモでは視線と音声をリンクさせたコマンドにのみ対応したが、「Cerence Multi Modal PoC」にはこれ以外にも、クルマのウインドウを見ながら「あの窓を開けて」、ドアを見ながら「そのドアを閉めて」といったコマンドに対応する機能も含まれる。CES2019ではこのデモを実演しており、村上氏によれば「日本語に対応できた機能に特化してデモすることになった。将来的にはその対応も行うことを考えている」と語った。

また、CES2019ではウインドウ上に半透明のタイル型スイッチを置き、そこに視線を送ることで様々な操作が可能になるデモを実施していたが、それもマルチモーダルなインターフェースとして一例を実演したもの。「今回は実際に走行してのデモを想定したため、安全上、それを表示させて走ることはできないと判断した」（村上氏）という。

セレンスの強みは、何と言っても高い音声コマンドの採用率だ。説明によればその採用率は「2019年第1四半期に出荷された、主な乗用車のおよそ54％」にも及ぶという。セレンスは3つの成長戦略として、この高い「採用率」と「1台当たりの売上」、「マーケットシェア」を挙げる。特に自動車のヘッドユニットにエッジ製品として搭載されるソフトウェアには自信を持っており、今後のさらなる成長が期待される。