2016年は自動運転やコネクテッドカーの話題に明け暮れた感のある自動車業界だが、この潮流は2017年も続くだろう。しかし、本格的な自動運転の前にクリアしなければならない課題がある。それはAIの音声認識、正確には自然言語処理技術だ。
◆なぜ音声認識・自然言語処理なのか?
人間の発話を認識して単語や簡単な文章とマッチングさせる技術は、実用レベルに達して久しい。それはカーナビの音声認識機能、iOSのSiri、Windowsのコルタナ、あるいはAmazon EchoのAlexa、Google Assistantといった身近な音声認識エージェントを見れば、その完成度も理解できよう。
しかし、これらは単純な音声認識に、限定的な構文解析機能を拡張した程度に過ぎない。認識できる単語や文章のパターンが増えたただけで、結局、内部で行っている処理は、認識した単語を「コマンド」かどうかマッチングを行い、対応する動作を行っているだけで、認識した会話や文章の意味を理解しているわけではない。
もちろん、それだけでも十分画期的なことなのだが、Siriやコルタナを使っていると、多くは認識したキーワードを検索エンジンに投げているだけで、メールの作成、予定表の確認など複数のタスクを連携させた処理はまだまだ限定的と言わざるを得ない。
Amazon Echoでは、子どもが勝手に高額なドールハウスを注文できてしまうことが話題になったが、本当は「それはお父さんの許可をとっていますか?」と返さなければだめなのだ。
◆コネクテッドカーの基本インターフェイスとなる音声入力
2017年以降、Googleやマイクロソフトなどデジタルジャイアントが、本当に狙っているのは、これら音声認識エージェントを発展させた自然言語に対応したパーソナルアシスタントである。キーボードやタッチ操作の次にくるのは音声入力(自然言語による対話)だろう。GoogleもAmazonもウェブやデバイス操作の最初の入り口であるこの技術を押さえることで、メガプラットフォーマーとしての地位を盤石なものにしようとしているわけだ。
GoogleやAmazonなどデジタルジャイアントが自然言語処理に力を入れるのは、パーソナルアシスタント技術のスタンダードを確立すれば、自分たちで自動運転カーなど開発しなくても、コネクテッドカーを含むあらゆるデバイスのインターフェイス部分を押さえることができるからだ。
2017年ラスベガスで開催されたCESでは、トヨタはドライバーと対話し、表情を読み取る車を発表した。このような機能は、高精度の3次元マップやAI搭載のカメラ、レーザー/レーダーセンサーだけでは実現できない。自然言語処理ができるAIの開発が必須なのだ。
自動車向けの音声アシスタントは、デジタルジャイアント以外、ニュアンスコミュニケーションズが開発を進めているが、これも出自はIT市場の企業だ。自動車メーカーやサプライヤーは、これらの企業とアライアンスする戦略も十分ありだが、貴重なドライバーのダイアログ(会話)データを囲い込みたいなら、自然言語処理への投資が必要となる。