言語を自動判断する音声認識技術、三菱電機が開発　世界初

三菱電機は2月13日、同社AI技術「Maisart（マイサート）」を用いて、世界で初めて不特定多数のユーザーが何語を話すか分からない状況でも高精度な音声認識を実現する「シームレス音声認識技術」を開発したと発表した。

音声認識システムは、スマートフォンやカーナビゲーションシステムなどに搭載され、音声による情報検索や機器操作が可能になってきているが、ユーザーは使用する言語を初めに選択する必要があった。言語を識別する手法もあったが、識別処理による遅延と、識別誤りや言語ごとの学習による認識精度の劣化が問題となっていた。

三菱電機は今回、AI技術マイサートを用いて、世界で初めて不特定多数のユーザーが何語を話すか分からない状況でも高精度な音声認識を実現する「シームレス音声認識技術」を開発した。入出力のサンプルデータだけで学習するEnd-to-End深層学習方式に同社独自の方法を採用することで、音声認識精度を向上。事前の言語設定なしに、5言語で90％以上、10言語でも80％以上の高い音声認識率を達成。さらに、複数の話者が同時に話し、音声が重なる状況にも対応する。

これにより、カーナビゲーションシステムで言語設定が不要になる、空港施設で旅行者が母国語で経路検索ができるなど、さまざまなシーンにて利便性の高い音声認識を実現。三菱電機では、話す言語を意識することなく自由に話せる利便性の高い音声インターフェースの実現を目指して、さらに開発を進めていく。

編集部おすすめのニュース