ロボットタクシーに大規模言語モデルを適用する方法とは？ Pony.ai CEOが解説…オートモーティブワールド2024

2024年2月6日（火）16時15分2024年2月6日（火）16時15分

完全自動運転ロボットタクシーの開発と運営を行っている中国Pony.ai（ポニー・エーアイ）の共同創設者兼CEOであるジェームズ・ペン氏による講演がオートモーティブワールド2024で行われた。

ChatGPTに代表される大規模言語モデル（LLM）の利点と課題、自律走行との関連について、特にLLMシステムの欠点をどのように調整、補強し、どのような場面で応用するかということについて説明が行われた。

Pony.ai CEO ジェームズ・ペン（James Peng）氏。Pony.ai共同設立以前は、BaiduとGoogleに11年間勤務。スタンフォード大学で博士号、清華大学で学士号を取得。

Pony.aiとは

Pony.aiは2016年末にシリコンバレーで設立され、中国の複数都市に進出している。北京と広東では、100台近い完全ドライバーレスの自律走行タクシーが実際に乗客を運んでいる。これまでに2900万km以上の公道テストを行い、従業員数は1300人を超えた。

Pony.aiは、カリフォルニア州フリーモント、アリゾナ州ツーソン、それに中国の4つのTier1都市でのテストを行っている。これらのテストは、異なる天候、交通パターン、道路状況、交通ルールに対応するAIドライバーの能力を高めるのが目的だ。

Pony.aiのAIシステムは、ロボットタクシー、ロボットトラック、物流用アプリケーション、個人所有車のL2およびL3アプリケーションなど、さまざまな用途に対応している。トヨタなどの戦略的パートナーから長期的なサポートを受け、大規模なAIモデルを使用して人間のドライバーよりも安全な運転を実現しているという。

Pony.aiはロボットタクシーだけでなく、ロボットトラックや物流システムの開発も行っている。

AIの大規模言語モデルの利点と課題

大規模言語モデル（LLM）は、ChatGPTの登場によりAIが日常生活に大きな変化をもたらす可能性を示した。ChatGPTのようなモデルは自然言語処理や創造的な支援など、さまざまなアプリケーションでの使用が可能だ。大量のデータを取得してデータ駆動型の結果を得られることや、テキスト、ビデオ、写真などさまざまなタイプのデータを取り込む汎用性の高さがある。しかし一方で、言語に特化しているため、文脈に左右されてしまう性質がある。

自動運転に使用する場合、大規模言語モデル（LLM）には、主に4つの欠点がある。

データ依存性：大量の質の高いデータが必要であり、これは時には準備に手間のかかるキュレーションを必要とする。

決定性の欠如：言語モデルの本質的な複雑さにより、同じ入力であっても異なる出力が得られる可能性がある。

解釈可能性の欠如：モデル自体がブラックボックスのようになっており、中間結果の解釈が困難だ。

常識の欠如：一般的な常識に従うのが苦手で、大規模言語モデルが運転などの直接的な応用には適さないされる理由のひとつ。

これらの欠点に対処するためには、大規模言語モデルをより決定論的で解釈可能にする必要がある。運転においては、あいまいさを許さず、交通ルールを守る明確さが求められる。

エンド・ツー・エンド・システムとは

「エンド・ツー・エンド」（End-to-End）システムは、従来の自律走行システムの欠点を克服するために設計されている。従来のシステムでは、各ステップとインターフェースが明確に定義される必要があり、変更が困難であるという問題があった。例えば、新しいタイプの対象物（小動物など）をシステムが認識する必要が生じた場合、システム内のすべてのモジュールを更新する必要がある。

エンド・ツー・エンドシステムでは、知覚からコントロールまでの全ステップを一つの大規模なモデルで処理する。そうすることによって、センサーからの入力に基づき直接アクションを出力するフレキシブルなブラックボックスとして機能する。エンド・ツー・エンドシステムは、車両から収集されたセンサーデータだけでなく、他のドライバーの運転データ、道路脇のセンサーやV2X、高性能センサーからのデータも活用する。これにより、交通の流れをより正確にマッピングすることが可能になる。

エンド・ツー・エンドシステムの主な特徴には、機器のレスポンスをフィードバックするメカニズムと、周囲とのコミュニケーションを促進するシグナルがある。これらの特徴により、エンド・ツー・エンドシステムは人間のドライバーよりも優れた運転が可能になるという。

1. 縮約学習による教師なし学習

自動運転における入力情報は、日常生活の常識や経験をどのように活かし、AIドライバーの安全性を高めるかが焦点だ。

例として、道路でバスケットボールが跳ねている場面を考えよう。人間は、子供がそれを追いかける可能性が高いという常識がある。人間は長年の経験から常識を学ぶが、AIドライバーは限られたテストデータからしか学べない。

AIドライバーに日常的な行動を学ばせるためには、縮約学習という方法がある。これは、相関関係にある2つの事象を理解し、それらに高い類似性を持つような意味のある値を構築することだ。教師なし学習を通じて、イベントとそれに関連する値を学習できる。これにより、人間がイベントごとに最適な機能を割り当てなくても、AIは事象や値を学習できる。

入力データとしては、車両が収集するセンサーデータが最も価値があるが、道路脇のセンサーや日常生活からのビデオ、写真などのデータも重要。これらのデータから、自転車や三輪車、小物や動物、道路上のおもちゃなど、さまざまな物体を認識し、これらをどのようにエンド・ツー・エンドのモデルに入力するかが大切だ。

《根岸智幸》

編集者、ライター、メディアコンサルタント、ソフトウェアエンジニア根岸智幸

ITと出版とオタクの何でも屋。グルメや女性誌や芸能やBLマンガもやりました。キャンギャルやコンパニオンの写真も撮ったりします。・インターネットアスキー編集長（1997-1999）・アスキーPC Explorer編集長（2002-2004）・東京グルメ／ライブドアグルメ企画開発運営（2000-2008）・本が好き！企画開発運営（2008-2013）・BWインディーズ企画運営（2015-2017）・Webメディア運営＆グロース（2017-）【著書】・Twitter使いこなし術（2010）・facebook使いこなし術（2011）・ほんの1秒もムダなく片づく情報整理術の教科書（2015）など

+　続きを読む