合同会社モリカワのブログ

森川敬一。CTOとして30年やってきました。集大成としてCTOを増やすという事を目標にやってます。

Teslaはカメラを使ってどのように世界を認識しているか?

スライドによるとSingleImage、MultiCameraでも難しく、Transformer->BEV変換するみたいです。
 
BEVとは、Bird eye view空間の事で、いわゆる鳥瞰図ですね。
Transformerの中でもCross-attentionという機構を用いており、これによってマルチカメラの画像情報を統合し、効率よくBEV空間のベクトルに変換することに成功してるみたいです。
 
こちらはTeslaの自動運転をユーザーが使っている動画です。
これに時系列情報(動き)が必要なので、SpatialRNNを使ってるみたいです。
1台の車を認識した時に、別の車の影で見えなくなっても時系列データがあれば、見えない時間も動きの予測が出来ます。
 
この考え方を使えば、車以外もスポーツとかに流用できそうですね。