Teslaはカメラを使ってどのように世界を認識しているか？

スライドによるとSingleImage、MultiCameraでも難しく、Transformer->BEV変換するみたいです。

BEVとは、Bird eye view空間の事で、いわゆる鳥瞰図ですね。

Transformerの中でもCross-attentionという機構を用いており、これによってマルチカメラの画像情報を統合し、効率よくBEV空間のベクトルに変換することに成功してるみたいです。

こちらはTeslaの自動運転をユーザーが使っている動画です。

これに時系列情報（動き）が必要なので、SpatialRNNを使ってるみたいです。

1台の車を認識した時に、別の車の影で見えなくなっても時系列データがあれば、見えない時間も動きの予測が出来ます。

この考え方を使えば、車以外もスポーツとかに流用できそうですね。

合同会社モリカワのブログ