特斯拉推出搭載NVIDIA A100 GPU頂尖自動駕駛汽車訓練超級計算機

“不可思議”的GPU集群賦能Autopilot系統及全自動駕駛的AI開發工作。

為了應對這項有史以來最大的計算挑戰之一，特斯拉需要配備前所未有的算力。

在本周的CVPR（國際計算機視覺與模式識別會議）上，汽車制造商特斯拉的AI高級總監Andrej Karpathy公布了公司內部用于訓練Autopilot與自動駕駛深度神經網絡的超級計算機。這個集群使用了720個節點的8個NVIDIA A100 Tensor Core GPU（共5760個GPU），實現了1.8 exaflops級別的超強性能。

Karpathy表示：“這是一臺性能卓越的超級計算機，以FLOPS計，它大概可以在全球超級計算機中排到第5位”。

通過將汽車行業前所未有的算力作為其研發周期的核心，特斯拉讓其自動駕駛汽車工程師能夠使用前沿技術來高效完成工作。

NVIDIA A100 GPU為全球最強的數據中心提供各種尺度的加速。A100 GPU基于NVIDIA Ampere架構打造，其性能比上一代產品高出20倍，并且可以劃分成7個GPU實例，動態地適配不同的需求。

使用100多萬輛在路上行駛的Tesla汽車（的數據）來持續優化和迭代新功能，是Tesla自動駕駛的垂直整合之道，而GPU集群在其中扮演了重要角色。

從汽車到數據中心

特斯拉的數據循環始于汽車。“影子模式”在不實際控制車輛的情況下，悄無聲息地執行著感知和預測深度神經網絡（DNN）。

任何錯誤預測、誤識別都會被記錄下來。隨后，這些實例會被特斯拉工程師所用，來創建/擴充一個包含多種復雜場景的訓練數據集，以完善DNN。

當前已經收集了100萬個以每秒36幀的速度記錄的10秒片段，總數據量高達1.5PB。在數據中心，DNN基于這些場景被反復訓練直到性能可接受。最后，DNN被發送回車內，并開始下一輪（數據）循環。

Karpathy表示，以這種方式在如此大量的數據上訓練DNN需要龐大的計算能力，特斯拉為此建立并部署了內置高性能A100 GPU的最新一代超級計算機。

連續迭代

除了全方位的訓練之外，特斯拉的超級計算機還為自動駕駛汽車工程師提供了在開發過程中進行實驗和迭代所需的性能。

Karpathy表示，特斯拉目前部署的DNN結構可以讓一個由20名工程師組成的團隊同時在一個網絡上工作，通過隔離不同功能來實現并行開發。