CTimes - NVIDIA 針對超大規模資料中心擴充深度學習推論功能:資料中心,深度學習,GPU,NVIDIA

NVIDIA(輝達)宣布一連串新技術與合作夥伴，將推論的潛在市場拓展至全球3,000 萬部超大規模伺服器，同時大幅降低由深度學習技術所驅動的各種服務成本。

NVIDIA 創辦人暨執行長黃仁勳在 2018 GTC 發表開幕演說時，闡述深度學習推論如何透過在資料中心、車用以及如機器人和無人機等嵌入式裝置上，新增語音辨識、自然語言處理、推薦系統與影像辨識等技術支援，持續仰賴 GPU 加速。

對此，NVIDIA 宣布新版 TensorRT 推論軟體並將其整合至 Google 熱門的TensorFlow 框架中。 NVIDIA 也宣布將針對最受歡迎的語音辨識框架 Kaldi 進行 GPU 最佳化。此外，NVIDIA 與 Amazon、Facebook 以及 Microsoft 等夥伴的密切合作，也將讓開發人員更容易將 ONNX 格式與 WinML 模型透過 GPU 進行加速。

NVIDIA 副總裁暨加速運算部門總經理 Ian Buck 表示：「針對量產深度學習推論技術所推出的 GPU 加速，即便在處理最龐大的神經網路時，也能即時且以最低成本運行，透過迅速支援更智慧的應用與框架，NVIDIA 不僅能提升深度學習的技術品質，同時還能協助降低全球 3,000 萬部超大規模伺服器的營運成本。」

TensorRT與TensorFlow的整合

NVIDIA 揭露 TensorRT 4 軟體能為多種應用程式進行深度學習推論加速。TensorRT能提供 INT8 與 FP16 精準的推論內容，讓資料中心成本最高可減少70%。

TensorRT 4 能用來快速進行最佳化、驗證以及將訓練完成的類神經網路部署到超大規模資料中心、嵌入式裝置和車用 GPU 平台。在處理包括電腦視覺、神經機器翻譯、自動語音辨識、語音合成與推薦系統等常見應用時，新版軟體在執行深度學習推論的速度是 CPU 的190倍。

為進一步加快研發效率，NVIDIA 與 Google 的工程師攜手將 TensorRT 整合到 TensorFlow 1.7，讓用戶更容易在 GPU 上運行各種深度學習推論應用。

Google 工程部總監 Rajat Monga 表示：「TensorFlow 團隊正與 NVIDIA 密切合作，將 NVIDIA GPU 的最佳效能帶給深度學習的用戶。TensorFlow 與 NVIDIA TensorRT 的整合目前已能在Volta Tensor Core 技術與 NVIDIA 深度學習平台上提供高達8倍的推論吞吐量(與低延遲目標中的GPU執行相比)，從而實現TensorFlow中GPU的最高效能。」

NVIDIA 已著手優化全球頂尖語音框架 Kaldi，能在 GPU 上發揮更高的效能。GPU 語音加速不僅代表將為消費者提供更精準且實用的虛擬助理，同時也代表資料中心營運商將藉此降低部署成本。

全球各領域企業開發人員正在運用 TensorRT 探取資料中的情資，並為企業與消費者部署各種智慧服務。

NVIDIA 工程師與包括 Amazon、Facebook以及 Microsoft等公司密切合作，確保運用各種 ONNX 框架的開發人員，包括 Caffe 2、Chainer、CNTK、MXNet和Pytorch的用戶，現在都能輕易部署至 NVIDIA 的深度學習平台上。

SAP 機器學習部門經理 Markus Noga 表示：「針對 TensorRT基於深度學習在 NVIDIA Tesla V100 GPU 上運行 SAP 所推薦的應用程式之評測，我們發現在推論速度與吞吐量比 CPU 平台快 45 倍。我們相信 TensorRT 能為我們的企業顧客大幅提升生產力。」

Twitter Cortex團隊經理 Nicolas Koumchatzky 表示：「運用GPU讓我們的平台能建構媒體認知能力，不光是大幅縮短媒體深度學習模型的訓練時間，還讓我們在推論期間就能即時瞭解影片的內容。」

Microsoft 近期宣布對 Windows 10程式導入 AI 支援。NVIDIA與 Microsoft 合作開發多款 GPU 加速工具，協助開發人員在 Windows 程式中加入更多智慧功能。

NVIDIA 宣布針對 Kubernetes 推出 GPU 加速，以促進多雲 GPU 叢集上的企業推論部署。NVIDIA 將 GPU 強化的技術貢獻給開源社群，藉以支持 Kubernetes 社群。

此外，打造 MATLAB 軟體的 MathWorks 宣布將 TensorRT 與該軟體進行整合。工程師與科學家現在能透過包括 NVIDIA DRIVE、Jetson以及Tesla等平台自動生產出高效能推論引擎。

資料中心的管理者必須不斷在效能與效率之間取得平衡，藉以讓伺服器機群達到最大的生產力。在執行各種深度學習推論應用與服務時，透過 NVIDIA Tesla GPU 加速的伺服器能取代數個機架的 CPU 伺服器，空出寶貴的機架空間並降低對能源與冷卻的需求。

TensorRT 也能部署在 NVIDIA DRIVE 自駕車與 NVIDIA Jetson 嵌入式平台。每個框架上的深度學習神經網路都能在資料中心的 NVIDIA DGX系統上進行訓練，並部署從機器人到自駕車所有種類的裝置上，在邊緣進行即時推論。

透過TensorRT，開發人員能專注於研發新穎的深度學習應用，而不用費心為推論部署進行繁瑣的效能調校。以極快速度執行INT8 或 FP16精準度的推論，大幅降低延遲，這對包括嵌入式與車用平台上，處理物體偵測與路線規劃等功能至關重要。