AWS 公佈調整 GPU 實例價格拆解 AI 推理如何實現最佳成本效益

hktechblog
2025年8月30日
讀畢需時 2 分鐘

AI 領域發展一日千里，企業對 AI 推理需求殷切，同時亦希望能降本增效。AWS 最近的 GPU 實例價格調整為企業提供了新的機會，使其能夠更有效地利用雲端計算資源。本文將深入探討 AWS GPU 實例的類型、定價模式以及如何最佳化AI推理的成本效益。

按推理需求選擇合適的 GPU 實例

AWS 提供多種實例，以滿足不同的工作負載需求。當中 GPU 實例主要分為 G 系列和 P 系列：

G 系列：主要針對 AI 和圖形工作負載，適合中型的 AI 用例，例如聊天機器人或引數較低的大模型。G6 實例配備英偉達 L4 GPU，提供 24GB 視訊記憶體，適合部署 12B 以下的大模型。而 G6E 實例則支持引數更大的模型，擁有高達 48GB 的視訊記憶體和 400GB 的網路頻寬，能夠滿足更高效能的需求。

P系列：主要針對大規模分散式訓練和推理，適合引數超過 30B 的大模型以及對時延敏感的 AI 應用。P 系列採用英偉達的 NVLink 技術，提供行業領先的 EFA 網路。 P5 實例具備 900Gbps 的通信速率，適合需要低延遲和高通量的計算任務。最新的 P6 實例則對更大規模的大模型提供較佳性價比，適合訓練如 LLama 3.1 405B 和 DeepSeek 671B。

選擇合適的實例類型有助達致成本最佳化。G系列更適合中型模型的即時推理，而P系列則適合高計算需求的大模型。

AWS 靈活定價模式助客戶控制成本