AWS 公佈調整 GPU 實例價格 拆解 AI 推理如何實現最佳成本效益
- hktechblog
- 8月30日
- 讀畢需時 2 分鐘
AI 領域發展一日千里,企業對 AI 推理需求殷切,同時亦希望能降本增效。AWS 最近的 GPU 實例價格調整為企業提供了新的機會,使其能夠更有效地利用雲端計算資源。本文將深入探討 AWS GPU 實例的類型、定價模式以及如何最佳化AI推理的成本效益。
按推理需求選擇合適的 GPU 實例

AWS 提供多種實例,以滿足不同的工作負載需求。當中 GPU 實例主要分為 G 系列和 P 系列:
G 系列:主要針對 AI 和圖形工作負載,適合中型的 AI 用例,例如聊天機器人或引數較低的大模型。G6 實例配備英偉達 L4 GPU,提供 24GB 視訊記憶體,適合部署 12B 以下的大模型。而 G6E 實例則支持引數更大的模型,擁有高達 48GB 的視訊記憶體和 400GB 的網路頻寬,能夠滿足更高效能的需求。
P系列:主要針對大規模分散式訓練和推理,適合引數超過 30B 的大模型以及對時延敏感的 AI 應用。P 系列採用英偉達的 NVLink 技術,提供行業領先的 EFA 網路。 P5 實例具備 900Gbps 的通信速率,適合需要低延遲和高通量的計算任務。最新的 P6 實例則對更大規模的大模型提供較佳性價比,適合訓練如 LLama 3.1 405B 和 DeepSeek 671B。
選擇合適的實例類型有助達致成本最佳化。G系列更適合中型模型的即時推理,而P系列則適合高計算需求的大模型。
AWS 靈活定價模式 助客戶控制成本

AWS提供四種主要的購買模式,幫助客戶根據實際需求進行最佳化:
按需使用(On Demand):客戶可根據需要選擇實例配置,按使用量付費,適合短期使用和突發需求。
節省計劃(Savings Plan):適合長期穩定的工作負載,通過承諾每小時固定支出來獲取顯著的成本節省,最高可達72%。
Spot 實例 (Spot Instance):利用AWS的閒置容量,最高可享受90%的折扣,非常適合無狀態和靈活的工作負載。
機器學習容量區塊(Capacity Blocks for ML):針對大模型的需求,客戶可預訂所需的GPU資源,保證資源可用性並實現成本最佳化。
這些模式的靈活性允許企業根據自身需求進行調整,從而實現成本的有效控制。
近期 GPU 價格調整及其影響

2025年6月,AWS 宣布多種 GPU 實例價格下降,降幅高達 45%,這對於需要大規模部署 AI 服務的企業相當友好,能顯著減省大模型推理的成本,企業可以在相同的預算內實施更多的 AI 應用,以更低成本提升營運效率。
此外,AWS 還擴充了 GPU 實例的區域可用性,降低了全球使用者的延遲,改善了數據流的合規性,使企業在不同地區的 AI 服務部署更加靈活。



留言