AWS 推出基於機器學習的 EC2 容量區塊 多種預訂方式便利企業 AI 開發
- hktechblog
- 2024年11月14日
- 讀畢需時 3 分鐘
過去數年 GPU 資源一直被企業熱搶作 AI 開發。但購買 GPU 卡預算高昂,實際所需算能亦難以憑空估算。AWS 為此推出適用於機器學習 (ML) 的 EC2 容量區塊,讓客戶能夠租用 GPU 算力,以運行其短期 ML workload。借助 EC2 容量塊,你可以使用二代 [DZ1] UltraCluster 3,200G 網路,結合 EFA 技術,以獲得最佳網路性能,更可預留高達 512 個 NVIDIA GPU[DZ2] 。
AWS 的 GPU 實例預訂方式讓你可以選定未來日子所需保留的實例數。EC2 容量區塊目前最新可用到 NVIDIA H200 Tensor Core GPU 提供支援的 Amazon EC2 P5e 實例,最多可提早 8 周預留或預留 28 天使用時長[DZ3] 。以下將介紹以不同方法預訂容量區塊。
方法 1: 在 AWS EC2 Console 進行預訂
在 Amazon EC2 Console 上選擇 Capacity Reservation,你可以看到兩個容量預留選項。選擇 Purchase Capacity Block for ML,然後選擇 Get started 以開始查找 EC2 容量區塊。
是二代UltraCluster 3200G網路, 結合 EFA技術
最高預留512個
提早8周預留 / 預留28天使用時長

其次,選擇總容量並指定所需要 EC2 容量塊的時間。你可以預留以下大小的 EC2 容量塊:1、2、4、8、16、32 或 64 個實例。可預留 EC2 容量區塊的總天數為 1 到 28 天。EC2 容量塊最多可提前 8 周預訂。以下例子為 p5.48xlarge。

EC2 容量區塊的價格取決於你購買 EC2 容量區塊時的總可用供需量,和預訂酒店邏輯相似。你可以調整大小、持續時間或日期範圍,以搜索其他 EC2 容量區塊選項。當你選擇 Find Capacity blocks 時,AWS 將提供你指定的日期範圍內符合規範的最低價格產品以供選訂。
查看 EC2 容量區塊詳細資訊、標籤和總價格資訊後,選擇 Purchase 。有關總價格是預先收取的,購買後價格不會改變。你需在確認購買 EC2 容量區塊的 12 小時內完成付款。[DZ1]
所有 EC2 容量區塊預留均從香港時間(UTC+8) 19:30 開始[DZ2] 。EC2 容量塊在購買後無法修改或取消
方法 2: 在 AWS Command Line Interface (AWS CLI) 及 AWS SDKs 預訂
AWS 亦提供 API 形式尋找可供預訂的容量區塊並進行預訂。使用 API 提供你的集群要求並發現可供購買的 EC2 容量塊。首先,使用 describe-capacity-block-offerings API 提供你的集群要求並發現可供購買的 EC2 容量區塊。
“您需要在12小時内完成付款”
建議換成香港時間 (UTC+8) 就是19:30

使用上述指令找到可用的 EC2 容量區塊後,就可以使用以下 API 購買:CapacityBlockOfferingIdpurchase-capacity-block-reservation

想了解更多亦可參閱 Amazon EC2 API 文件。
最後,你會看見 EC2 容量區塊現已成功預留。在到達擬訂的開始日期,你的 EC2 容量區塊將態將變成 Active。要使用 Active 的 EC2 容量塊,請點擊 EC2 容量區塊的 ID。

選擇 Launch instances ,你便可以啟動 EC2 實例,並開始運行你的 ML workload。

請注意,當 EC2 容量區塊臨近結束,EC2 將通過 Amazon EventBridge 發出預留即將結束的通知,以便你對工作負載進行檢查點操作。在 EC2 容量區塊中運行的任何實例都會在預留結束前 30 分鐘關閉。你不會為此時段支付金額。當 EC2 容量區塊過期,任何仍在運行的實例都將被終止。
Commentaires