善用 Amazon Bedrock 智慧型提示路由 同時有效降低成本及時延
- hktechblog
- 2天前
- 讀畢需時 3 分鐘
LLM 面世以來,越來越多企業都紛紛採用它來提升工作效率。但企業同時都要考慮在提升效率之餘應如何控制成本,避免浪費 tokens。早前 Open AI 行政總裁亦表示,當LLM 解決用戶的問題後,用戶對 LLM 表達謝意,便足令開支增達數千萬美元。有見及此,AWS 於去年 12 月就推出了 Amazon Bedrock 智慧型提示路由 (Intelligent Prompt Routing) 預覽版本,並於今個月全面推出。該功能可按照問題的複雜性分流到合適的 LLM,大致保持答案質素之餘,亦令成本更低,回應更快。
支援 LLM 系列以及整體性能改進
Amazon Bedrock 為每個模型系列提供了預設提示路由器,向更便宜的模型發送更簡單的提示,以達到更高性能,減省成本。 這些路由器帶有預先定義的配置,在特定基礎模型上可以開箱即用。另外,你亦可以自行配置路由器,而目前支援以下系列的LLM模型:
● Anthropic Claude 系列:Haiku、Sonnet3.5 v1、Haiku 3.5、Sonnet 3.5 v2
● Llama 系列:Llama 3.1 8b、70b、3.2 11b、90B 和 3.3 70B
● Nova 系列:Nova Pro 和 Nova lite
AWS 使用了專門及公開數據進行了多項內部測試,以評估 Amazon Bedrock 智慧型提示路由 。首先,他們使用了成本約束下的平均響應品質增益 (ARQGC),這是一個標準化 (0-1) 性能指標,用於衡量各種成本約束下的路由器質量, 0.5 表示隨機路由,1 盯表示最佳路由效果。其次,測試亦比較了與使用該系列中最強的大模型相比,使用智慧提示路由所節省的成本。並根據平均記錄到第一個 token 的時間 (Time to First Token, TTFT) 來估計時延優勢,有關數據列於以下表格。
大模型系列 | 路由整體性能 | 配置路由器以匹比最強模型時的性能 |
|
| 平均 ARQGC | 節省成本 (%) | 時延優勢 (%) |
Nova | 0.75 | 35% | 9.98% |
Anthropic | 0.86 | 56% | 6.15% |
Meta (Llama) | 0.78 | 16% | 9.38% |
了解回應質量差異 (Response Quality Difference)
回應質量差異衡量回退模型 (Fallback Model) 與其他模型的回應差異。數值越小表示回應內容越相似,反之亦然。選擇以哪一模型作為回退模型十分重要。當使用 Anthropic 的 Claude 3 Sonnet 作為回退模型,並配置 10% 的回應質量差異時,路由器會動態選擇一個比起 Claude 3 Sonnet 的回應品質下降 10% 的 LLM來實現整體性能。相反,如果使用成本較低的模型(如 Claude 3 Haiku)作為回退模型,則路由器會動態選擇與 Claude 3 Haiku 相比,回應品質提升 10% 以上的 LLM 來實現整體性能。在下圖,你可以看到 Haiku 作為回退模型時,回應質量差異設置為 10%。

操作示範
你可以使用 Amazon Bedrock 的 AWS 管理控制台。你可以創建自己的路由器,亦可以使用預設路由器。你可以在 Amazon Bedrock 控制台中,選擇導航窗格中的 Prompt Routers,然後選擇 Configure prompt router。

然後,您可以在控制台的 Playground 中使用選用自設的路由器或預設路由器。例如在下圖中,我們附加了 Amazon.com 的一份 10K 文件,並詢問了有關銷售成本的具體問題。

選擇 router metrics 圖示就可以看到請求最終經由哪個模型處理。由於這個問題屬於較複雜的問題,所以 Amazon Bedrock 智慧型提示路由會路由到較強大的 Claude 3.5 Sonnet V2,如下圖所示。

結論
以上基準測試結果表明,在保持高品質回應和減少延遲優勢的同時,智慧型提示路由在不同模型系列都能顯著節省成本。如果想探索最佳配置,你可以在配置時嘗試不同的回應質量差異數值,分析路由器在其開發數據集上的回應品質、成本和延遲,選擇出最適合你要求的配置。有興趣了解更多的讀者可參閱原文。
Commentaires