探索Claude 3.7：新一代模型的實戰測試與評價

hktechblog
2025年4月11日
讀畢需時 3 分鐘

在最近的一段影片中，YouTuber Corbin深入探討了Claude 3.7的新功能與表現。這款被譽為「最佳模型」的Claude 3.7是否真的如宣傳般出色？Corbin通過實戰測試，為我們揭開了這款模型的真實面貌。

Claude 3.7的新功能

Corbin在影片中提到，Claude 3.7的一大亮點是其能夠在終端窗口中進行代碼編輯。這意味著用戶可以直接在終端中對代碼進行修改，這在某些情況下可能會提高工作效率。然而，Corbin也指出，這種設計似乎並不是為了取代像VS Code這樣的開發環境，而是為了提供一種不同的使用體驗。

實戰測試

在測試中，Corbin使用Claude 3.7創建了一個完整的前端應用，包括一個React應用的登陸頁面，能夠通過MailChimp API接收電子郵件。Corbin表示，Claude 3.7在這次測試中表現出色，生成的代碼比過去的版本更加完整和自動化。特別是在設置CSS和MailChimp API方面，Claude 3.7顯示出瞭更高的自主性和準確性。

效能評價

Corbin在影片中強調，Claude 3.7在代碼生成方面的表現確實有所提升。然而，他也提到，隨著AI模型的不斷進步，許多功能的改進已經達到了一個瓶頸，特別是在某些專業領域如創意寫作和社交媒體內容生成方面。Corbin認為，Claude 3.7在這些方面的表現仍然有待提升。

Anthropic’s Claude 3.7 Sonnet混合推理模型現已在Amazon Bedrock上可用

隨著生成式AI領域的發展，Amazon Bedrock正在擴展其基礎模型（FM）的提供範圍。今天，我們很高興地宣布Anthropic的Claude 3.7 Sonnet基礎模型現已在Amazon Bedrock上可用。作為Anthropic迄今為止最智能的模型，Claude 3.7 Sonnet以其首個混合推理模型的身份脫穎而出，能夠產生快速回應或延長思考，這意味著它可以通過謹慎的逐步推理來解決困難的問題。此外，我們今天還將Claude 3.7 Sonnet添加到Amazon Q Developer使用的模型列表中。Amazon Q建立在Bedrock之上，並且使用Amazon Q，您可以選擇最適合特定任務的模型，例如Claude 3.7 Sonnet，以用於更高級的編碼工作流程，從而加速整個軟件開發生命週期的構建。

Claude 3.7 Sonnet的主要亮點

以下是Claude 3.7 Sonnet在Amazon Bedrock中的幾個顯著特點和功能。

· 首個混合推理Claude模型 - 與其他模型不同，Claude 3.7 Sonnet將快速回應和解決複雜問題的能力集成在一個模型中。這種組合更接近於人類大腦的工作方式，無論是回答簡單問題還是解決困難的問題，我們都使用同一個大腦。

· 兩種模式 - 標準模式和延長思考模式可以在Amazon Bedrock中切換。在標準模式下，Claude 3.7 Sonnet是Claude 3.5 Sonnet的改進版本。在延長思考模式下，Claude 3.7 Sonnet會花額外的時間來詳細分析問題、計劃解決方案，並考慮多種觀點之後再給出回應，從而進一步提高性能。您可以通過選擇何時使用推理功能來控制速度和成本。延長思考的token計入上下文窗口並作為輸出token計費。

· Anthropic最強大的編碼模型 - Claude 3.7 Sonnet在編碼方面表現出色，特別是在理解上下文和創意問題解決方面，並且根據Anthropic的說法，在SWE-bench Verified的標準模式下達到了領先行業的70.3%。Claude 3.7 Sonnet在大多數基準測試中也比Claude 3.5 Sonnet表現更好。這些增強功能使Claude 3.7 Sonnet成為AI代理和複雜工作流程的理想選擇。

總的來說，Claude 3.7在代碼生成和自動化方面確實有所進步，但其在創意寫作和社交媒體內容生成方面的表現仍然有待提升。Corbin建議，隨著AI模型的不斷進步，用戶應該根據自己的需求選擇合適的工具，而不是盲目追隨最新的版本。

轉自: https://www.youtube.com/watch?v=oeNPRcvhbKM

HK TECH BLOG