top of page
  • hktechblog

Claude 3實測:大海撈針 Needle In A Haystack測試

「大海撈針Needle In A Haystack」測試,是一項評估大型語言模型(LLM)從大量文字資料中準確搜尋及檢索指定資訊的測試,原理是將刻意準備,作為「針」的訊息埋藏於如「大海」般龐大及長篇的文案中,考驗語言模型能否準確「撈」出該訊息,以測試模型在理解上下文脈絡、檢索和分析長文本資訊等功能的表現。


Anthropic於2024年3月推出的全新Claude 3模型提供業界領先的200k字符內容視窗,同時不論Opus、Sonnet及Haiku三個等級的模型都能夠接受超過100萬個Token的輸入,其中最強大的Opus更號稱能夠達到99%的召回準確率,令人對這套系統在「大海撈針」測試中的表現充滿好奇。


在一則由Anthropic提示工程師發表的推特中,顯示Opus不單能夠在一則有關編程語言、初創企業及求職的超長文案中準確撈出刻意加入,有關Pizza配料的「針」,更意識到那句作為「針」的句子與前文格格不入,推論出相關句子是有意為之,懷疑是刻意加入作為笑話,甚至只是為了測試系統有否留意文章細節而設。這篇推特發表後隨即引起哄動,除了印證Claude 3對於長篇上下文脈絡及自然語言的連貫性有著深入及透徹的理解外,更展示出有如人類思考的「元認知(Meta-awareness)」能力,不少人因而驚嘆LLMs的進化已達至新的境界。


除了官方測試外,有使用者利用中國經典小說,魯迅所著的《阿Q正傳》作為測試文本,在這篇長達25,000字的長篇小說中,將其中一句句子修改成與原文明顯格格不入的「賣掉了一件紫紅色的東北花棉襖」,並分別詢問GPT-4、Gemini Ultra及Claude 3 Opus「阿Q為何賣掉這件棉襖、以及其顏色是甚麼」的問題,結果Claude 3在經過15秒的運算後,準確回答出正確答案。相比之下,GPT-4在面對同一問題時編造出與原文毫不相關的答案,而Gemini Ultra則直接表示這樣的測試超出了其能力範圍而拒絕回答。


Claude 3 答案



GPT-4 答案



Gemini Ultra 答案


Anthropic此前推出的上一個Claude版本 – Claude 2.1在檢索上下文的能力一直為人垢病,而Claude 3不僅能夠在大段長文脈絡中識別出那些顯然格格不入的插入句,更能精準地指出埋藏在冗長文本中的關鍵細節,可見Anthropic針對這項功能作出大幅度的強化,效能更領先同類模型。

在上述的測試中,Claude 3理解海量文本資料的能力顯然超越同類模型,這種能力對於需要閱覽或分析詳盡複雜的專業報告、內容繁複的法律文件,以至精彩長篇文學作品的使用者來說尤其重要。隨著人工智能技術日新月異,「大海撈針」的能力勢將成為LLMs不可或缺、各大人工智能公司兵家必備的重要技能。

Claude 3模型現時已於AWS旗下的Amazon Bedrock平台上推出,企業可以在AWS基礎設施的支援下體驗這項全新LLM的各項功能。


聯絡銷售查詢香港企業的 Amazon Bedrock 應用案例:按此連結報名最新活動了解 Amazon Bedrock: :按此連結

立即試用 Amazon Bedrock:按此連結


關於 Claude 最新模型:按此連結


關於 Mistral AI 最新模型:按此連結


AWS 開發者 Blog:按此連結


AWS 開發者社區:按此連結

1 次查看0 則留言
bottom of page