Claude 3實測：大海撈針 Needle In A Haystack測試

hktechblog
2024年4月29日
讀畢需時 2 分鐘

「大海撈針Needle In A Haystack」測試，是一項評估大型語言模型（LLM）從大量文字資料中準確搜尋及檢索指定資訊的測試，原理是將刻意準備，作為「針」的訊息埋藏於如「大海」般龐大及長篇的文案中，考驗語言模型能否準確「撈」出該訊息，以測試模型在理解上下文脈絡、檢索和分析長文本資訊等功能的表現。

Anthropic於2024年3月推出的全新Claude 3模型提供業界領先的200k字符內容視窗，同時不論Opus、Sonnet及Haiku三個等級的模型都能夠接受超過100萬個Token的輸入，其中最強大的Opus更號稱能夠達到99%的召回準確率，令人對這套系統在「大海撈針」測試中的表現充滿好奇。

在一則由Anthropic提示工程師發表的推特中，顯示Opus不單能夠在一則有關編程語言、初創企業及求職的超長文案中準確撈出刻意加入，有關Pizza配料的「針」，更意識到那句作為「針」的句子與前文格格不入，推論出相關句子是有意為之，懷疑是刻意加入作為笑話，甚至只是為了測試系統有否留意文章細節而設。這篇推特發表後隨即引起哄動，除了印證Claude 3對於長篇上下文脈絡及自然語言的連貫性有著深入及透徹的理解外，更展示出有如人類思考的「元認知（Meta-awareness）」能力，不少人因而驚嘆LLMs的進化已達至新的境界。

除了官方測試外，有使用者利用中國經典小說，魯迅所著的《阿Q正傳》作為測試文本，在這篇長達25,000字的長篇小說中，將其中一句句子修改成與原文明顯格格不入的「賣掉了一件紫紅色的東北花棉襖」，並分別詢問GPT-4、Gemini Ultra及Claude 3 Opus「阿Q為何賣掉這件棉襖、以及其顏色是甚麼」的問題，結果Claude 3在經過15秒的運算後，準確回答出正確答案。相比之下，GPT-4在面對同一問題時編造出與原文毫不相關的答案，而Gemini Ultra則直接表示這樣的測試超出了其能力範圍而拒絕回答。