八大測試比較哪一個才是最強「生成式 AI」？（下）

hktechblog
2024年9月5日
讀畢需時 3 分鐘

上篇提到美國 Youtuber 兼 AI 開發者 Partick Storm 自定八大測試去比較 ChatGPT 4.0 與 Claude 3.5 Sonnet 的效能，暫時在「創意寫作」、「圖像描述」、「編碼」、「情感分析」四方面打成平水，接下來我們繼續分享兩大 AI 在「問答提問」、「圖像生成」、「對話生成」及「內容概要」方面的效能對比。

第五項測試是「回答提問能力」有關的「問答系統」（question answering），Partick 準備了六條問題向 AI 查詢答案，題目分別是「知名治療師 Esther Perel 何時結婚」、「誰是第十一個在月球上漫步的人」、「哪一個國家擁有最多的金字塔」、「青檸在水中會浮還是沉」、「世界上最細的哺乳類動物是甚麼」及「2018 年全球 GDP 排名第五高的國家是哪一個」，結果 ChatGPT 4.0（下稱 GPT 4.0）答中其中三條，表現較佳，Claude 3.5 Sonnet（下稱 Claude 3.5）僅答中兩條，但值得一提，部分題目 GPT 4.0 提供錯誤答案，相反 Claude 3.5 會直接回應「不知道答案」，兩害取其輕，Partick 也明言也許 AI 回答「不知道」才更好。另外，雖然這項測試是由 GPT 4.0 勝出，但 Partick 亦強調 AI 不應當作為查證事實的機器（fact machines），並認為用家應把 AI 作為推論機，讓 AI 透過數據進行推論才是較合適的用法。

GPT 4.0 擅長生成圖象 Claude 3.5 對答更人性化

第六項測試為「圖像生成」（image generation），題目是生成一張機械人在滑浪的圖片，結果 GPT 4.0 順利生成夕陽下機械人在水上滑浪的圖片，對照沒有支援圖像生成的 Claude 3.5，GPT 4.0 當然完勝。

第七項的測試是關於「對話生成」技巧（conversational skills），Partick 會向兩部 AI 表達自己情緒低落，並要求 AI 為自己打氣。Partick 指，他期望透過對話測試 AI 的回應是否有同理心、是否自然及能否做到「打氣」的要求，結果，GPT 4.0 僅以清單列出如何更快樂，Claude 3.5 則在對答中以問題詢問 Partick 的情況並提出建議，對比兩者，明顯 Claude 3.5 的對答更人性化、更自然，表現較為突出。

最後一項測試是「內容概要」能力（summarization），Partick 向 AI 輸入一篇牽涉大量電動車專有名詞的文章，並要求它們對文章進行概括。結果顯示，Claude 3.5 刪減了部分重點，GPT 4.0 的撮要卻多達三百多字，兩者表現皆不理想。其後，Partick 亦要求兩者撮要一份與人工智能相關的論文《Attention Is All You Need》，最後他認為 GPT 4.0 的撮要較有深度及細緻，Claude 3.5 的撮要程度較高，卻漏了某些重點。整體而言，在「內容概要」方面，他認為 GPT 4.0 與 Claude 3.5 的表現平分秋色。

表現相近整體而言 Claude 3.5 更佳

總結而言，經過八回合的測試，如果單單比較分數，Claude 3.5 獲得 8 分、GPT 4.0 獲得 6 分，Claude 3.5 的整體表現較出色，但一如 Partick 所言，兩者表現相近，在不同項目的表現亦有明顯高低，因此他認為最好的做法是視乎用途，選擇適當的 AI 工具。而作為一個 AI 開發者，Partick 的選擇是把自己的編程工作、其公司旗下的 API（應用程式介面）使用轉投到 Claude 3.5 Sonnet，他直言 Claude 3.5 不但成本較低，生成內容也更細緻，另一邊廂，他亦會保留 GPT 4.0 作圖像生成、語音聊天等日常用途。

因此，從結論來說，Claude 3.5 效能更強大，但作為 AI 使用者，大前提還是要先理解自己或企業需要運用那一款人工智能工具，如需要 I.T. 專業意見或嘗試各類「生成式 AI」，亦可登記如 AWS 的大型網絡服務平台，省減成本。

HK TECH BLOG

八大測試比較哪一個才是最強「生成式 AI」？（下）

最新文章