【行業動態】勝率直逼人類大師！這套Agent揭開中國AI「玄學真相」

把當前最先進的通用大模型，放在中國傳統術數專業選擇題（四選一）面前，會發生什么？

需要說明的是，評測對通用模型已經做了「讓步」：所有基線模型的Prompt中都提供了預計算的盤面數據，避免引入計算幻覺，而是直接考察推理能力。

DestinyLinker研究團隊基于術數大賽（HKJFMA主辦，3069名選手參與）的官方題庫的評測集基準Mingli-Bench，測試了當下主流大模型，技術報告和測試結果在x上獲得了百萬關注。

MingLi-Bench開源倉庫：https://github.com/DestinyLinker/MingLi-

Bench Tianfu Agent技術報告：https://destinylinker.github.io/MingLi-Bench/

結果有點意外，這些模型在這套幾乎沒有信息泄漏的最新比賽選擇題上，準確率清一色徘徊在23%到40%之間。

注意，四選一選擇題的隨機猜測線就是25%。

為了驗證模型能力能否支撐專業術數推理，該團隊研發了Tianfu Agent的系統，實現一整套針對中國傳統術數領域harness工程系統——

200多個原子工具、3大流派規則函數庫、多Sub-Agent協作，以及一套貫穿全鏈路的置信度量化機制，一舉達到了50%的截尾準確率，逼近本屆賽事人類Top 20選手的平均水平53.5%。

Harness之路

編碼智能體的經驗還遠遠不夠

本測試案例使用了馬斯克命盤，測試中的1971/12/30并非其真實生日，因為他出生于南半球，需對其生辰進行節氣轉換

Claude Code、Cursor這些工具在復雜工程任務中表現良好，不是因為模型本身變強了，而是它被放進了一個領域專用的工具環境里，有文件I/O，有終端，有測試反饋。

Tianfu Agent把同樣的邏輯搬進了中國傳統術數領域，在推理鏈路上，采用多Sub-Agent協作的漸進式發現策略：多個Sub-Agent各自維護獨立的工具集和上下文，并根據環境反饋逐步展開推理。

然而，僅依靠Coding Agent的成功經驗還是遠遠不夠的，例如：

其他垂直領域應用，如醫療、法律等很可能也面臨著類似的困境

200多個工具如何管理？

四級可見性控制

通用Agent用十幾個工具就夠了，200+工具帶來的第一個工程問題不是「能不能寫出來」，而是模型選不對。

該研究團隊按「LLM可理解性」和「可窮舉性」兩個維度，將工具分成四級：

這套機制的核心是動態控制工具的可見范圍——不同推理階段、不同Sub-Agent看到的工具集不同，避免選項過載導致的選擇退化。

這個思路對其他垂直領域的Agent開發有一定參考價值：當工具數量超過模型的可靠選擇閾值后，工具管理本身就成了一個獨立的工程問題。

繁雜規則怎么用？

也封裝成可調用函數

通用Agent經常把規則寫進System Prompt或Few-shot，本質是讓模型「記住并遵循」。

術數領域規則繁雜（僅子平母法就超過百條）、適用條件互相耦合、流派之間還會互相矛盾，靠記憶遵循的直接后果就是選擇性忽略、推理路徑不可控。

Tianfu Agent的做法，是把每一條復雜規則封裝成一個帶元數據的可調用函數。

人類專家預先標注適用場景、時間跨度、事件類型、優先級；函數內部可以再調LLM；輸入盤面狀態，返回結論和置信度；只在滿足驗證時才注入上下文。

這一步等于把LLM從「記規則的考生」變成「調規則的工程師」——規則不再是Prompt里一段需要模型自覺遵守的文字，而是一個有明確簽名和觸發條件的工程構件。

沒有單元測試？

三層不確定性量化

編碼Agent的一個天然優勢是有「測試」作為驗證手段。

代碼寫完跑測試，通過就是正反饋，失敗就有明確的報錯信息。

術數領域，或者說絕大多數專業領域，都沒有這個條件實現所謂的「單元測試」。

Tianfu Agent的方案是引入不確定性量化，在三個層面給出置信度評估：

這不是一個能替代“自動驗證”的方案——在報告中也坦承了這一點。但在缺乏驗證手段的領域，「知道自己有多不確定」本身就是有價值的信息，至少給上層決策提供了量化參考，而非將所有結論等權堆砌。

如果用一句話總結這套harness的設計哲學：在Tianfu Agent里，工具不僅是計算函數，它還包括規則、子推理流程，乃至Sub-Agent本身。

對垂直領域Agent落地的啟示

拋開領域特殊性本身不談，這個項目提供了一些對垂直領域Agent開發有參考價值的工程經驗：

工具化范式，在「規則密集+語料稀缺」的領域收益最大。通用領域的模型已經從海量語料中內化了規則，工具環境是錦上添花。但在訓練數據極少的垂直領域，工具環境直接彌補了模型的知識盲區，Tianfu Agent比最強通用模型高出10個百分點即為例證。
工具數量膨脹后，工具管理本身成為獨立的工程問題。四級分類加動態注入的思路，對其他需要大量專業工具的垂直Agent有直接借鑒意義。
在缺乏自動驗證的領域，不確定性量化是務實的次優方案。編碼Agent有測試，醫療Agent有循證指南，但很多領域沒有——雖然術數是一個極端案例，但這種情況下置信度機制的作用值得關注。
「知識即接口」，在規則密度高的場景比「知識即提示詞」更可靠。把規則從Prompt搬進函數，是解決模型長上下文「選擇性失憶」的一種直接手段。