-
首頁
-
技術與產品
- 智能硬件
- 工業互聯
- ? 邊緣網關
- ? LoRaWAN組網
- ? 電力線載波通訊模組
- ? 閥門控制器
- ? PLC數據采集網關
- 電力
- ? 一鍵順控裝置
- ? 底盤車物聯網控制器
- ? 機械特性監測裝置
- ? 低壓綜保控制模塊
- 智能硬件
- 新能源
- ? 清潔機器人控制器
- ? 逆變器數據采集網關
- ? 紅外抄表采集裝置
- ? 儲能EMS管理機
- ? 就地顯示屏
- 平臺軟件
- ? 成套設備在線監測平臺
- ? 智能開關柜專家診斷系統
- ? 母線槽智能在線監測平臺
- ? 光伏清潔機器人遠程運維平臺
- ? 光伏電站遠程運維平臺
- ? 新型儲能管理系統EMS
- AI智能體
- ? 智能畫圖機器人
-
解決方案
- 新能源
- “無人值守”光伏電站智能運維解決方案
- 光伏清潔機器人智能控制和運維解決方案
- 光伏柔性支架在線監測物聯網解決方案
- 場站光伏組件缺陷現場檢測解決方案
- 新型儲能管理系統(EMS)解決方案
- 直流電源屏在線監測解決方案
- 電力
- 成套開關柜在線監測物聯網解決方案
- 中低壓電氣設備智能化升級解決方案解決方案
- 多模態智能感知、一鍵順控專家系統
- 真空斷路器智能化解決方案
- 操作機構機械特性物聯網軟硬件一站式解決方案
- 母線槽智能在線監測解決方案
- 低壓綜保模塊智能解決方案
- 工地臨時配電箱在線監測物聯網解決方案
- 機械裝備
- 變頻器物聯網軟硬件一站式解決方案解決方案
- 科研儀器在線監測物聯網解決方案
- 智能割草機遠程控制物聯網解決方案
- 工業縫紉機物聯網解決方案
- 電梯空調遠程監控物聯網解決方案
- 碼頭卸船機遠程運維物聯網解決方案
- 鋸床在線監測物聯網解決方案
- 礦山機械遠程運維物聯網解決方案
- 智慧水務
- 水泵物聯網軟硬件一體化解決方案
- 萬州城區智慧排水體系升級解決方案
- 智慧供暖
- 智慧供暖全景運營物聯網解決方案
- 空氣源熱泵熱站專項系統
- 智慧供熱用戶繳費平臺系統
- 智慧供熱用戶監控平臺系統
-
成功案例
- 電力
- 基于多源數據融合的高壓斷路器健康管理系統設計項目
- 高壓斷路器數據采集與故障診斷技術研究項目
- 新能源
- 基于無人值守的大跨距高凈空的柔性大型光伏電站智能在線監控項目
- 基于數據挖掘的光伏電站遠程運維技術項目
- 機械裝備
- 萬州城區智慧排水體系升級排水設施安全監測項目建設實施方案
- 智慧供暖全景運營物聯網解決方案項目
- 空氣源熱泵熱站專項系統熱站監控系統項目
- 智慧供熱用戶繳費平臺系統項目
- 智慧供熱用戶監控平臺系統項目
-
新聞中心
- 公司新聞
- 行業新聞
-
關于我們
- 公司簡介
- 聯系方式
- 加入我們
- 咨詢服務
-
首頁
-
技術與產品
- 智能硬件
- 工業互聯
- ? 邊緣網關
- ? LoRaWAN組網
- ? 電力線載波通訊模組
- ? 閥門控制器
- ? PLC數據采集網關
- 電力
- ? 一鍵順控裝置
- ? 底盤車物聯網控制器
- ? 機械特性監測裝置
- ? 低壓綜保控制模塊
- 智能硬件
- 新能源
- ? 清潔機器人控制器
- ? 逆變器數據采集網關
- ? 紅外抄表采集裝置
- ? 儲能EMS管理機
- ? 就地顯示屏
- 平臺軟件
- ? 成套設備在線監測平臺
- ? 智能開關柜專家診斷系統
- ? 母線槽智能在線監測平臺
- ? 光伏清潔機器人遠程運維平臺
- ? 光伏電站遠程運維平臺
- ? 新型儲能管理系統EMS
- AI智能體
- ? 智能畫圖機器人
-
解決方案
- 新能源
- “無人值守”光伏電站智能運維解決方案
- 光伏清潔機器人智能控制和運維解決方案
- 光伏柔性支架在線監測物聯網解決方案
- 場站光伏組件缺陷現場檢測解決方案
- 新型儲能管理系統(EMS)解決方案
- 直流電源屏在線監測解決方案
- 電力
- 成套開關柜在線監測物聯網解決方案
- 中低壓電氣設備智能化升級解決方案解決方案
- 多模態智能感知、一鍵順控專家系統
- 真空斷路器智能化解決方案
- 操作機構機械特性物聯網軟硬件一站式解決方案
- 母線槽智能在線監測解決方案
- 低壓綜保模塊智能解決方案
- 工地臨時配電箱在線監測物聯網解決方案
- 機械裝備
- 變頻器物聯網軟硬件一站式解決方案解決方案
- 科研儀器在線監測物聯網解決方案
- 智能割草機遠程控制物聯網解決方案
- 工業縫紉機物聯網解決方案
- 電梯空調遠程監控物聯網解決方案
- 碼頭卸船機遠程運維物聯網解決方案
- 鋸床在線監測物聯網解決方案
- 礦山機械遠程運維物聯網解決方案
- 智慧水務
- 水泵物聯網軟硬件一體化解決方案
- 萬州城區智慧排水體系升級解決方案
- 智慧供暖
- 智慧供暖全景運營物聯網解決方案
- 空氣源熱泵熱站專項系統
- 智慧供熱用戶繳費平臺系統
- 智慧供熱用戶監控平臺系統
-
成功案例
- 電力
- 基于多源數據融合的高壓斷路器健康管理系統設計項目
- 高壓斷路器數據采集與故障診斷技術研究項目
- 新能源
- 基于無人值守的大跨距高凈空的柔性大型光伏電站智能在線監控項目
- 基于數據挖掘的光伏電站遠程運維技術項目
- 機械裝備
- 萬州城區智慧排水體系升級排水設施安全監測項目建設實施方案
- 智慧供暖全景運營物聯網解決方案項目
- 空氣源熱泵熱站專項系統熱站監控系統項目
- 智慧供熱用戶繳費平臺系統項目
- 智慧供熱用戶監控平臺系統項目
-
新聞中心
- 公司新聞
- 行業新聞
-
關于我們
- 公司簡介
- 聯系方式
- 加入我們
- 咨詢服務
-
首頁_07180934_815_10151909_993
-
首頁_07180934_815
-
首頁_old
-
首頁_250319
-
首頁_03251519_245
-
首頁_07180934_815_10151909_993
-
首頁_07180934_815
-
首頁_old
-
首頁_250319
-
首頁_03251519_245
【行業動態】勝率直逼人類大師!這套Agent揭開中國AI「玄學真相」
把當前最先進的通用大模型,放在中國傳統術數專業選擇題(四選一)面前,會發生什么?

需要說明的是,評測對通用模型已經做了「讓步」:所有基線模型的Prompt中都提供了預計算的盤面數據,避免引入計算幻覺,而是直接考察推理能力。
DestinyLinker研究團隊基于術數大賽(HKJFMA主辦,3069名選手參與)的官方題庫的評測集基準Mingli-Bench,測試了當下主流大模型,技術報告和測試結果在x上獲得了百萬關注。

MingLi-Bench開源倉庫:https://github.com/DestinyLinker/MingLi-
Bench Tianfu Agent技術報告:https://destinylinker.github.io/MingLi-Bench/
結果有點意外,這些模型在這套幾乎沒有信息泄漏的最新比賽選擇題上,準確率清一色徘徊在23%到40%之間。
注意,四選一選擇題的隨機猜測線就是25%。
為了驗證模型能力能否支撐專業術數推理,該團隊研發了Tianfu Agent的系統,實現一整套針對中國傳統術數領域harness工程系統——
200多個原子工具、3大流派規則函數庫、多Sub-Agent協作,以及一套貫穿全鏈路的置信度量化機制,一舉達到了50%的截尾準確率,逼近本屆賽事人類Top 20選手的平均水平53.5%。

Harness之路
編碼智能體的經驗還遠遠不夠
本測試案例使用了馬斯克命盤,測試中的1971/12/30并非其真實生日,因為他出生于南半球,需對其生辰進行節氣轉換
Claude Code、Cursor這些工具在復雜工程任務中表現良好,不是因為模型本身變強了,而是它被放進了一個領域專用的工具環境里,有文件I/O,有終端,有測試反饋。
Tianfu Agent把同樣的邏輯搬進了中國傳統術數領域,在推理鏈路上,采用多Sub-Agent協作的漸進式發現策略:多個Sub-Agent各自維護獨立的工具集和上下文,并根據環境反饋逐步展開推理。
然而,僅依靠Coding Agent的成功經驗還是遠遠不夠的,例如:
-
除了常見的刑沖查詢、飛宮路徑等,術數領域還涉及大量數據邏輯運算,此部分由大模型生成并不可靠,但一次性交給模型調用又會污染上下文;
-
規則需要經驗選擇,并非使用越多越好,且每一條規則的使用后都可能出現矛盾的結論;
-
缺乏「單元測試」等輔助驗證手段,在長鏈路推理下,很容易積累偏差。
其他垂直領域應用,如醫療、法律等很可能也面臨著類似的困境
200多個工具如何管理?
四級可見性控制
通用Agent用十幾個工具就夠了,200+工具帶來的第一個工程問題不是「能不能寫出來」,而是模型選不對。
該研究團隊按「LLM可理解性」和「可窮舉性」兩個維度,將工具分成四級:
-
自動注入型(可理解+可窮舉):十神、星耀、宮位等零歧義概念,自動加載到上下文中,不需要模型選擇。
-
按需調用型(可理解+不可窮舉):生克關系、飛宮計算等,模型能理解語義并自行判斷參數。
-
轉譯調用型(不可理解+可窮舉):模型容易產生歧義或非市面常見的專業術語,通過預設翻譯層轉換工具名稱后調用。
-
觸發注入型(不可理解+不可窮舉):僅特定Sub-Agent可調用,并配備專屬背景知識和校驗方法。
這套機制的核心是動態控制工具的可見范圍——不同推理階段、不同Sub-Agent看到的工具集不同,避免選項過載導致的選擇退化。
這個思路對其他垂直領域的Agent開發有一定參考價值:當工具數量超過模型的可靠選擇閾值后,工具管理本身就成了一個獨立的工程問題。

繁雜規則怎么用?
也封裝成可調用函數
通用Agent經常把規則寫進System Prompt或Few-shot,本質是讓模型「記住并遵循」。
術數領域規則繁雜(僅子平母法就超過百條)、適用條件互相耦合、流派之間還會互相矛盾,靠記憶遵循的直接后果就是選擇性忽略、推理路徑不可控。
Tianfu Agent的做法,是把每一條復雜規則封裝成一個帶元數據的可調用函數。
人類專家預先標注適用場景、時間跨度、事件類型、優先級;函數內部可以再調LLM;輸入盤面狀態,返回結論和置信度;只在滿足驗證時才注入上下文。
這一步等于把LLM從「記規則的考生」變成「調規則的工程師」——規則不再是Prompt里一段需要模型自覺遵守的文字,而是一個有明確簽名和觸發條件的工程構件。
沒有單元測試?
三層不確定性量化
編碼Agent的一個天然優勢是有「測試」作為驗證手段。
代碼寫完跑測試,通過就是正反饋,失敗就有明確的報錯信息。
術數領域,或者說絕大多數專業領域,都沒有這個條件實現所謂的「單元測試」。
Tianfu Agent的方案是引入不確定性量化,在三個層面給出置信度評估:
-
工具輸出層:非確定性工具(如強弱判斷、多象吉兇)由內置算法提供置信度,直接由算法層面進行確定性評估。
-
Sub-Agent層:每個子智能體在單一理論體系下完成推理后,由LLM自評本次推理結論中每個觀點的顯著性。
-
多流派合參層:不同流派的結論可能相互矛盾,通過人工經驗置信度加權調和,再次進行判斷。
這不是一個能替代“自動驗證”的方案——在報告中也坦承了這一點。但在缺乏驗證手段的領域,「知道自己有多不確定」本身就是有價值的信息,至少給上層決策提供了量化參考,而非將所有結論等權堆砌。
如果用一句話總結這套harness的設計哲學:在Tianfu Agent里,工具不僅是計算函數,它還包括規則、子推理流程,乃至Sub-Agent本身。
對垂直領域Agent落地的啟示
拋開領域特殊性本身不談,這個項目提供了一些對垂直領域Agent開發有參考價值的工程經驗:
-
工具化范式,在「規則密集+語料稀缺」的領域收益最大。通用領域的模型已經從海量語料中內化了規則,工具環境是錦上添花。但在訓練數據極少的垂直領域,工具環境直接彌補了模型的知識盲區,Tianfu Agent比最強通用模型高出10個百分點即為例證。
-
工具數量膨脹后,工具管理本身成為獨立的工程問題。四級分類加動態注入的思路,對其他需要大量專業工具的垂直Agent有直接借鑒意義。
-
在缺乏自動驗證的領域,不確定性量化是務實的次優方案。編碼Agent有測試,醫療Agent有循證指南,但很多領域沒有——雖然術數是一個極端案例,但這種情況下置信度機制的作用值得關注。
-
「知識即接口」,在規則密度高的場景比「知識即提示詞」更可靠。把規則從Prompt搬進函數,是解決模型長上下文「選擇性失憶」的一種直接手段。
Coding Agent的Harness時代已經到來。Tianfu Agent某種程度上證明了,這條路不只屬于編程——在足夠結構化的垂直領域,該范式可能同樣成立。
注:文章來源于微信公眾號《新智元》。
