中文書法是一項前沿任務
中文書法是一項前沿任務
前沿模型(Frontier models)能夠掌握中文書法的藝術嗎?我們向它們發起挑戰,要求它們重現 20 位書法大師所寫的 88 個高難度漢字。
動機:受限的美學操縱
前沿模型在工具使用、數學和程式撰寫等具備可驗證環境的領域中獲益良多。這些模型在形狀旋轉方面表現極佳,但在視覺和美學感知方面仍有很大的進步空間。特別是,前沿模型在「受限的美學操縱」(constrained aesthetic manipulation)方面尚未展現出令人信服的能力——即在人類可編輯媒介(如 XML、React、Figma)和參考資料的限制下,操縱並產出美學物件的能力。

為了在受限的美學操縱中取得成功,Agent 必須掌握細粒度的工具使用、細膩的感知以及長程規劃能力。在此,我們提出將中文書法作為一項複雜度適中且具備上述三種特性的美學操縱任務。
Calligraphy-Bench
基於這項挑戰,我們推出了 Calligraphy-Bench。我們的基準測試包含 88 個因難度(10-25 筆畫)而挑選出的漢字,每個漢字都配有一張來自 20 位書法大師的參考書法影像,涵蓋楷書、行書、草書和狂草風格。參考影像來源於 Kaggle 上的「Chinese Calligraphy Styles by Calligraphers」資料集(包含 53,000 多張影像,超過 200 位書法家)。標準筆順和幾何結構來自 makemeahanzi,該專案提供了源自 Unihan 資料庫的 9,574 個漢字的 SVG 筆畫路徑和中線。



模型透過 MCP 工具與畫布進行互動。參考影像以視覺訊息的形式提供;Agent 無法透過程式方式存取其像素。除此之外,Agent 可以存取工作區並執行程式碼,以建構傳遞給 create_stroke 的點集合。Agent 可以控制每個筆畫的位置、壓力(粗細變化)和大小。最後一次呼叫 save_document 的結果將作為最終的書法作品提交。

在實作方面,我們使用 OpenHands Python SDK 作為我們的 Agent 框架,並使用 tldraw 作為渲染書法的畫布。

書法回饋
我們從三個維度進行評估。筆畫召回率(Stroke Recall)衡量 Agent 重現了多少比例的標準筆畫。筆畫順序(Stroke Order)檢查匹配的筆畫是否按照正確的書法順序繪製。視覺保真度(Visual Fidelity)使用結構化評分標準,由視覺評審列出參考影像與 Agent 輸出之間的所有可見差異,並歸類於以下六個書法維度之一:
整體風格 (Overall style) — 正式與隨性、優雅與粗獷、內斂與奔放。如果將解析度模糊化,它們是否難以區分?
筆畫粗細 (Stroke contrast) — 粗筆與細筆、壓力、對比度、筆畫平滑度。
筆畫形態 (Stroke shape) — 轉折處的尖銳與圓潤、收筆處的尖細與鈍拙、曲率、接合處的銳利度。
結構比例 (Proportions) — 部件大小、偏旁間距、寬高比。
氣韻節奏 (Flow & rhythm) — 筆畫如何連接與流動、斷開與連接、速度感、基線穩定性。
部件準確 (Component fidelity) — 特定的偏旁和子部件是否正確形成?
評審隨後給出 1–5 分的判決:
5 — 近乎相同
4 — 風格相同,僅有 1–2 處細微差異
3 — 有顯著差異
2 — 風格不同,但字體正確
1 — 字體損毀
此外,我們使用 MJ1 視覺評審對所有模型輸出進行兩兩對決(head-to-head)比較,得出每個漢字的勝率。

前沿模型表現
值得注意的是,每個模型在視覺保真度上的得分都低於 2.5/5,這意味著沒有一個模型能夠始終如一地捕捉到參考漢字的美學精髓。
GPT-5.4 以 75% 的兩兩對決勝率領先,其次是 Opus 4.6(60%)、Kimi K2.5(34%)和 GLM-5(30%)。Opus 達到了最高的筆畫召回率(89%),而 GPT-5.4 在視覺保真度(2.2/5)和筆畫順序(82%)上領先。特別是 GLM,有時會誤認其應繪製的漢字,產生幻覺而繪製出與參考影像不同的字。

模型如何處理任務

Opus 4.6 每個任務平均僅進行 2.0 次筆畫修訂,顯示其採取「先規劃後執行」的方法。GPT-5.4 每個漢字產生的筆畫最多(22.7 筆),且最願意使用 clear_canvas 並重新開始。GLM-5 採取的 Agent 步驟最多(每個任務 36.5 步),自我檢查最頻繁(每個任務 4.2 次截圖),但產生的筆畫最少(13.5 筆)——花在迭代上的時間比繪畫還多。Kimi K2.5 的 update_stroke 比率最高(每個任務 7.3 次),且在不同任務間表現出極大的差異。
GLM-5 在其思維鏈(chain of thought)中使用了書法術語(橫、豎、撇、捺),但在將這些知識轉化為準確的空間座標時卻顯得吃力——有時甚至會產生幻覺而繪製出完全不同的字,完全忽略了參考影像。


探索資料
在下方,您可以查看每個模型在所有 88 個漢字上的書寫成果。每一行都展示了參考書法以及每個模型的嘗試,並提供逐筆重播功能。完整的資料集——包括參考影像、模型輸出、評估分數和解碼後的筆畫資料——皆可在 HuggingFace 上取得。

致我們的祖先
上週末是清明節,也就是「掃墓節」。這是一個哀悼的日子,但同時也是紀念和慶祝祖先的日子。書法是我祖父最喜歡的消遣之一,我對看著他進入冥想般專注狀態的記憶非常深刻。這可能是我能回憶起關於「絕對純粹的專注」是什麼樣子的最早例子。
Calligraphy-Bench 是對他、對他所有的祖先,以及我們所有祖先的一首頌歌。能活在歷史的這一刻,是何等的榮幸。我知道我的祖父會對這一切的變化感到驚訝、有趣且著迷。
我希望我能讓他感到驕傲。我希望我們能讓所有的祖先感到驕傲。
Calligraphy-Bench 完整連結
網站:calligraphybench.com
排行榜
資料集
GitHub
語意可觀測性報告 (Semantic Observability report)
