# 策展 · X (Twitter) 🔥

> 作者：H (@hcompany_ai) · 平台：X (Twitter) · 日期：2026-04-01

> 原始來源：https://x.com/hcompany_ai/status/2039021096649805937

## 中文摘要

「H Company」於 2026 年 3 月 31 日發布了全新「Holo3」系列電腦操作模型，該模型在「OSWorld-Verified」基準測試中取得 78.9% 的高分，以僅十分之一的成本超越了「GPT-5.4」與「Opus 4.6」。此系列不僅是基準測試的領先者，更透過其獨特的「Agentic Learning Flywheel」架構，為企業級 Agent 的部署與建構提供了全新的解決方案。

**核心效能與成本優勢**
「Holo3」系列包含兩款主要模型，皆透過「Inference API」提供服務，並強調在極低運算成本下實現頂尖效能：
- 「Holo3-122B」：作為該系列最強大的模型，具備 10B 的活躍參數，輸入成本為每百萬 token 0.40 美元，輸出成本為 3.00 美元。
- 「Holo3-35B」：基於「Qwen3.5」架構，具備 3B 活躍參數，以「Apache 2.0」授權於「Hugging Face」開源，輸入成本為每百萬 token 0.25 美元，輸出成本為 1.80 美元。

**技術架構與訓練機制**
「Holo3」的核心競爭力源於其特有的「Agentic Learning Flywheel」（代理學習飛輪）訓練管道，旨在強化感知與決策兩大支柱：
- 合成導航資料：透過人類與機器生成的指令，建立場景導航範例。
- 領域外增強：以程式化方式擴展場景，確保模型能應對未預期的數位環境變化。
- 強化學習：透過先進的資料過濾與強化學習管道，持續優化模型表現。
- 驗證機制：利用「Synthetic Environment Factory」自動建構企業級環境，並透過「End to End (端到端)」腳本驗證任務執行成果。

**實際應用與評測標準**
為了驗證模型在真實商業場景的可用性，開發團隊設計了「H Corporate Benchmarks」，包含 486 項涵蓋電子商務、商業軟體、協作工具及多應用程式工作流的複雜任務。該評測強調模型在跨系統協調資訊時的穩定性，例如在處理「從 PDF 擷取設備價格並對照預算後自動發送郵件」等長序列任務時，模型必須在不丟失狀態或意圖的情況下，進行多步驟推理。

**未來展望與定位**
「H Company」明確指出，「Holo3」雖已在「OSWorld-Verified」與「ScreenSpot-Pro」等測試中展現頂尖的介面定位與功能理解能力，但這並非終點。團隊目前正致力於開發「Adaptive Agency」（適應性代理），目標是讓模型不僅能使用已知工具，還能即時自主學習並導航全新的客製化企業軟體，進一步落實「Autonomous Enterprise」（自主企業）的願景。

## 標籤

新產品, Agent, Benchmark, AIGC, H Company
