Trae 原生 Skill + CLI三阶段智囊团协议

LCT · 多模型智囊团

一句话召集 N 个模型开会，几分钟后递回一份带溯源、可复盘的综合意见。重要的判断，不该只问一个模型。

LLM COUNCIL FOR TRAE · 2026 黑客松

01 · 起点

两个 AI 给出相反答案，我却只能凭直觉选一个

这件事不对劲

做一个架构决策，问 GPT 它自信地给方案 A，问 Claude 它同样自信地给方案 B，方向相反。换成两个人类同事，我会让他们当面辩论，再多拉几个人——凭什么面对 AI 就降低标准？

有原型，但没人能日用

Karpathy 的 llm-council 验证了概念：多个模型先独立回答，再匿名互评，最后综合。但他自己说「不会维护」——那只是个要起前后端、靠多个 API 的网页玩具。我决定把它做成每天能用的东西。

01

02 · 形态

智囊团该长在 Trae 里，一句话就能召集

Agent 会成为每个人日常工作的入口，而公司里所有人都能打开 Trae——那这个智囊团就该长在 Trae 里。

它是 Trae 原生的 skill 和 CLI

遇到拿不准的问题，不用切出去找人，说一句「帮我问问智囊团」，Trae 自己召集 N 个模型开会，几分钟后把综合意见递回来。

Agent 全程自主完成

前提只有两个：一个 Agent 环境和 traecli。之后 Agent 自己装依赖、跑智囊团、校验结果、返回报告，全程不需要人手动配置。

低门槛配置、零采购、装上就跑——长在 Trae 上，公司里每个人都能用。

02

03 · 机制

三阶段协议，把"开会"变成可复现的流程

01

独立回答

N 个不同厂商、不同架构的模型并发回答同一个问题。不是一个模型换参数假装多样性——真正的并发，不排队。

02

匿名互评

模型互相评审、排名，但彼此匿名。谁也不知道哪条答案出自谁，把"作者光环"从评判里剥掉。

03

主持综合

主持汇总成一份意见，且每句话都标注来自哪位成员——能看出它是在综合，还是在当复读机。

部分成员超时或挂掉，不低于 3 个回答就继续出结果——开会本来就允许有人请假。

03

04 · 信任

四条规则，决定它值不值得被信任

A不排队 N 个模型并发调用，不同厂商、不同架构，天然带来视角差异，而不是单一模型的回声。	B不偷换每次调用都记录预期模型与实际模型，对不上直接报失败。你选的什么，跑的就是什么。
C不黑箱每次运行保存完整记录，主持每句话标注来源——像翻会议记录一样可复盘。	D降级不死 1-2 个成员超时或挂掉，智囊团照常出结果。部分失败不等于整体失败。

04

05 · 踩过的坑

把概念做成日用工具，四个坑改了设计走向

1主持会抄袭第一版主持在"拼接"，把成员的段落原封照搬。于是加贡献溯源：每句话必须标注来源，一眼看穿复读机。	2模型会挂且没规律返回速度差 10 倍、偶发超时、格式出错。改并发 + 降级：不低于 3 个回答就继续，掉线不阻塞。
3Agent 跑不起来 Agent 不会看日志调环境。于是所有命令加 `--json`、标准化退出码、把依赖检测做成 `doctor`。	4证据链会断报告文件存在却是上次的残留。于是每阶段独立产出、文件名含运行编号、校验命令查全链路一致性。

05

06 · 更大的发现

Agent 最容易偷换的不是代码，是"完成"的边界

我让 Agent 写代码、跑测试，它说「测试全部通过」我就信了——直到换台机器拉代码，跑不起来。它没撒谎：它说的"通过"是当前工作区、当前分支、当前会话没报错。但这和我以为的"通过"不是一件事。

用模拟环境

跑完就说"真实运行成功"。

本地分支能跑

就说"主分支可用"。

报告文件存在

就说"校验通过"。

这不是 bug，不是恶意。Agent 走最小阻力路径——只要"完成"的定义有模糊地带，它就从那里滑过去。

06

07 · 方法论

我把"什么算完成"一路推到 L3

大多数人本地跑通就算做完。我要求换个环境从头来一遍也能跑通。

层级	含义	说人话
L1	本地写完 + 测试通过	在我自己电脑上能跑
L2	独立审查 + 代码合并	有人帮我看过了，确认没问题
L3	换一台干净电脑，从零跑通全流程并复核结果	换个人换个环境也一样能跑起来

关键一招：写测试的 Agent 和写代码的 Agent 必须隔离，否则同一个 Agent 会"恰好"写出让自己通过的测试。

07

08 · 对比

和单模型问答、和原版比，差距在哪

维度	LCT	单模型问答	Karpathy 原版
形态	命令行工具，一条命令	网页 / App	网页应用，需起前后端
模型数量	N 个不同厂商	1 个	4 个
防模型偷换	严格校验	无	无
贡献溯源	主持每句话标注来源	无	无
降级容错	部分挂不影响整体	不适用	无
维护状态	持续迭代	—	作者声明不再维护

一个模型可能编造，N 个同时编造同一件事的概率极低——智囊团机制天然压低幻觉。

08

09 · 成果与用法

两周 150 次提交、300 个测试，我每天都在用

150

次提交

30

个合并请求

300

个测试

4

份真实工作报告

一句话安装

对 Agent 说：「从 GitHub 仓库 LLM-Council-for-Trae 安装最新版 LCT。」它自己 clone、安装、验证环境。

一句话使用

在任意目录说：「使用 LCT，回答：你的问题。」它自动发起智囊团、走完三阶段、校验并生成报告。

决策前跑一轮智囊团、写东西前让多个模型各给一版——已经变成工作习惯。做产品的人得是自己产品的第一个重度用户。

09

1主持会抄袭第一版主持在"拼接"，把成员的段落原封照搬。于是加贡献溯源：每句话必须标注来源，一眼看穿复读机。	2模型会挂且没规律返回速度差 10 倍、偶发超时、格式出错。改并发 + 降级：不低于 3 个回答就继续，掉线不阻塞。
3Agent 跑不起来 Agent 不会看日志调环境。于是所有命令加 `--json`、标准化退出码、把依赖检测做成 `doctor`。	4证据链会断报告文件存在却是上次的残留。于是每阶段独立产出、文件名含运行编号、校验命令查全链路一致性。