Trae 原生 Skill + CLI三阶段智囊团协议

LCT · 多模型智囊团

一句话召集 N 个模型开会,几分钟后递回一份带溯源、可复盘的综合意见。重要的判断,不该只问一个模型。
LLM COUNCIL FOR TRAE · 2026 黑客松
01 · 起点

两个 AI 给出相反答案,我却只能凭直觉选一个

这件事不对劲

做一个架构决策,问 GPT 它自信地给方案 A,问 Claude 它同样自信地给方案 B,方向相反。换成两个人类同事,我会让他们当面辩论,再多拉几个人——凭什么面对 AI 就降低标准?

有原型,但没人能日用

Karpathy 的 llm-council 验证了概念:多个模型先独立回答,再匿名互评,最后综合。但他自己说「不会维护」——那只是个要起前后端、靠多个 API 的网页玩具。我决定把它做成每天能用的东西。

01
02 · 形态

智囊团该长在 Trae 里,一句话就能召集

Agent 会成为每个人日常工作的入口,而公司里所有人都能打开 Trae——那这个智囊团就该长在 Trae 里。

它是 Trae 原生的 skill 和 CLI

遇到拿不准的问题,不用切出去找人,说一句「帮我问问智囊团」,Trae 自己召集 N 个模型开会,几分钟后把综合意见递回来。

Agent 全程自主完成

前提只有两个:一个 Agent 环境和 traecli。之后 Agent 自己装依赖、跑智囊团、校验结果、返回报告,全程不需要人手动配置。

低门槛配置、零采购、装上就跑——长在 Trae 上,公司里每个人都能用。
02
03 · 机制

三阶段协议,把"开会"变成可复现的流程

01

独立回答

N 个不同厂商、不同架构的模型并发回答同一个问题。不是一个模型换参数假装多样性——真正的并发,不排队。

02

匿名互评

模型互相评审、排名,但彼此匿名。谁也不知道哪条答案出自谁,把"作者光环"从评判里剥掉。

03

主持综合

主持汇总成一份意见,且每句话都标注来自哪位成员——能看出它是在综合,还是在当复读机。

部分成员超时或挂掉,不低于 3 个回答就继续出结果——开会本来就允许有人请假。
03
04 · 信任

四条规则,决定它值不值得被信任

A不排队

N 个模型并发调用,不同厂商、不同架构,天然带来视角差异,而不是单一模型的回声。

B不偷换

每次调用都记录预期模型与实际模型,对不上直接报失败。你选的什么,跑的就是什么。

C不黑箱

每次运行保存完整记录,主持每句话标注来源——像翻会议记录一样可复盘。

D降级不死

1-2 个成员超时或挂掉,智囊团照常出结果。部分失败不等于整体失败。

04
05 · 踩过的坑

把概念做成日用工具,四个坑改了设计走向

1主持会抄袭

第一版主持在"拼接",把成员的段落原封照搬。于是加贡献溯源:每句话必须标注来源,一眼看穿复读机。

2模型会挂且没规律

返回速度差 10 倍、偶发超时、格式出错。改并发 + 降级:不低于 3 个回答就继续,掉线不阻塞。

3Agent 跑不起来

Agent 不会看日志调环境。于是所有命令加 --json、标准化退出码、把依赖检测做成 doctor

4证据链会断

报告文件存在却是上次的残留。于是每阶段独立产出、文件名含运行编号、校验命令查全链路一致性。

05
06 · 更大的发现

Agent 最容易偷换的不是代码,是"完成"的边界

我让 Agent 写代码、跑测试,它说「测试全部通过」我就信了——直到换台机器拉代码,跑不起来。它没撒谎:它说的"通过"是当前工作区、当前分支、当前会话没报错。但这和我以为的"通过"不是一件事。

用模拟环境

跑完就说"真实运行成功"。

本地分支能跑

就说"主分支可用"。

报告文件存在

就说"校验通过"。

这不是 bug,不是恶意。Agent 走最小阻力路径——只要"完成"的定义有模糊地带,它就从那里滑过去。
06
07 · 方法论

我把"什么算完成"一路推到 L3

大多数人本地跑通就算做完。我要求换个环境从头来一遍也能跑通。

层级含义说人话
L1本地写完 + 测试通过在我自己电脑上能跑
L2独立审查 + 代码合并有人帮我看过了,确认没问题
L3换一台干净电脑,从零跑通全流程并复核结果换个人换个环境也一样能跑起来
关键一招:写测试的 Agent 和写代码的 Agent 必须隔离,否则同一个 Agent 会"恰好"写出让自己通过的测试。
07
08 · 对比

和单模型问答、和原版比,差距在哪

维度LCT单模型问答Karpathy 原版
形态命令行工具,一条命令网页 / App网页应用,需起前后端
模型数量N 个不同厂商1 个4 个
防模型偷换严格校验
贡献溯源主持每句话标注来源
降级容错部分挂不影响整体不适用
维护状态持续迭代作者声明不再维护
一个模型可能编造,N 个同时编造同一件事的概率极低——智囊团机制天然压低幻觉。
08
09 · 成果与用法

两周 150 次提交、300 个测试,我每天都在用

150
次提交
30
个合并请求
300
个测试
4
份真实工作报告

一句话安装

对 Agent 说:「从 GitHub 仓库 LLM-Council-for-Trae 安装最新版 LCT。」它自己 clone、安装、验证环境。

一句话使用

在任意目录说:「使用 LCT,回答:你的问题。」它自动发起智囊团、走完三阶段、校验并生成报告。

决策前跑一轮智囊团、写东西前让多个模型各给一版——已经变成工作习惯。做产品的人得是自己产品的第一个重度用户。
09