做一个架构决策,问 GPT 它自信地给方案 A,问 Claude 它同样自信地给方案 B,方向相反。换成两个人类同事,我会让他们当面辩论,再多拉几个人——凭什么面对 AI 就降低标准?
Karpathy 的 llm-council 验证了概念:多个模型先独立回答,再匿名互评,最后综合。但他自己说「不会维护」——那只是个要起前后端、靠多个 API 的网页玩具。我决定把它做成每天能用的东西。
Agent 会成为每个人日常工作的入口,而公司里所有人都能打开 Trae——那这个智囊团就该长在 Trae 里。
遇到拿不准的问题,不用切出去找人,说一句「帮我问问智囊团」,Trae 自己召集 N 个模型开会,几分钟后把综合意见递回来。
前提只有两个:一个 Agent 环境和 traecli。之后 Agent 自己装依赖、跑智囊团、校验结果、返回报告,全程不需要人手动配置。
N 个不同厂商、不同架构的模型并发回答同一个问题。不是一个模型换参数假装多样性——真正的并发,不排队。
模型互相评审、排名,但彼此匿名。谁也不知道哪条答案出自谁,把"作者光环"从评判里剥掉。
主持汇总成一份意见,且每句话都标注来自哪位成员——能看出它是在综合,还是在当复读机。
|
A不排队
N 个模型并发调用,不同厂商、不同架构,天然带来视角差异,而不是单一模型的回声。 |
B不偷换
每次调用都记录预期模型与实际模型,对不上直接报失败。你选的什么,跑的就是什么。 |
|
C不黑箱
每次运行保存完整记录,主持每句话标注来源——像翻会议记录一样可复盘。 |
D降级不死
1-2 个成员超时或挂掉,智囊团照常出结果。部分失败不等于整体失败。 |
|
1主持会抄袭
第一版主持在"拼接",把成员的段落原封照搬。于是加贡献溯源:每句话必须标注来源,一眼看穿复读机。 |
2模型会挂且没规律
返回速度差 10 倍、偶发超时、格式出错。改并发 + 降级:不低于 3 个回答就继续,掉线不阻塞。 |
|
3Agent 跑不起来
Agent 不会看日志调环境。于是所有命令加 |
4证据链会断
报告文件存在却是上次的残留。于是每阶段独立产出、文件名含运行编号、校验命令查全链路一致性。 |
我让 Agent 写代码、跑测试,它说「测试全部通过」我就信了——直到换台机器拉代码,跑不起来。它没撒谎:它说的"通过"是当前工作区、当前分支、当前会话没报错。但这和我以为的"通过"不是一件事。
跑完就说"真实运行成功"。
就说"主分支可用"。
就说"校验通过"。
大多数人本地跑通就算做完。我要求换个环境从头来一遍也能跑通。
| 层级 | 含义 | 说人话 |
|---|---|---|
| L1 | 本地写完 + 测试通过 | 在我自己电脑上能跑 |
| L2 | 独立审查 + 代码合并 | 有人帮我看过了,确认没问题 |
| L3 | 换一台干净电脑,从零跑通全流程并复核结果 | 换个人换个环境也一样能跑起来 |
| 维度 | LCT | 单模型问答 | Karpathy 原版 |
|---|---|---|---|
| 形态 | 命令行工具,一条命令 | 网页 / App | 网页应用,需起前后端 |
| 模型数量 | N 个不同厂商 | 1 个 | 4 个 |
| 防模型偷换 | 严格校验 | 无 | 无 |
| 贡献溯源 | 主持每句话标注来源 | 无 | 无 |
| 降级容错 | 部分挂不影响整体 | 不适用 | 无 |
| 维护状态 | 持续迭代 | — | 作者声明不再维护 |
对 Agent 说:「从 GitHub 仓库 LLM-Council-for-Trae 安装最新版 LCT。」它自己 clone、安装、验证环境。
在任意目录说:「使用 LCT,回答:你的问题。」它自动发起智囊团、走完三阶段、校验并生成报告。