eeymoo/ai-agent-deep-dive

Fork 0

mirror of https://github.com/tvytlx/ai-agent-deep-dive.git synced 2026-04-03 15:44:49 +08:00

Files

Shawn Bot 3e979daa61 Add teaching Python agent CLI with Poetry and CI

2026-04-02 10:09:34 +00:00

3.3 KiB

Raw Blame History

00. 产品总览需求文档

1. 产品定义

这是一款面向软件工程任务的交互式 AI 执行系统。它不是单纯的聊天机器人，也不是只会调用几个工具的脚本外壳，而是一套把推理、工具、权限、任务拆解、记忆、扩展机制与用户交互统一起来的产品系统。

2. 产品目标

产品需要满足以下目标：

帮助用户完成真实的软件工程任务，而不只是提供建议
在执行过程中保持安全、可控、可恢复
让复杂任务可以分解、委派、验证、追踪
让系统可以扩展新的技能、插件与外部工具能力
让长期使用形成可积累的记忆和工作习惯

3. 核心用户

3.1 主要用户

独立开发者
工程师
技术产品经理
有代码任务但希望借助 AI 提升效率的操作者

3.2 用户的核心诉求

我不只想问问题，我想让系统帮我做事
我不只想生成代码，我想让它真正改动项目并验证结果
我不只想要一次回答，我想让它持续推进任务
我不只想在一个固定产品里工作，我希望它能接入我自己的工具和工作流

4. 产品要解决的核心问题

4.1 普通聊天模型的问题

普通聊天模型的核心局限是：

只做一次性回答
没有稳定执行能力
没有工具治理
没有任务状态
没有长期上下文管理
无法形成可扩展工作流

4.2 简单 Agent 的问题

简单 Agent 虽然能调用工具，但通常会遇到：

行为发散
工具滥用
缺乏权限约束
上下文污染
任务过程不可追踪
做完后不验证
无法优雅扩展

因此，本产品的需求本质上是在解决：

如何把“模型 + 工具”升级成一个可用、可控、可扩展、可产品化的软件工程执行系统。

5. 顶层产品能力

根据源码结构反推，这套产品至少需要以下一级能力：

系统提示词编排能力
工具发现、执行与治理能力
多 Agent 调度能力
Skills / Plugins / MCP 扩展能力
Memory / Session 管理能力
命令系统与交互界面能力
任务与后台执行能力
验证与质量保证能力
Telemetry / Transcript / 可追溯能力

6. 顶层非功能需求

6.1 安全性

危险操作必须可拦截
外部工具结果必须被视为潜在不可信输入
用户必须能控制权限边界

6.2 可恢复性

会话可恢复
任务状态可追踪
子任务生命周期可清理

6.3 可扩展性

外部工具可接入
自定义技能可接入
插件可注入命令、技能和行为约束

6.4 成本控制

提示词拼装要考虑缓存
上下文使用要考虑预算
大任务要支持压缩和摘要

7. 产品价值主张

如果从需求层面概括，这套产品的价值主张不是“回答更聪明”，而是：

更稳定地执行任务
更安全地调用能力
更可控地使用 AI
更容易把 AI 接入真实工程工作流

8. 一个产品经理视角下的总需求句

可以用一句话总结：

用户需要的不是一个会聊天的模型，而是一个能够在真实工程环境中持续推进任务、遵守约束、调用工具、拆分工作、保留上下文并可被验证的 AI 软件工程操作系统。

3.3 KiB Raw Blame History