第一章: AI Agent核心概念
什么是AI Agent
AI Agent(智能代理)= 能够自主感知环境、做出决策、执行行动以达成目标的AI系统。
Agent vs 传统ChatGPT
| 对比维度 | 传统ChatGPT | AI Agent |
|---|---|---|
| 交互方式 | 单次对话 | 多轮自主决策 |
| 能力边界 | 文本生成 | 调用工具、执行任务 |
| 工作流程 | 用户提问→AI回答 | 目标→规划→执行→反馈 |
| 典型应用 | 问答、写作 | 自动化任务、复杂决策 |
示例对比:
任务:帮我订一张明天去北京的机票
传统ChatGPT:
- 回复:"您可以访问携程网站..."
- 需要人工完成所有步骤
AI Agent:
1. 搜索航班信息
2. 对比价格
3. 调用订票API
4. 完成支付
5. 发送确认邮件
→ 全程自动化
Agent核心组件
1. 感知(Perception)
作用:理解环境和任务
技术:NLP、CV、传感器数据
示例:读取用户需求、分析网页内容
2. 决策(Planning)
作用:制定行动计划
技术:ReAct、Chain-of-Thought
示例:将"订机票"分解为子任务
3. 执行(Action)
作用:调用工具完成任务
技术:API调用、工具使用
示例:搜索引擎、数据库查询、发送邮件
4. 记忆(Memory)
作用:存储历史信息
类型:短期记忆(对话历史)、长期记忆(知识库)
示例:记住用户偏好、历史交互
Agent技术架构
ReAct模式(推理+行动)
流程:
Thought(思考)→ Action(行动)→ Observation(观察)→ Thought...
示例:
User: 今天北京天气如何?
Thought: 我需要查询北京的实时天气
Action: 调用天气API,city="北京"
Observation: 晴天,温度25°C,湿度60%
Thought: 已获取天气信息,可以回答
Answer: 今天北京天气晴朗,温度25°C...
工具使用(Tool Use)
常用工具类型:
1. 搜索工具:Google Search、Bing Search
2. 计算工具:Python REPL、计算器
3. 数据库:SQL、向量数据库
4. API调用:天气、地图、支付
5. 文件操作:读写、下载
主流Agent框架
LangChain
特点:最成熟,生态丰富
语言:Python、JavaScript
适合:快速原型、复杂应用
AutoGPT
特点:完全自主,目标导向
适合:长期任务、实验性项目
BabyAGI
特点:任务管理,优先级队列
适合:项目管理、多任务协作
LlamaIndex
特点:专注RAG(检索增强生成)
适合:知识库、文档问答
下一章预告:LangChain快速上手 - 30分钟构建你的第一个AI Agent。