第一章: AI Agent核心概念

什么是AI Agent

AI Agent（智能代理）= 能够自主感知环境、做出决策、执行行动以达成目标的AI系统。

Agent vs 传统ChatGPT

对比维度	传统ChatGPT	AI Agent
交互方式	单次对话	多轮自主决策
能力边界	文本生成	调用工具、执行任务
工作流程	用户提问→AI回答	目标→规划→执行→反馈
典型应用	问答、写作	自动化任务、复杂决策

示例对比：

任务：帮我订一张明天去北京的机票

传统ChatGPT:
- 回复："您可以访问携程网站..."
- 需要人工完成所有步骤

AI Agent:
1. 搜索航班信息
2. 对比价格
3. 调用订票API
4. 完成支付
5. 发送确认邮件
→ 全程自动化

Agent核心组件

1. 感知（Perception）

作用：理解环境和任务
技术：NLP、CV、传感器数据
示例：读取用户需求、分析网页内容

2. 决策（Planning）

作用：制定行动计划
技术：ReAct、Chain-of-Thought
示例：将"订机票"分解为子任务

3. 执行（Action）

作用：调用工具完成任务
技术：API调用、工具使用
示例：搜索引擎、数据库查询、发送邮件

4. 记忆（Memory）

作用：存储历史信息
类型：短期记忆（对话历史）、长期记忆（知识库）
示例：记住用户偏好、历史交互

Agent技术架构

ReAct模式（推理+行动）

流程：

Thought（思考）→ Action（行动）→ Observation（观察）→ Thought...

示例：
User: 今天北京天气如何？

Thought: 我需要查询北京的实时天气
Action: 调用天气API，city="北京"
Observation: 晴天，温度25°C，湿度60%
Thought: 已获取天气信息，可以回答
Answer: 今天北京天气晴朗，温度25°C...

工具使用（Tool Use）

常用工具类型：

1. 搜索工具：Google Search、Bing Search
2. 计算工具：Python REPL、计算器
3. 数据库：SQL、向量数据库
4. API调用：天气、地图、支付
5. 文件操作：读写、下载

主流Agent框架

LangChain

特点：最成熟，生态丰富
语言：Python、JavaScript
适合：快速原型、复杂应用

AutoGPT

特点：完全自主，目标导向
适合：长期任务、实验性项目

BabyAGI

特点：任务管理，优先级队列
适合：项目管理、多任务协作

LlamaIndex

特点：专注RAG（检索增强生成）
适合：知识库、文档问答

下一章预告：LangChain快速上手 - 30分钟构建你的第一个AI Agent。