AI 大模型行业全景:从入门到看懂热词
这篇文章是写给想了解 AI 行业的人看的——不管你是投资人、产品经理、运营、销售,还是单纯对 AI 感兴趣的普通人。
看完这篇,你应该能:
- 理解大模型是什么、怎么工作的
- 搞清楚 RAG、Agent、MCP 这些热词是什么意思
- 知道各种公司在做什么
- 能听懂 AI 从业者在聊什么
不需要任何技术背景,我会用大白话和比喻来讲。篇幅比较长,可以当作一个小手册,遇到不懂的词来查。
第一章:大模型基础
大模型是什么
一句话版本:大模型是一个读了人类几乎所有文字的"超级学霸",你问它问题,它根据学过的知识来回答。
详细版本:
大模型的全称是"大语言模型"(Large Language Model,LLM)。它是一个数学模型,通过阅读海量文字(网页、书籍、论文、代码……)来学习"语言的规律"。
学完之后,它能做到:
- 你给它一段话的开头,它能接着往下写
- 你问它问题,它能给出回答
- 你让它翻译、总结、改写,它都能做
但要注意:它不是真的"理解"世界。它只是从海量文字中学会了"什么词后面大概率跟什么词"。它的回答本质上是"统计预测",不是"思考"。
这也是为什么它有时会胡说八道——因为它只是在做模式匹配,如果匹配错了,就会编造不存在的东西。
参数是什么
经常听到"7B 模型"、"70B 模型"、"千亿参数",这个"参数"是什么?
比喻:参数就像是学霸大脑里的"神经连接"。连接越多,能记住的知识越多,能处理的问题越复杂。
- 7B = 70 亿参数,小模型,能在消费级显卡上跑
- 70B = 700 亿参数,大模型,需要专业设备
- GPT-4 据传有上万亿参数
参数越多,模型越"聪明",但也越费钱——训练要更多时间,运行要更多机器。
Token 是什么
大模型处理文字的最小单位不是"字",而是 Token。
你可以把 token 理解成"词块":
- 英文:大概 3-4 个字母是一个 token,"hello" 是 1 个 token
- 中文:大概 1-2 个汉字是一个 token,"你好" 是 2 个 token
为什么要关心 token?
- 收费按 token 算:API 调用费用是按处理的 token 数量计费
- 上下文有限:模型一次能处理的 token 数量有上限
- 速度相关:生成越多 token,花的时间越长
上下文长度
模型一次能"看到"的内容上限,叫上下文长度(Context Length)。
- 早期模型:4K token,大概 3000 字
- 现在模型:128K、200K 甚至更长,能装下一本小说
上下文越长,模型能处理的内容越多:
- 短上下文:只能处理简短对话
- 长上下文:可以分析整本书、整个代码库
但上下文越长,费用越高,速度越慢。
训练和推理
这两个词会反复出现,区别很重要:
训练:让模型学习知识的过程。
就像培养一个学霸:给他看几亿本书,让他记住里面的知识。这个过程:
- 只做一次(或几次)
- 需要大量 GPU(几千张)
- 需要很长时间(几周到几个月)
- 花费巨大(几百万到上亿美元)
推理:让模型回答问题的过程。
就像让学霸做作业:给他一道题,他给出答案。这个过程:
- 持续进行(用户每次提问都要推理)
- 每次用一点点计算资源
- 按用量持续付费
简单说:训练是"培养",推理是"使用"。
常见的大模型
国外
| 模型 | 公司 | 特点 |
|---|---|---|
| GPT-4 / GPT-4o | OpenAI | 最知名,综合能力强 |
| Claude 3.5 | Anthropic | 长上下文、代码能力强 |
| Gemini | 多模态,和 Google 服务整合 | |
| Llama 3 | Meta | 开源,可以免费用 |
国内
| 模型 | 公司 | 特点 |
|---|---|---|
| 文心一言 | 百度 | 中文理解好 |
| 通义千问 | 阿里 | 有开源版本(Qwen) |
| 豆包 | 字节 | 抖音生态整合 |
| Kimi | 月之暗面 | 长上下文见长 |
| DeepSeek | 深度求索 | 开源、性价比高 |
| GLM | 智谱 | 有开源版本 |
第二章:热门概念详解
这部分讲最近常见的热词,按出现频率排序。
RAG:让模型能用外部知识
全称:Retrieval Augmented Generation,检索增强生成。
为什么需要 RAG?
大模型有两个问题:
- 知识过时:它的知识停留在训练时,之后发生的事它不知道
- 会编造:问它不知道的事,它可能会胡编乱造(叫"幻觉")
比如你问它"我们公司的报销流程是什么",它根本不知道你们公司的规定,要么说不知道,要么瞎编一个。
RAG 怎么解决?
思路很简单:先查资料,再回答。
- 用户提问:"我们公司的报销流程是什么?"
- 系统先去公司知识库里搜索相关文档(比如《财务制度》)
- 把搜到的文档内容和问题一起给模型
- 模型参考文档来回答
这样模型就能回答它本来不知道的问题,而且有据可依,不会乱编。
比喻:
想象你问一个学霸问题,但这个问题超出了他的知识范围。
- 没有 RAG:学霸硬着头皮瞎编一个答案
- 有 RAG:学霸说"等一下",去图书馆查了资料,然后根据资料回答你
RAG 的关键技术
- 向量化(Embedding):把文字转成一串数字,方便计算机比较"相似度"
- 向量数据库:专门存储和检索这些数字的数据库
- 检索:根据用户问题,找到最相关的文档片段
- 生成:把文档内容和问题一起给模型,生成回答
为什么 RAG 这么火?
因为它是让大模型在企业落地的关键技术。企业有大量内部文档、知识库,RAG 能让模型用上这些知识,回答员工的各种问题。
Agent:让模型能做事
普通的聊天机器人只能说,Agent 能做事。
什么是 Agent?
Agent(智能体)是一个能自主完成任务的 AI 系统。它不只是聊天,而是能:
- 上网搜索信息
- 读写文件
- 调用各种工具(计算器、日历、邮件等)
- 执行代码
- 操作软件
举个例子
你对普通聊天机器人说:"帮我订下周二去北京的机票"
它会回答:"好的,您可以登录携程或飞猪进行预订……"(只是告诉你怎么做)
你对 Agent 说同样的话:
它会真的去做:
- 打开机票网站
- 搜索下周二去北京的航班
- 比较价格和时间
- 选一个合适的
- 帮你下单(或者问你确认)
Agent 的核心能力
- 规划:把复杂任务拆解成小步骤
- 工具调用:能使用各种外部工具
- 记忆:记住之前做过什么
- 自主决策:根据情况调整行动
为什么 Agent 这么火?
因为它是 AI 从"聊天玩具"变成"生产力工具"的关键。能聊天的 AI 有趣但用处有限,能干活的 AI 才能真正创造价值。
2024-2025 年,Agent 是最热的方向,各大公司都在做。
Function Calling / Tool Use:让模型调用工具
是什么
Function Calling(函数调用)或 Tool Use(工具使用)是让模型能调用外部功能的技术。
模型本身只会生成文字,不会上网、不会计算、不会操作软件。但通过 Function Calling,模型可以说:"我需要调用天气查询功能",然后系统帮它执行,把结果返回给模型。
举个例子
用户问:"北京今天天气怎么样?"
没有 Function Calling:
- 模型只能根据训练数据猜测,很可能是错的
有 Function Calling:
- 模型判断"需要查天气"
- 模型输出:
调用 get_weather(city="北京") - 系统执行这个函数,从天气 API 获取数据
- 把结果返回给模型:"晴,25°C"
- 模型组织语言回答用户
和 Agent 的关系
Function Calling 是 Agent 的基础能力之一。Agent 要做事,就需要调用各种工具,Function Calling 就是实现这个的技术。
MCP:连接模型和外部世界的标准协议
全称:Model Context Protocol,模型上下文协议。
是什么
MCP 是 Anthropic(Claude 的公司)在 2024 年底推出的一个开放标准,目的是让 AI 模型能更方便地连接各种外部工具和数据源。
为什么需要 MCP?
现在的问题是:每个 AI 应用要连接外部工具,都得自己写一套代码。
比如你想让 AI 能:
- 读取 Google Drive 的文件
- 查询数据库
- 发送 Slack 消息
你得分别写三套对接代码,而且换一个 AI 模型可能又要重写。
MCP 怎么解决?
MCP 定义了一个标准的"插头"格式。
- 工具开发者:按 MCP 标准写一个"适配器"
- AI 应用开发者:按 MCP 标准做一个"插座"
只要双方都遵守标准,就能即插即用,不用每次都重新对接。
比喻
想象以前的手机充电器,每个品牌都不一样,换个手机就得换充电器。
MCP 就像 USB-C 标准——大家都用同一种接口,任何充电器都能给任何手机充电。
MCP 的组成
- MCP Server:工具那边的适配器,把工具的功能暴露出来
- MCP Client:AI 应用那边的插座,负责调用工具
- 协议:双方通信的标准格式
为什么火?
因为它解决了 AI 应用落地的一个大痛点:连接外部工具太麻烦。有了 MCP,生态会更繁荣——工具开发者写一次适配器,所有支持 MCP 的 AI 应用都能用。
目前 Claude Desktop、Cursor 等应用已经支持 MCP。
Skills:Agent 的技能包
是什么
Skills(技能)是 Agent 能执行的具体能力。
你可以把 Agent 想象成一个员工,Skills 就是他会的技能:
- 会写代码
- 会发邮件
- 会搜索网页
- 会读取文件
- ……
和 Tool / Function 的区别
这几个词经常混用,但有细微区别:
- Tool / Function:单个工具或函数,比如"调用天气 API"
- Skill:更高层的能力,可能包含多个工具的组合使用
比如"帮用户订机票"这个 Skill,可能需要调用:搜索航班 API、比价 API、下单 API 等多个 Tool。
Skill 的例子
在 AI 编程助手(如 Cursor、Claude Code)里:
/commit:自动生成 git 提交信息并提交/review:审查代码并给出建议/refactor:重构选中的代码
这些都是 Skills——用户一句话触发,AI 执行一系列操作完成任务。
Prompt Engineering:提示词工程
是什么
Prompt 就是你给模型的输入(提示词)。Prompt Engineering 就是研究怎么写 Prompt 能让模型给出更好的回答。
为什么重要
同样的模型,Prompt 写得好不好,效果差很多。
比如让模型写一篇文章:
普通 Prompt:
写一篇关于人工智能的文章
好的 Prompt:
你是一个科技专栏作家,擅长用通俗易懂的语言解释复杂概念。请写一篇 800 字左右的文章,向完全不懂技术的读者介绍人工智能是什么。要求:使用生活中的比喻,避免专业术语,分成 3-4 个小节。
第二个 Prompt 给了:角色、目标、字数、读者、要求、格式,模型能写出更符合预期的内容。
常用技巧
- 给角色:"你是一个资深律师……"
- 给例子:"比如:输入 XX,输出 YY"
- 分步骤:"首先……然后……最后……"
- 限制格式:"用 JSON 格式输出"
- 要求思考:"请一步一步思考"
CoT:Chain of Thought,思维链
是什么
让模型在回答问题时,先把思考过程写出来,再给最终答案。
为什么有用
直接让模型给答案,它可能算错或推理错误。但如果让它"一步一步想",准确率会大幅提高。
例子
问题:小明有 3 个苹果,小红给了他 5 个,他吃了 2 个,还剩几个?
普通回答:
还剩 6 个。
CoT 回答:
让我一步一步计算:
- 小明一开始有 3 个苹果
- 小红给了他 5 个,现在有 3 + 5 = 8 个
- 他吃了 2 个,还剩 8 - 2 = 6 个
所以还剩 6 个苹果。
为什么有效
可能的解释:写出思考过程相当于给模型一个"草稿纸",让它能分步处理复杂问题,减少中间出错的概率。
Reasoning Models:推理模型
是什么
2024 年 OpenAI 发布的 o1 模型开创了一个新方向:推理模型。
普通模型是"快速回答",推理模型是"深度思考"——它会在回答前花更多时间"思考",适合解决复杂问题。
和普通模型的区别
| 普通模型 | 推理模型 | |
|---|---|---|
| 回答速度 | 快 | 慢(会"思考"几秒到几十秒) |
| 适合问题 | 简单问答、创意写作 | 数学、逻辑、编程等复杂问题 |
| 费用 | 便宜 | 贵(思考过程也收费) |
| 代表 | GPT-4o、Claude 3.5 | o1、o3、Claude with thinking |
为什么火
因为它在很多困难任务上效果显著提升,尤其是数学竞赛、编程竞赛等需要复杂推理的任务。
幻觉(Hallucination)
是什么
模型一本正经地胡说八道,编造不存在的事实。
例子
你问:"《三体》的作者是谁?" 模型答:"刘慈欣"(正确)
你问:"刘慈欣写过哪些书?" 模型可能编出一本不存在的书名,但说得跟真的一样。
为什么会幻觉
因为模型不是在"查询知识库",而是在"预测下一个词"。当它不确定答案时,它不会说"不知道",而是会预测一个"看起来像正确答案"的回答——这就可能是编造的。
怎么减少幻觉
- RAG:让模型参考真实资料回答
- 提示词:告诉模型"如果不确定就说不知道"
- 验证:对重要信息进行人工核实
多模态(Multimodal)
是什么
不只能处理文字,还能处理图片、音频、视频的模型。
- 文字模态:传统的聊天
- 视觉模态:看图说话、图片理解
- 音频模态:语音识别、语音合成
- 视频模态:视频理解、视频生成
例子
- GPT-4V:可以上传图片,让它描述或回答关于图片的问题
- Gemini:原生多模态,文字、图片、视频都能处理
- Sora:文字生成视频
为什么重要
现实世界的信息不只有文字。能处理多种模态的模型,应用范围更广:看报表、分析图片、理解视频内容……
Embedding:向量化
是什么
把文字转成一串数字(向量),方便计算机处理。
为什么需要
计算机不理解文字,但理解数字。把文字转成数字后,就可以:
- 计算两段文字的"相似度"
- 快速搜索相关内容
- 存储到向量数据库
举个例子
"苹果很好吃" → [0.23, -0.15, 0.87, ...](一串数字) "香蕉很美味" → [0.21, -0.12, 0.85, ...](另一串数字)
这两串数字很接近(因为语义相似),而:
"今天股票涨了" → [-0.56, 0.78, -0.23, ...]
这串数字和前面两个差很远(因为语义不相关)。
在 RAG 中的作用
RAG 检索相关文档时,就是:
- 把用户问题转成向量
- 在向量数据库里找相似的向量
- 相似的向量对应的文档就是相关文档
向量数据库
是什么
专门存储和检索向量的数据库。
为什么需要专门的数据库
普通数据库擅长精确查找(比如"找 id=123 的用户"),但不擅长相似度搜索。
向量数据库专门优化了"找最相似的向量"这个操作,能在几十亿向量中快速找到最相似的几个。
常见的向量数据库
- Pinecone:云服务,用得最多
- Milvus:开源
- Weaviate:开源
- Chroma:轻量级,适合小项目
- FAISS:Meta 开源的库,很多人自己搭
微调(Fine-tuning)
是什么
在已有模型的基础上,用特定数据继续训练,让模型在某个领域更专业。
比喻
预训练像是培养一个"通才":读了所有学科的书,什么都懂一点。
微调像是让通才"专攻"某个方向:给他医学资料,让他成为医学专家。
为什么不从头训练
从头训练太贵了。微调只需要:
- 少量数据(几百到几万条)
- 少量算力(几小时到几天)
- 少量费用(几百到几千美元)
微调的用途
- 让模型学会特定的语气风格
- 让模型掌握专业领域知识
- 让模型更好地遵循指令
LoRA:低成本微调
全称:Low-Rank Adaptation,低秩适配。
是什么
一种省显存、省时间的微调方法。
传统微调要更新模型的所有参数,LoRA 只更新一小部分参数(不到 1%),效果却差不多。
为什么火
因为它让普通人也能微调大模型。以前微调 70B 模型需要好几张 A100,现在用 LoRA 一张消费级显卡就能跑。
RLHF:让模型更听话
全称:Reinforcement Learning from Human Feedback,人类反馈强化学习。
是什么
通过人类的反馈来训练模型,让它的回答更符合人类期望。
过程
- 让模型生成多个回答
- 人类标注员给这些回答排序(哪个更好)
- 用这些排序数据训练模型
效果
RLHF 之后的模型会:
- 更有帮助(不会敷衍)
- 更安全(拒绝有害请求)
- 更真实(减少编造)
ChatGPT 之所以比之前的模型"好用",很大程度上是因为做了 RLHF。
量化(Quantization)
是什么
把模型的参数从高精度压缩到低精度,减小体积、加快速度。
比喻
高精度像是用很多位小数表示一个数:3.14159265... 低精度像是只用两位小数:3.14
精度降低一点,但数字小了很多,处理更快。
常见的精度
- FP32:32位浮点数,最高精度
- FP16 / BF16:16位,训练常用
- INT8:8位,推理常用,体积减半
- INT4:4位,激进压缩,体积减四分之三
效果
比如一个 7B 模型:
- FP16:约 14GB
- INT8:约 7GB
- INT4:约 3.5GB
量化后的模型能在更小的显卡上跑,而且速度更快,效果损失通常可以接受。
第三章:产品形态
各种 AI 产品长什么样,在做什么。
聊天机器人
最直观的形态:一个对话框,你问它答。
代表产品
- ChatGPT(OpenAI)
- Claude(Anthropic)
- Kimi(月之暗面)
- 豆包(字节)
- 文心一言(百度)
主要用途
- 问答
- 写作辅助
- 翻译
- 头脑风暴
AI 搜索
传统搜索给你一堆链接,AI 搜索直接给你答案。
代表产品
- Perplexity
- 秘塔搜索
- Bing Copilot
和传统搜索的区别
传统搜索:"中国最高的山是什么" → 给你 10 个网页链接
AI 搜索:直接告诉你"珠穆朗玛峰,海拔 8848.86 米",并附上信息来源。
本质
AI 搜索 = 搜索引擎 + RAG + 大模型
先搜索相关网页,然后让大模型总结成答案。
AI 编程助手
帮程序员写代码的工具。
代表产品
- GitHub Copilot:最早火的
- Cursor:目前最火的
- Claude Code:Anthropic 的命令行工具
- Codeium:免费的选择
能做什么
- 自动补全代码
- 根据描述生成代码
- 解释代码
- 找 bug
- 重构代码
- 写测试
为什么这么火
因为效果立竿见影。用过的程序员普遍反馈效率提升 30-50%。有些人说"用了就回不去了"。
AI 写作
帮你写文章、文案、邮件。
代表产品
- Jasper:营销文案
- Copy.ai:各种文案
- Notion AI:集成在 Notion 里
- 各种公众号写作助手
能做什么
- 生成初稿
- 改写润色
- 扩写缩写
- 翻译
- 起标题
AI 绘画 / 图像生成
输入文字描述,生成图片。
代表产品
- Midjourney:效果最好
- DALL·E:OpenAI 的
- Stable Diffusion:开源,可以本地跑
- ComfyUI:Stable Diffusion 的工作流工具
用途
- 设计素材
- 产品图
- 插画
- 艺术创作
AI 视频
文字生成视频,或者图片生成视频。
代表产品
- Sora:OpenAI 的,效果惊艳但还没完全开放
- Runway:已经商用
- Pika:短视频生成
- 可灵:国内的
目前的限制
- 时长短(通常几秒到十几秒)
- 可控性差(难以精确控制内容)
- 一致性问题(角色可能变形)
AI 语音
语音相关的 AI 应用。
语音识别(语音转文字)
- Whisper:OpenAI 开源的,效果很好
语音合成(文字转语音)
- ElevenLabs:支持克隆声音
- 各大模型自带的语音能力
实时语音对话
- GPT-4o:支持语音输入输出
- 豆包:语音对话做得不错
第四章:行业生态
产业链分层
AI 行业可以分成几层:
┌─────────────────────────────────────────────────────┐
│ 应用层 │
│ 聊天机器人 / AI 搜索 / 编程助手 / 写作 / 绘画 │
├─────────────────────────────────────────────────────┤
│ 模型层 │
│ GPT / Claude / Llama / 文心 / 通义 / DeepSeek │
├─────────────────────────────────────────────────────┤
│ 平台层 │
│ 云服务 / 训练平台 / 推理服务 / 数据平台 │
├─────────────────────────────────────────────────────┤
│ 算力层 │
│ GPU / 服务器 / 数据中心 │
├─────────────────────────────────────────────────────┤
│ 芯片层 │
│ NVIDIA / AMD / 华为 / 寒武纪 │
└─────────────────────────────────────────────────────┘
模型公司
专门做基础大模型的公司。
国外
| 公司 | 代表模型 | 特点 |
|---|---|---|
| OpenAI | GPT-4、o1 | 行业领头羊,综合最强 |
| Anthropic | Claude | 强调安全,代码能力强,长上下文 |
| Gemini | 多模态,和 Google 服务整合 | |
| Meta | Llama | 开源路线,推动生态 |
| Mistral | Mistral | 欧洲公司,小模型效果好 |
国内
| 公司 | 代表模型 | 特点 |
|---|---|---|
| 百度 | 文心一言 | 最早发布,中文好 |
| 阿里 | 通义千问 | 有开源版本 Qwen |
| 字节 | 豆包 | 产品化做得好 |
| 腾讯 | 混元 | 后发,接入微信生态 |
| 月之暗面 | Kimi | 长上下文见长 |
| 智谱 | GLM | 有开源版本 |
| 深度求索 | DeepSeek | 开源、性价比高、技术论文多 |
| 零一万物 | Yi | 李开复创办 |
| 百川 | 百川 | 搜索增强 |
云厂商
提供算力和平台服务。
能力
- GPU 租用(按需或包年)
- 模型训练平台
- 模型部署服务
- API 接口服务
主要玩家
国外:AWS、Google Cloud、Azure、CoreWeave
国内:阿里云、腾讯云、华为云、火山引擎、百度智能云
芯片公司
AI 计算的底层硬件。
NVIDIA
目前绝对垄断地位。数据中心 AI 芯片市场份额超过 90%。
主要产品:
- H100:当前最强训练芯片
- A100:上一代主力,还在大量使用
- H20:针对中国市场的版本(受出口管制影响)
- RTX 4090:消费级最强,很多小团队在用
为什么 NVIDIA 这么强
不只是硬件好,更重要的是 CUDA 生态。所有深度学习框架(PyTorch、TensorFlow)都是基于 CUDA 开发的,迁移成本很高。
其他玩家
- AMD:MI300 系列,在追赶
- Intel:Gaudi 系列,市场份额很小
- 华为:昇腾,国内主要替代方案
- 寒武纪:国内 AI 芯片
卡脖子问题
美国对中国实施芯片出口管制,高端 GPU(H100、A100)不能卖给中国。所以国内公司只能用 H20(阉割版)或者国产替代方案。这是为什么国产芯片和国产模型都在被重视。
数据公司
AI 模型的训练需要大量数据。
数据从哪来
- 爬取互联网公开内容
- 购买版权数据(书籍、论文)
- 合成数据(让模型生成数据)
- 众包标注
数据标注公司
模型训练不只需要原始数据,还需要"标注"——给数据打标签,告诉模型这是什么。
- Scale AI:最大的数据标注公司
- 国内有很多众包平台
数据的价值
数据是 AI 的"粮食"。高质量数据越来越稀缺,有人说"互联网上的好数据已经被用光了"。
现在的趋势:
- 合成数据:用模型生成训练数据
- 私有数据:企业内部数据的价值凸显
第五章:商业模式
AI 公司怎么赚钱?
API 调用收费
按使用量收费,用多少付多少。
计费单位:Token
例子(GPT-4 价格):
- 输入:$30 / 1M tokens
- 输出:$60 / 1M tokens
一次普通对话大概几分钱。
优点:门槛低,用多少付多少 缺点:用量大了费用很高
订阅制
按月或按年付费,不限量(或有配额)使用。
例子:
- ChatGPT Plus:$20/月
- Claude Pro:$20/月
- Cursor Pro:$20/月
优点:费用可预期 缺点:用得少可能不划算
企业服务
给企业提供定制化服务。
形式:
- 私有化部署(模型部署在企业自己的服务器)
- 专属 API(独立的 API 通道)
- 定制微调(根据企业数据微调模型)
价格:几万到几百万不等
开源 + 商业化
模型开源,通过其他方式赚钱。
例子:
- Meta 开源 Llama,不直接赚钱,但强化生态
- 一些公司开源模型,卖云服务
第六章:成本结构
做 AI 很费钱,钱花在哪?
训练成本
一次性投入,主要是 GPU 租用费。
| 模型规模 | 训练成本估算 |
|---|---|
| 7B 模型 | 几十万美元 |
| 70B 模型 | 几百万美元 |
| GPT-4 级别 | 上亿美元 |
推理成本
持续投入,按用量计算。
OpenAI、Anthropic 这些公司每天处理上亿次请求,GPU 电费是大头。
人才成本
AI 人才非常贵。顶尖研究员年薪几百万美元很正常。
数据成本
高质量数据要么爬取(技术 + 法律成本),要么购买版权,要么标注(人工成本)。
为什么 GPU 这么贵
- 一张 H100:约 3 万美元
- 一台 8 卡服务器:约 30-40 万美元
- 还买不到——产能有限,大家在抢
第七章:常见问题
AI 会取代人类吗?
短期内不会。
目前的 AI 是"工具"不是"智能生命"。它擅长:
- 重复性、模板化的工作
- 辅助人类提高效率
它不擅长:
- 需要深度理解和创造力的工作
- 需要可靠性和责任的工作
- 需要最新信息的工作
更现实的趋势是:会用 AI 的人替代不会用的人。
开源模型和闭源模型怎么选?
| 开源模型 | 闭源模型 | |
|---|---|---|
| 效果 | 稍逊,但差距在缩小 | 通常最好 |
| 数据隐私 | 数据留在本地 | 要发给别人服务器 |
| 成本 | 自己部署有一次性成本 | 按量付费 |
| 定制性 | 可以微调、修改 | 只能用现成的 |
建议:
- 数据敏感、需要定制:开源
- 追求效果、快速上线:闭源
- 先用闭源验证需求,再考虑迁移到开源
怎么判断一个模型好不好?
看评测分数
各种 benchmark 的得分:
- MMLU:综合知识
- HumanEval:代码能力
- GSM8K:数学能力
看实际体验
评测分数高不一定好用,要自己试试。
看社区反馈
Twitter、Reddit、知乎上的用户评价。
学 AI 应该从哪开始?
如果是想用 AI
直接用起来。ChatGPT、Claude、Kimi 都注册一个,多用多试。
学一些 Prompt Engineering 技巧,提高使用效果。
如果是想做 AI
- 产品方向:理解技术原理 + 产品思维
- 工程方向:Python + 深度学习框架 + 部署
- 研究方向:数学 + 论文阅读能力
术语速查表
按字母顺序,方便查阅。
| 术语 | 解释 |
|---|---|
| Agent | 能自主完成任务的 AI 系统,不只是聊天 |
| API | 程序调用模型的接口 |
| CoT | Chain of Thought,让模型分步思考 |
| Embedding | 把文字转成数字向量 |
| Fine-tuning | 微调,在已有模型基础上继续训练 |
| Function Calling | 让模型能调用外部工具 |
| GPU | 图形处理器,AI 计算的核心硬件 |
| Hallucination | 幻觉,模型编造虚假信息 |
| LLM | Large Language Model,大语言模型 |
| LoRA | 一种省资源的微调方法 |
| MCP | Model Context Protocol,连接模型和工具的标准 |
| Multimodal | 多模态,能处理文字、图片、音视频 |
| Prompt | 给模型的输入/提示词 |
| Quantization | 量化,压缩模型体积 |
| RAG | 检索增强生成,让模型能用外部知识 |
| RLHF | 人类反馈强化学习,让模型更符合人类期望 |
| Skills | Agent 的技能/能力 |
| Token | 模型处理文字的最小单位 |
| Tool Use | 让模型使用工具的能力 |
| 上下文长度 | 模型一次能处理的内容上限 |
| 推理 | 模型生成回答的过程 |
| 训练 | 让模型学习知识的过程 |
小结
这篇覆盖了 AI 大模型行业的主要概念:
基础概念
- 大模型、参数、Token、上下文长度
- 训练 vs 推理
热门技术
- RAG:让模型用外部知识
- Agent:让模型能做事
- MCP:连接模型和工具的标准
- Function Calling:让模型调用工具
- Skills:Agent 的能力
- 推理模型:深度思考的模型
产品形态
- 聊天机器人、AI 搜索、编程助手、写作、绘画、视频
行业生态
- 模型公司、云厂商、芯片公司、数据公司
商业模式
- API 收费、订阅制、企业服务
如果想深入了解技术细节,可以继续看这个系列的其他文章。