AI 大模型行业全景：从入门到看懂热词

这篇文章是写给想了解 AI 行业的人看的——不管你是投资人、产品经理、运营、销售，还是单纯对 AI 感兴趣的普通人。

看完这篇，你应该能：

理解大模型是什么、怎么工作的
搞清楚 RAG、Agent、MCP 这些热词是什么意思
知道各种公司在做什么
能听懂 AI 从业者在聊什么

不需要任何技术背景，我会用大白话和比喻来讲。篇幅比较长，可以当作一个小手册，遇到不懂的词来查。

第一章：大模型基础

大模型是什么

一句话版本：大模型是一个读了人类几乎所有文字的"超级学霸"，你问它问题，它根据学过的知识来回答。

详细版本：

大模型的全称是"大语言模型"（Large Language Model，LLM）。它是一个数学模型，通过阅读海量文字（网页、书籍、论文、代码……）来学习"语言的规律"。

学完之后，它能做到：

你给它一段话的开头，它能接着往下写
你问它问题，它能给出回答
你让它翻译、总结、改写，它都能做

但要注意：它不是真的"理解"世界。它只是从海量文字中学会了"什么词后面大概率跟什么词"。它的回答本质上是"统计预测"，不是"思考"。

这也是为什么它有时会胡说八道——因为它只是在做模式匹配，如果匹配错了，就会编造不存在的东西。

参数是什么

经常听到"7B 模型"、"70B 模型"、"千亿参数"，这个"参数"是什么？

比喻：参数就像是学霸大脑里的"神经连接"。连接越多，能记住的知识越多，能处理的问题越复杂。

7B = 70 亿参数，小模型，能在消费级显卡上跑
70B = 700 亿参数，大模型，需要专业设备
GPT-4 据传有上万亿参数

参数越多，模型越"聪明"，但也越费钱——训练要更多时间，运行要更多机器。

Token 是什么

大模型处理文字的最小单位不是"字"，而是 Token。

你可以把 token 理解成"词块"：

英文：大概 3-4 个字母是一个 token，"hello" 是 1 个 token
中文：大概 1-2 个汉字是一个 token，"你好" 是 2 个 token

为什么要关心 token？

收费按 token 算：API 调用费用是按处理的 token 数量计费
上下文有限：模型一次能处理的 token 数量有上限
速度相关：生成越多 token，花的时间越长

上下文长度

模型一次能"看到"的内容上限，叫上下文长度（Context Length）。

早期模型：4K token，大概 3000 字
现在模型：128K、200K 甚至更长，能装下一本小说

上下文越长，模型能处理的内容越多：

短上下文：只能处理简短对话
长上下文：可以分析整本书、整个代码库

但上下文越长，费用越高，速度越慢。

训练和推理

这两个词会反复出现，区别很重要：

训练：让模型学习知识的过程。

就像培养一个学霸：给他看几亿本书，让他记住里面的知识。这个过程：

只做一次（或几次）
需要大量 GPU（几千张）
需要很长时间（几周到几个月）
花费巨大（几百万到上亿美元）

推理：让模型回答问题的过程。

就像让学霸做作业：给他一道题，他给出答案。这个过程：

持续进行（用户每次提问都要推理）
每次用一点点计算资源
按用量持续付费

简单说：训练是"培养"，推理是"使用"。

常见的大模型

国外

模型	公司	特点
GPT-4 / GPT-4o	OpenAI	最知名，综合能力强
Claude 3.5	Anthropic	长上下文、代码能力强
Gemini	Google	多模态，和 Google 服务整合
Llama 3	Meta	开源，可以免费用

国内

模型	公司	特点
文心一言	百度	中文理解好
通义千问	阿里	有开源版本（Qwen）
豆包	字节	抖音生态整合
Kimi	月之暗面	长上下文见长
DeepSeek	深度求索	开源、性价比高
GLM	智谱	有开源版本

第二章：热门概念详解

这部分讲最近常见的热词，按出现频率排序。

RAG：让模型能用外部知识

全称：Retrieval Augmented Generation，检索增强生成。

为什么需要 RAG？

大模型有两个问题：

知识过时：它的知识停留在训练时，之后发生的事它不知道
会编造：问它不知道的事，它可能会胡编乱造（叫"幻觉"）

比如你问它"我们公司的报销流程是什么"，它根本不知道你们公司的规定，要么说不知道，要么瞎编一个。

RAG 怎么解决？

思路很简单：先查资料，再回答。

用户提问："我们公司的报销流程是什么？"
系统先去公司知识库里搜索相关文档（比如《财务制度》）
把搜到的文档内容和问题一起给模型
模型参考文档来回答

这样模型就能回答它本来不知道的问题，而且有据可依，不会乱编。

比喻：

想象你问一个学霸问题，但这个问题超出了他的知识范围。

没有 RAG：学霸硬着头皮瞎编一个答案
有 RAG：学霸说"等一下"，去图书馆查了资料，然后根据资料回答你

RAG 的关键技术

向量化（Embedding）：把文字转成一串数字，方便计算机比较"相似度"
向量数据库：专门存储和检索这些数字的数据库
检索：根据用户问题，找到最相关的文档片段
生成：把文档内容和问题一起给模型，生成回答

为什么 RAG 这么火？

因为它是让大模型在企业落地的关键技术。企业有大量内部文档、知识库，RAG 能让模型用上这些知识，回答员工的各种问题。

Agent：让模型能做事

普通的聊天机器人只能说，Agent 能做事。

什么是 Agent？

Agent（智能体）是一个能自主完成任务的 AI 系统。它不只是聊天，而是能：

上网搜索信息
读写文件
调用各种工具（计算器、日历、邮件等）
执行代码
操作软件

举个例子

你对普通聊天机器人说："帮我订下周二去北京的机票"

它会回答："好的，您可以登录携程或飞猪进行预订……"（只是告诉你怎么做）

你对 Agent 说同样的话：

它会真的去做：

打开机票网站
搜索下周二去北京的航班
比较价格和时间
选一个合适的
帮你下单（或者问你确认）

Agent 的核心能力

规划：把复杂任务拆解成小步骤
工具调用：能使用各种外部工具
记忆：记住之前做过什么
自主决策：根据情况调整行动

为什么 Agent 这么火？

因为它是 AI 从"聊天玩具"变成"生产力工具"的关键。能聊天的 AI 有趣但用处有限，能干活的 AI 才能真正创造价值。

2024-2025 年，Agent 是最热的方向，各大公司都在做。

Function Calling / Tool Use：让模型调用工具

是什么

Function Calling（函数调用）或 Tool Use（工具使用）是让模型能调用外部功能的技术。

模型本身只会生成文字，不会上网、不会计算、不会操作软件。但通过 Function Calling，模型可以说："我需要调用天气查询功能"，然后系统帮它执行，把结果返回给模型。

举个例子

用户问："北京今天天气怎么样？"

没有 Function Calling：

模型只能根据训练数据猜测，很可能是错的

有 Function Calling：

模型判断"需要查天气"
模型输出：调用 get_weather(city="北京")
系统执行这个函数，从天气 API 获取数据
把结果返回给模型："晴，25°C"
模型组织语言回答用户

和 Agent 的关系

Function Calling 是 Agent 的基础能力之一。Agent 要做事，就需要调用各种工具，Function Calling 就是实现这个的技术。

MCP：连接模型和外部世界的标准协议

全称：Model Context Protocol，模型上下文协议。

是什么

MCP 是 Anthropic（Claude 的公司）在 2024 年底推出的一个开放标准，目的是让 AI 模型能更方便地连接各种外部工具和数据源。

为什么需要 MCP？

现在的问题是：每个 AI 应用要连接外部工具，都得自己写一套代码。

比如你想让 AI 能：

读取 Google Drive 的文件
查询数据库
发送 Slack 消息

你得分别写三套对接代码，而且换一个 AI 模型可能又要重写。

MCP 怎么解决？

MCP 定义了一个标准的"插头"格式。

工具开发者：按 MCP 标准写一个"适配器"
AI 应用开发者：按 MCP 标准做一个"插座"

只要双方都遵守标准，就能即插即用，不用每次都重新对接。

比喻

想象以前的手机充电器，每个品牌都不一样，换个手机就得换充电器。

MCP 就像 USB-C 标准——大家都用同一种接口，任何充电器都能给任何手机充电。

MCP 的组成

MCP Server：工具那边的适配器，把工具的功能暴露出来
MCP Client：AI 应用那边的插座，负责调用工具
协议：双方通信的标准格式

为什么火？

因为它解决了 AI 应用落地的一个大痛点：连接外部工具太麻烦。有了 MCP，生态会更繁荣——工具开发者写一次适配器，所有支持 MCP 的 AI 应用都能用。

目前 Claude Desktop、Cursor 等应用已经支持 MCP。

Skills：Agent 的技能包

是什么

Skills（技能）是 Agent 能执行的具体能力。

你可以把 Agent 想象成一个员工，Skills 就是他会的技能：

会写代码
会发邮件
会搜索网页
会读取文件
……

和 Tool / Function 的区别

这几个词经常混用，但有细微区别：

Tool / Function：单个工具或函数，比如"调用天气 API"
Skill：更高层的能力，可能包含多个工具的组合使用

比如"帮用户订机票"这个 Skill，可能需要调用：搜索航班 API、比价 API、下单 API 等多个 Tool。

Skill 的例子

在 AI 编程助手（如 Cursor、Claude Code）里：

/commit：自动生成 git 提交信息并提交
/review：审查代码并给出建议
/refactor：重构选中的代码

这些都是 Skills——用户一句话触发，AI 执行一系列操作完成任务。

Prompt Engineering：提示词工程

是什么

Prompt 就是你给模型的输入（提示词）。Prompt Engineering 就是研究怎么写 Prompt 能让模型给出更好的回答。

为什么重要

同样的模型，Prompt 写得好不好，效果差很多。

比如让模型写一篇文章：

普通 Prompt：

写一篇关于人工智能的文章

好的 Prompt：

你是一个科技专栏作家，擅长用通俗易懂的语言解释复杂概念。请写一篇 800 字左右的文章，向完全不懂技术的读者介绍人工智能是什么。要求：使用生活中的比喻，避免专业术语，分成 3-4 个小节。

第二个 Prompt 给了：角色、目标、字数、读者、要求、格式，模型能写出更符合预期的内容。

常用技巧

给角色："你是一个资深律师……"
给例子："比如：输入 XX，输出 YY"
分步骤："首先……然后……最后……"
限制格式："用 JSON 格式输出"
要求思考："请一步一步思考"

CoT：Chain of Thought，思维链

是什么

让模型在回答问题时，先把思考过程写出来，再给最终答案。

为什么有用

直接让模型给答案，它可能算错或推理错误。但如果让它"一步一步想"，准确率会大幅提高。

例子

问题：小明有 3 个苹果，小红给了他 5 个，他吃了 2 个，还剩几个？

普通回答：

还剩 6 个。

CoT 回答：

让我一步一步计算：
小明一开始有 3 个苹果
小红给了他 5 个，现在有 3 + 5 = 8 个
他吃了 2 个，还剩 8 - 2 = 6 个
所以还剩 6 个苹果。

为什么有效

可能的解释：写出思考过程相当于给模型一个"草稿纸"，让它能分步处理复杂问题，减少中间出错的概率。

Reasoning Models：推理模型

是什么

2024 年 OpenAI 发布的 o1 模型开创了一个新方向：推理模型。

普通模型是"快速回答"，推理模型是"深度思考"——它会在回答前花更多时间"思考"，适合解决复杂问题。

和普通模型的区别

	普通模型	推理模型
回答速度	快	慢（会"思考"几秒到几十秒）
适合问题	简单问答、创意写作	数学、逻辑、编程等复杂问题
费用	便宜	贵（思考过程也收费）
代表	GPT-4o、Claude 3.5	o1、o3、Claude with thinking

为什么火

因为它在很多困难任务上效果显著提升，尤其是数学竞赛、编程竞赛等需要复杂推理的任务。

幻觉（Hallucination）

是什么

模型一本正经地胡说八道，编造不存在的事实。

例子

你问："《三体》的作者是谁？" 模型答："刘慈欣"（正确）

你问："刘慈欣写过哪些书？" 模型可能编出一本不存在的书名，但说得跟真的一样。

为什么会幻觉

因为模型不是在"查询知识库"，而是在"预测下一个词"。当它不确定答案时，它不会说"不知道"，而是会预测一个"看起来像正确答案"的回答——这就可能是编造的。

怎么减少幻觉

RAG：让模型参考真实资料回答
提示词：告诉模型"如果不确定就说不知道"
验证：对重要信息进行人工核实

多模态（Multimodal）

是什么

不只能处理文字，还能处理图片、音频、视频的模型。

文字模态：传统的聊天
视觉模态：看图说话、图片理解
音频模态：语音识别、语音合成
视频模态：视频理解、视频生成

例子

GPT-4V：可以上传图片，让它描述或回答关于图片的问题
Gemini：原生多模态，文字、图片、视频都能处理
Sora：文字生成视频

为什么重要

现实世界的信息不只有文字。能处理多种模态的模型，应用范围更广：看报表、分析图片、理解视频内容……

Embedding：向量化

是什么

把文字转成一串数字（向量），方便计算机处理。

为什么需要

计算机不理解文字，但理解数字。把文字转成数字后，就可以：

计算两段文字的"相似度"
快速搜索相关内容
存储到向量数据库

举个例子

"苹果很好吃" → [0.23, -0.15, 0.87, ...]（一串数字） "香蕉很美味" → [0.21, -0.12, 0.85, ...]（另一串数字）

这两串数字很接近（因为语义相似），而：

"今天股票涨了" → [-0.56, 0.78, -0.23, ...]

这串数字和前面两个差很远（因为语义不相关）。

在 RAG 中的作用

RAG 检索相关文档时，就是：

把用户问题转成向量
在向量数据库里找相似的向量
相似的向量对应的文档就是相关文档

向量数据库

是什么

专门存储和检索向量的数据库。

为什么需要专门的数据库

普通数据库擅长精确查找（比如"找 id=123 的用户"），但不擅长相似度搜索。

向量数据库专门优化了"找最相似的向量"这个操作，能在几十亿向量中快速找到最相似的几个。

常见的向量数据库

Pinecone：云服务，用得最多
Milvus：开源
Weaviate：开源
Chroma：轻量级，适合小项目
FAISS：Meta 开源的库，很多人自己搭

微调（Fine-tuning）

是什么

在已有模型的基础上，用特定数据继续训练，让模型在某个领域更专业。

比喻

预训练像是培养一个"通才"：读了所有学科的书，什么都懂一点。

微调像是让通才"专攻"某个方向：给他医学资料，让他成为医学专家。

为什么不从头训练

从头训练太贵了。微调只需要：

少量数据（几百到几万条）
少量算力（几小时到几天）
少量费用（几百到几千美元）

微调的用途

让模型学会特定的语气风格
让模型掌握专业领域知识
让模型更好地遵循指令

LoRA：低成本微调

全称：Low-Rank Adaptation，低秩适配。

是什么

一种省显存、省时间的微调方法。

传统微调要更新模型的所有参数，LoRA 只更新一小部分参数（不到 1%），效果却差不多。

为什么火

因为它让普通人也能微调大模型。以前微调 70B 模型需要好几张 A100，现在用 LoRA 一张消费级显卡就能跑。

RLHF：让模型更听话

全称：Reinforcement Learning from Human Feedback，人类反馈强化学习。

是什么

通过人类的反馈来训练模型，让它的回答更符合人类期望。

过程

让模型生成多个回答
人类标注员给这些回答排序（哪个更好）
用这些排序数据训练模型

效果

RLHF 之后的模型会：

更有帮助（不会敷衍）
更安全（拒绝有害请求）
更真实（减少编造）

ChatGPT 之所以比之前的模型"好用"，很大程度上是因为做了 RLHF。

量化（Quantization）

是什么

把模型的参数从高精度压缩到低精度，减小体积、加快速度。

比喻

高精度像是用很多位小数表示一个数：3.14159265... 低精度像是只用两位小数：3.14

精度降低一点，但数字小了很多，处理更快。

常见的精度

FP32：32位浮点数，最高精度
FP16 / BF16：16位，训练常用
INT8：8位，推理常用，体积减半
INT4：4位，激进压缩，体积减四分之三

效果

比如一个 7B 模型：

FP16：约 14GB
INT8：约 7GB
INT4：约 3.5GB

量化后的模型能在更小的显卡上跑，而且速度更快，效果损失通常可以接受。

第三章：产品形态

各种 AI 产品长什么样，在做什么。

聊天机器人

最直观的形态：一个对话框，你问它答。

代表产品

ChatGPT（OpenAI）
Claude（Anthropic）
Kimi（月之暗面）
豆包（字节）
文心一言（百度）

主要用途

问答
写作辅助
翻译
头脑风暴

AI 搜索

传统搜索给你一堆链接，AI 搜索直接给你答案。

代表产品

Perplexity
秘塔搜索
Bing Copilot

和传统搜索的区别

传统搜索："中国最高的山是什么" → 给你 10 个网页链接

AI 搜索：直接告诉你"珠穆朗玛峰，海拔 8848.86 米"，并附上信息来源。

本质

AI 搜索 = 搜索引擎 + RAG + 大模型

先搜索相关网页，然后让大模型总结成答案。

AI 编程助手

帮程序员写代码的工具。

代表产品

GitHub Copilot：最早火的
Cursor：目前最火的
Claude Code：Anthropic 的命令行工具
Codeium：免费的选择

能做什么

自动补全代码
根据描述生成代码
解释代码
找 bug
重构代码
写测试

为什么这么火

因为效果立竿见影。用过的程序员普遍反馈效率提升 30-50%。有些人说"用了就回不去了"。

AI 写作

帮你写文章、文案、邮件。

代表产品

Jasper：营销文案
Copy.ai：各种文案
Notion AI：集成在 Notion 里
各种公众号写作助手

能做什么

生成初稿
改写润色
扩写缩写
翻译
起标题

AI 绘画 / 图像生成

输入文字描述，生成图片。

代表产品

Midjourney：效果最好
DALL·E：OpenAI 的
Stable Diffusion：开源，可以本地跑
ComfyUI：Stable Diffusion 的工作流工具

用途

设计素材
产品图
插画
艺术创作

AI 视频

文字生成视频，或者图片生成视频。

代表产品

Sora：OpenAI 的，效果惊艳但还没完全开放
Runway：已经商用
Pika：短视频生成
可灵：国内的

目前的限制

时长短（通常几秒到十几秒）
可控性差（难以精确控制内容）
一致性问题（角色可能变形）

AI 语音

语音相关的 AI 应用。

语音识别（语音转文字）

Whisper：OpenAI 开源的，效果很好

语音合成（文字转语音）

ElevenLabs：支持克隆声音
各大模型自带的语音能力

实时语音对话

GPT-4o：支持语音输入输出
豆包：语音对话做得不错

第四章：行业生态

产业链分层

AI 行业可以分成几层：

┌─────────────────────────────────────────────────────┐
│                   应用层                            │
│  聊天机器人 / AI 搜索 / 编程助手 / 写作 / 绘画      │
├─────────────────────────────────────────────────────┤
│                   模型层                            │
│     GPT / Claude / Llama / 文心 / 通义 / DeepSeek   │
├─────────────────────────────────────────────────────┤
│                   平台层                            │
│        云服务 / 训练平台 / 推理服务 / 数据平台       │
├─────────────────────────────────────────────────────┤
│                   算力层                            │
│            GPU / 服务器 / 数据中心                  │
├─────────────────────────────────────────────────────┤
│                   芯片层                            │
│           NVIDIA / AMD / 华为 / 寒武纪              │
└─────────────────────────────────────────────────────┘

模型公司

专门做基础大模型的公司。

国外

公司	代表模型	特点
OpenAI	GPT-4、o1	行业领头羊，综合最强
Anthropic	Claude	强调安全，代码能力强，长上下文
Google	Gemini	多模态，和 Google 服务整合
Meta	Llama	开源路线，推动生态
Mistral	Mistral	欧洲公司，小模型效果好

国内

公司	代表模型	特点
百度	文心一言	最早发布，中文好
阿里	通义千问	有开源版本 Qwen
字节	豆包	产品化做得好
腾讯	混元	后发，接入微信生态
月之暗面	Kimi	长上下文见长
智谱	GLM	有开源版本
深度求索	DeepSeek	开源、性价比高、技术论文多
零一万物	Yi	李开复创办
百川	百川	搜索增强

云厂商

提供算力和平台服务。

能力

GPU 租用（按需或包年）
模型训练平台
模型部署服务
API 接口服务

主要玩家

国外：AWS、Google Cloud、Azure、CoreWeave

国内：阿里云、腾讯云、华为云、火山引擎、百度智能云

芯片公司

AI 计算的底层硬件。

NVIDIA

目前绝对垄断地位。数据中心 AI 芯片市场份额超过 90%。

主要产品：

H100：当前最强训练芯片
A100：上一代主力，还在大量使用
H20：针对中国市场的版本（受出口管制影响）
RTX 4090：消费级最强，很多小团队在用

为什么 NVIDIA 这么强

不只是硬件好，更重要的是 CUDA 生态。所有深度学习框架（PyTorch、TensorFlow）都是基于 CUDA 开发的，迁移成本很高。

其他玩家

AMD：MI300 系列，在追赶
Intel：Gaudi 系列，市场份额很小
华为：昇腾，国内主要替代方案
寒武纪：国内 AI 芯片

卡脖子问题

美国对中国实施芯片出口管制，高端 GPU（H100、A100）不能卖给中国。所以国内公司只能用 H20（阉割版）或者国产替代方案。这是为什么国产芯片和国产模型都在被重视。

数据公司

AI 模型的训练需要大量数据。

数据从哪来

爬取互联网公开内容
购买版权数据（书籍、论文）
合成数据（让模型生成数据）
众包标注

数据标注公司

模型训练不只需要原始数据，还需要"标注"——给数据打标签，告诉模型这是什么。

Scale AI：最大的数据标注公司
国内有很多众包平台

数据的价值

数据是 AI 的"粮食"。高质量数据越来越稀缺，有人说"互联网上的好数据已经被用光了"。

现在的趋势：

合成数据：用模型生成训练数据
私有数据：企业内部数据的价值凸显

第五章：商业模式

AI 公司怎么赚钱？

API 调用收费

按使用量收费，用多少付多少。

计费单位：Token

例子（GPT-4 价格）：

输入：$30 / 1M tokens
输出：$60 / 1M tokens

一次普通对话大概几分钱。

优点：门槛低，用多少付多少缺点：用量大了费用很高

订阅制

按月或按年付费，不限量（或有配额）使用。

例子：

ChatGPT Plus：$20/月
Claude Pro：$20/月
Cursor Pro：$20/月

优点：费用可预期缺点：用得少可能不划算

企业服务

给企业提供定制化服务。

形式：

私有化部署（模型部署在企业自己的服务器）
专属 API（独立的 API 通道）
定制微调（根据企业数据微调模型）

价格：几万到几百万不等

开源 + 商业化

模型开源，通过其他方式赚钱。

例子：

Meta 开源 Llama，不直接赚钱，但强化生态
一些公司开源模型，卖云服务

第六章：成本结构

做 AI 很费钱，钱花在哪？

训练成本

一次性投入，主要是 GPU 租用费。

模型规模	训练成本估算
7B 模型	几十万美元
70B 模型	几百万美元
GPT-4 级别	上亿美元

推理成本

持续投入，按用量计算。

OpenAI、Anthropic 这些公司每天处理上亿次请求，GPU 电费是大头。

人才成本

AI 人才非常贵。顶尖研究员年薪几百万美元很正常。

数据成本

高质量数据要么爬取（技术 + 法律成本），要么购买版权，要么标注（人工成本）。

为什么 GPU 这么贵

一张 H100：约 3 万美元
一台 8 卡服务器：约 30-40 万美元
还买不到——产能有限，大家在抢

第七章：常见问题

AI 会取代人类吗？

短期内不会。

目前的 AI 是"工具"不是"智能生命"。它擅长：

重复性、模板化的工作
辅助人类提高效率

它不擅长：

需要深度理解和创造力的工作
需要可靠性和责任的工作
需要最新信息的工作

更现实的趋势是：会用 AI 的人替代不会用的人。

开源模型和闭源模型怎么选？

	开源模型	闭源模型
效果	稍逊，但差距在缩小	通常最好
数据隐私	数据留在本地	要发给别人服务器
成本	自己部署有一次性成本	按量付费
定制性	可以微调、修改	只能用现成的

建议：

数据敏感、需要定制：开源
追求效果、快速上线：闭源
先用闭源验证需求，再考虑迁移到开源

怎么判断一个模型好不好？

看评测分数

各种 benchmark 的得分：

MMLU：综合知识
HumanEval：代码能力
GSM8K：数学能力

看实际体验

评测分数高不一定好用，要自己试试。

看社区反馈

Twitter、Reddit、知乎上的用户评价。

学 AI 应该从哪开始？

如果是想用 AI

直接用起来。ChatGPT、Claude、Kimi 都注册一个，多用多试。

学一些 Prompt Engineering 技巧，提高使用效果。

如果是想做 AI

产品方向：理解技术原理 + 产品思维
工程方向：Python + 深度学习框架 + 部署
研究方向：数学 + 论文阅读能力

术语速查表

按字母顺序，方便查阅。

术语	解释
Agent	能自主完成任务的 AI 系统，不只是聊天
API	程序调用模型的接口
CoT	Chain of Thought，让模型分步思考
Embedding	把文字转成数字向量
Fine-tuning	微调，在已有模型基础上继续训练
Function Calling	让模型能调用外部工具
GPU	图形处理器，AI 计算的核心硬件
Hallucination	幻觉，模型编造虚假信息
LLM	Large Language Model，大语言模型
LoRA	一种省资源的微调方法
MCP	Model Context Protocol，连接模型和工具的标准
Multimodal	多模态，能处理文字、图片、音视频
Prompt	给模型的输入/提示词
Quantization	量化，压缩模型体积
RAG	检索增强生成，让模型能用外部知识
RLHF	人类反馈强化学习，让模型更符合人类期望
Skills	Agent 的技能/能力
Token	模型处理文字的最小单位
Tool Use	让模型使用工具的能力
上下文长度	模型一次能处理的内容上限
推理	模型生成回答的过程
训练	让模型学习知识的过程

小结

这篇覆盖了 AI 大模型行业的主要概念：

基础概念

大模型、参数、Token、上下文长度
训练 vs 推理

热门技术

RAG：让模型用外部知识
Agent：让模型能做事
MCP：连接模型和工具的标准
Function Calling：让模型调用工具
Skills：Agent 的能力
推理模型：深度思考的模型

产品形态

聊天机器人、AI 搜索、编程助手、写作、绘画、视频

行业生态

模型公司、云厂商、芯片公司、数据公司

商业模式

API 收费、订阅制、企业服务

如果想深入了解技术细节，可以继续看这个系列的其他文章。