HiHuo
首页
博客
手册
工具
关于
首页
博客
手册
工具
关于

AI 大模型行业全景:从入门到看懂热词

这篇文章是写给想了解 AI 行业的人看的——不管你是投资人、产品经理、运营、销售,还是单纯对 AI 感兴趣的普通人。

看完这篇,你应该能:

  • 理解大模型是什么、怎么工作的
  • 搞清楚 RAG、Agent、MCP 这些热词是什么意思
  • 知道各种公司在做什么
  • 能听懂 AI 从业者在聊什么

不需要任何技术背景,我会用大白话和比喻来讲。篇幅比较长,可以当作一个小手册,遇到不懂的词来查。


第一章:大模型基础

大模型是什么

一句话版本:大模型是一个读了人类几乎所有文字的"超级学霸",你问它问题,它根据学过的知识来回答。

详细版本:

大模型的全称是"大语言模型"(Large Language Model,LLM)。它是一个数学模型,通过阅读海量文字(网页、书籍、论文、代码……)来学习"语言的规律"。

学完之后,它能做到:

  • 你给它一段话的开头,它能接着往下写
  • 你问它问题,它能给出回答
  • 你让它翻译、总结、改写,它都能做

但要注意:它不是真的"理解"世界。它只是从海量文字中学会了"什么词后面大概率跟什么词"。它的回答本质上是"统计预测",不是"思考"。

这也是为什么它有时会胡说八道——因为它只是在做模式匹配,如果匹配错了,就会编造不存在的东西。

参数是什么

经常听到"7B 模型"、"70B 模型"、"千亿参数",这个"参数"是什么?

比喻:参数就像是学霸大脑里的"神经连接"。连接越多,能记住的知识越多,能处理的问题越复杂。

  • 7B = 70 亿参数,小模型,能在消费级显卡上跑
  • 70B = 700 亿参数,大模型,需要专业设备
  • GPT-4 据传有上万亿参数

参数越多,模型越"聪明",但也越费钱——训练要更多时间,运行要更多机器。

Token 是什么

大模型处理文字的最小单位不是"字",而是 Token。

你可以把 token 理解成"词块":

  • 英文:大概 3-4 个字母是一个 token,"hello" 是 1 个 token
  • 中文:大概 1-2 个汉字是一个 token,"你好" 是 2 个 token

为什么要关心 token?

  1. 收费按 token 算:API 调用费用是按处理的 token 数量计费
  2. 上下文有限:模型一次能处理的 token 数量有上限
  3. 速度相关:生成越多 token,花的时间越长

上下文长度

模型一次能"看到"的内容上限,叫上下文长度(Context Length)。

  • 早期模型:4K token,大概 3000 字
  • 现在模型:128K、200K 甚至更长,能装下一本小说

上下文越长,模型能处理的内容越多:

  • 短上下文:只能处理简短对话
  • 长上下文:可以分析整本书、整个代码库

但上下文越长,费用越高,速度越慢。

训练和推理

这两个词会反复出现,区别很重要:

训练:让模型学习知识的过程。

就像培养一个学霸:给他看几亿本书,让他记住里面的知识。这个过程:

  • 只做一次(或几次)
  • 需要大量 GPU(几千张)
  • 需要很长时间(几周到几个月)
  • 花费巨大(几百万到上亿美元)

推理:让模型回答问题的过程。

就像让学霸做作业:给他一道题,他给出答案。这个过程:

  • 持续进行(用户每次提问都要推理)
  • 每次用一点点计算资源
  • 按用量持续付费

简单说:训练是"培养",推理是"使用"。

常见的大模型

国外

模型公司特点
GPT-4 / GPT-4oOpenAI最知名,综合能力强
Claude 3.5Anthropic长上下文、代码能力强
GeminiGoogle多模态,和 Google 服务整合
Llama 3Meta开源,可以免费用

国内

模型公司特点
文心一言百度中文理解好
通义千问阿里有开源版本(Qwen)
豆包字节抖音生态整合
Kimi月之暗面长上下文见长
DeepSeek深度求索开源、性价比高
GLM智谱有开源版本

第二章:热门概念详解

这部分讲最近常见的热词,按出现频率排序。

RAG:让模型能用外部知识

全称:Retrieval Augmented Generation,检索增强生成。

为什么需要 RAG?

大模型有两个问题:

  1. 知识过时:它的知识停留在训练时,之后发生的事它不知道
  2. 会编造:问它不知道的事,它可能会胡编乱造(叫"幻觉")

比如你问它"我们公司的报销流程是什么",它根本不知道你们公司的规定,要么说不知道,要么瞎编一个。

RAG 怎么解决?

思路很简单:先查资料,再回答。

  1. 用户提问:"我们公司的报销流程是什么?"
  2. 系统先去公司知识库里搜索相关文档(比如《财务制度》)
  3. 把搜到的文档内容和问题一起给模型
  4. 模型参考文档来回答

这样模型就能回答它本来不知道的问题,而且有据可依,不会乱编。

比喻:

想象你问一个学霸问题,但这个问题超出了他的知识范围。

  • 没有 RAG:学霸硬着头皮瞎编一个答案
  • 有 RAG:学霸说"等一下",去图书馆查了资料,然后根据资料回答你

RAG 的关键技术

  1. 向量化(Embedding):把文字转成一串数字,方便计算机比较"相似度"
  2. 向量数据库:专门存储和检索这些数字的数据库
  3. 检索:根据用户问题,找到最相关的文档片段
  4. 生成:把文档内容和问题一起给模型,生成回答

为什么 RAG 这么火?

因为它是让大模型在企业落地的关键技术。企业有大量内部文档、知识库,RAG 能让模型用上这些知识,回答员工的各种问题。

Agent:让模型能做事

普通的聊天机器人只能说,Agent 能做事。

什么是 Agent?

Agent(智能体)是一个能自主完成任务的 AI 系统。它不只是聊天,而是能:

  • 上网搜索信息
  • 读写文件
  • 调用各种工具(计算器、日历、邮件等)
  • 执行代码
  • 操作软件

举个例子

你对普通聊天机器人说:"帮我订下周二去北京的机票"

它会回答:"好的,您可以登录携程或飞猪进行预订……"(只是告诉你怎么做)

你对 Agent 说同样的话:

它会真的去做:

  1. 打开机票网站
  2. 搜索下周二去北京的航班
  3. 比较价格和时间
  4. 选一个合适的
  5. 帮你下单(或者问你确认)

Agent 的核心能力

  1. 规划:把复杂任务拆解成小步骤
  2. 工具调用:能使用各种外部工具
  3. 记忆:记住之前做过什么
  4. 自主决策:根据情况调整行动

为什么 Agent 这么火?

因为它是 AI 从"聊天玩具"变成"生产力工具"的关键。能聊天的 AI 有趣但用处有限,能干活的 AI 才能真正创造价值。

2024-2025 年,Agent 是最热的方向,各大公司都在做。

Function Calling / Tool Use:让模型调用工具

是什么

Function Calling(函数调用)或 Tool Use(工具使用)是让模型能调用外部功能的技术。

模型本身只会生成文字,不会上网、不会计算、不会操作软件。但通过 Function Calling,模型可以说:"我需要调用天气查询功能",然后系统帮它执行,把结果返回给模型。

举个例子

用户问:"北京今天天气怎么样?"

没有 Function Calling:

  • 模型只能根据训练数据猜测,很可能是错的

有 Function Calling:

  1. 模型判断"需要查天气"
  2. 模型输出:调用 get_weather(city="北京")
  3. 系统执行这个函数,从天气 API 获取数据
  4. 把结果返回给模型:"晴,25°C"
  5. 模型组织语言回答用户

和 Agent 的关系

Function Calling 是 Agent 的基础能力之一。Agent 要做事,就需要调用各种工具,Function Calling 就是实现这个的技术。

MCP:连接模型和外部世界的标准协议

全称:Model Context Protocol,模型上下文协议。

是什么

MCP 是 Anthropic(Claude 的公司)在 2024 年底推出的一个开放标准,目的是让 AI 模型能更方便地连接各种外部工具和数据源。

为什么需要 MCP?

现在的问题是:每个 AI 应用要连接外部工具,都得自己写一套代码。

比如你想让 AI 能:

  • 读取 Google Drive 的文件
  • 查询数据库
  • 发送 Slack 消息

你得分别写三套对接代码,而且换一个 AI 模型可能又要重写。

MCP 怎么解决?

MCP 定义了一个标准的"插头"格式。

  • 工具开发者:按 MCP 标准写一个"适配器"
  • AI 应用开发者:按 MCP 标准做一个"插座"

只要双方都遵守标准,就能即插即用,不用每次都重新对接。

比喻

想象以前的手机充电器,每个品牌都不一样,换个手机就得换充电器。

MCP 就像 USB-C 标准——大家都用同一种接口,任何充电器都能给任何手机充电。

MCP 的组成

  • MCP Server:工具那边的适配器,把工具的功能暴露出来
  • MCP Client:AI 应用那边的插座,负责调用工具
  • 协议:双方通信的标准格式

为什么火?

因为它解决了 AI 应用落地的一个大痛点:连接外部工具太麻烦。有了 MCP,生态会更繁荣——工具开发者写一次适配器,所有支持 MCP 的 AI 应用都能用。

目前 Claude Desktop、Cursor 等应用已经支持 MCP。

Skills:Agent 的技能包

是什么

Skills(技能)是 Agent 能执行的具体能力。

你可以把 Agent 想象成一个员工,Skills 就是他会的技能:

  • 会写代码
  • 会发邮件
  • 会搜索网页
  • 会读取文件
  • ……

和 Tool / Function 的区别

这几个词经常混用,但有细微区别:

  • Tool / Function:单个工具或函数,比如"调用天气 API"
  • Skill:更高层的能力,可能包含多个工具的组合使用

比如"帮用户订机票"这个 Skill,可能需要调用:搜索航班 API、比价 API、下单 API 等多个 Tool。

Skill 的例子

在 AI 编程助手(如 Cursor、Claude Code)里:

  • /commit:自动生成 git 提交信息并提交
  • /review:审查代码并给出建议
  • /refactor:重构选中的代码

这些都是 Skills——用户一句话触发,AI 执行一系列操作完成任务。

Prompt Engineering:提示词工程

是什么

Prompt 就是你给模型的输入(提示词)。Prompt Engineering 就是研究怎么写 Prompt 能让模型给出更好的回答。

为什么重要

同样的模型,Prompt 写得好不好,效果差很多。

比如让模型写一篇文章:

普通 Prompt:

写一篇关于人工智能的文章

好的 Prompt:

你是一个科技专栏作家,擅长用通俗易懂的语言解释复杂概念。请写一篇 800 字左右的文章,向完全不懂技术的读者介绍人工智能是什么。要求:使用生活中的比喻,避免专业术语,分成 3-4 个小节。

第二个 Prompt 给了:角色、目标、字数、读者、要求、格式,模型能写出更符合预期的内容。

常用技巧

  1. 给角色:"你是一个资深律师……"
  2. 给例子:"比如:输入 XX,输出 YY"
  3. 分步骤:"首先……然后……最后……"
  4. 限制格式:"用 JSON 格式输出"
  5. 要求思考:"请一步一步思考"

CoT:Chain of Thought,思维链

是什么

让模型在回答问题时,先把思考过程写出来,再给最终答案。

为什么有用

直接让模型给答案,它可能算错或推理错误。但如果让它"一步一步想",准确率会大幅提高。

例子

问题:小明有 3 个苹果,小红给了他 5 个,他吃了 2 个,还剩几个?

普通回答:

还剩 6 个。

CoT 回答:

让我一步一步计算:

  1. 小明一开始有 3 个苹果
  2. 小红给了他 5 个,现在有 3 + 5 = 8 个
  3. 他吃了 2 个,还剩 8 - 2 = 6 个

所以还剩 6 个苹果。

为什么有效

可能的解释:写出思考过程相当于给模型一个"草稿纸",让它能分步处理复杂问题,减少中间出错的概率。

Reasoning Models:推理模型

是什么

2024 年 OpenAI 发布的 o1 模型开创了一个新方向:推理模型。

普通模型是"快速回答",推理模型是"深度思考"——它会在回答前花更多时间"思考",适合解决复杂问题。

和普通模型的区别

普通模型推理模型
回答速度快慢(会"思考"几秒到几十秒)
适合问题简单问答、创意写作数学、逻辑、编程等复杂问题
费用便宜贵(思考过程也收费)
代表GPT-4o、Claude 3.5o1、o3、Claude with thinking

为什么火

因为它在很多困难任务上效果显著提升,尤其是数学竞赛、编程竞赛等需要复杂推理的任务。

幻觉(Hallucination)

是什么

模型一本正经地胡说八道,编造不存在的事实。

例子

你问:"《三体》的作者是谁?" 模型答:"刘慈欣"(正确)

你问:"刘慈欣写过哪些书?" 模型可能编出一本不存在的书名,但说得跟真的一样。

为什么会幻觉

因为模型不是在"查询知识库",而是在"预测下一个词"。当它不确定答案时,它不会说"不知道",而是会预测一个"看起来像正确答案"的回答——这就可能是编造的。

怎么减少幻觉

  1. RAG:让模型参考真实资料回答
  2. 提示词:告诉模型"如果不确定就说不知道"
  3. 验证:对重要信息进行人工核实

多模态(Multimodal)

是什么

不只能处理文字,还能处理图片、音频、视频的模型。

  • 文字模态:传统的聊天
  • 视觉模态:看图说话、图片理解
  • 音频模态:语音识别、语音合成
  • 视频模态:视频理解、视频生成

例子

  • GPT-4V:可以上传图片,让它描述或回答关于图片的问题
  • Gemini:原生多模态,文字、图片、视频都能处理
  • Sora:文字生成视频

为什么重要

现实世界的信息不只有文字。能处理多种模态的模型,应用范围更广:看报表、分析图片、理解视频内容……

Embedding:向量化

是什么

把文字转成一串数字(向量),方便计算机处理。

为什么需要

计算机不理解文字,但理解数字。把文字转成数字后,就可以:

  • 计算两段文字的"相似度"
  • 快速搜索相关内容
  • 存储到向量数据库

举个例子

"苹果很好吃" → [0.23, -0.15, 0.87, ...](一串数字) "香蕉很美味" → [0.21, -0.12, 0.85, ...](另一串数字)

这两串数字很接近(因为语义相似),而:

"今天股票涨了" → [-0.56, 0.78, -0.23, ...]

这串数字和前面两个差很远(因为语义不相关)。

在 RAG 中的作用

RAG 检索相关文档时,就是:

  1. 把用户问题转成向量
  2. 在向量数据库里找相似的向量
  3. 相似的向量对应的文档就是相关文档

向量数据库

是什么

专门存储和检索向量的数据库。

为什么需要专门的数据库

普通数据库擅长精确查找(比如"找 id=123 的用户"),但不擅长相似度搜索。

向量数据库专门优化了"找最相似的向量"这个操作,能在几十亿向量中快速找到最相似的几个。

常见的向量数据库

  • Pinecone:云服务,用得最多
  • Milvus:开源
  • Weaviate:开源
  • Chroma:轻量级,适合小项目
  • FAISS:Meta 开源的库,很多人自己搭

微调(Fine-tuning)

是什么

在已有模型的基础上,用特定数据继续训练,让模型在某个领域更专业。

比喻

预训练像是培养一个"通才":读了所有学科的书,什么都懂一点。

微调像是让通才"专攻"某个方向:给他医学资料,让他成为医学专家。

为什么不从头训练

从头训练太贵了。微调只需要:

  • 少量数据(几百到几万条)
  • 少量算力(几小时到几天)
  • 少量费用(几百到几千美元)

微调的用途

  • 让模型学会特定的语气风格
  • 让模型掌握专业领域知识
  • 让模型更好地遵循指令

LoRA:低成本微调

全称:Low-Rank Adaptation,低秩适配。

是什么

一种省显存、省时间的微调方法。

传统微调要更新模型的所有参数,LoRA 只更新一小部分参数(不到 1%),效果却差不多。

为什么火

因为它让普通人也能微调大模型。以前微调 70B 模型需要好几张 A100,现在用 LoRA 一张消费级显卡就能跑。

RLHF:让模型更听话

全称:Reinforcement Learning from Human Feedback,人类反馈强化学习。

是什么

通过人类的反馈来训练模型,让它的回答更符合人类期望。

过程

  1. 让模型生成多个回答
  2. 人类标注员给这些回答排序(哪个更好)
  3. 用这些排序数据训练模型

效果

RLHF 之后的模型会:

  • 更有帮助(不会敷衍)
  • 更安全(拒绝有害请求)
  • 更真实(减少编造)

ChatGPT 之所以比之前的模型"好用",很大程度上是因为做了 RLHF。

量化(Quantization)

是什么

把模型的参数从高精度压缩到低精度,减小体积、加快速度。

比喻

高精度像是用很多位小数表示一个数:3.14159265... 低精度像是只用两位小数:3.14

精度降低一点,但数字小了很多,处理更快。

常见的精度

  • FP32:32位浮点数,最高精度
  • FP16 / BF16:16位,训练常用
  • INT8:8位,推理常用,体积减半
  • INT4:4位,激进压缩,体积减四分之三

效果

比如一个 7B 模型:

  • FP16:约 14GB
  • INT8:约 7GB
  • INT4:约 3.5GB

量化后的模型能在更小的显卡上跑,而且速度更快,效果损失通常可以接受。


第三章:产品形态

各种 AI 产品长什么样,在做什么。

聊天机器人

最直观的形态:一个对话框,你问它答。

代表产品

  • ChatGPT(OpenAI)
  • Claude(Anthropic)
  • Kimi(月之暗面)
  • 豆包(字节)
  • 文心一言(百度)

主要用途

  • 问答
  • 写作辅助
  • 翻译
  • 头脑风暴

AI 搜索

传统搜索给你一堆链接,AI 搜索直接给你答案。

代表产品

  • Perplexity
  • 秘塔搜索
  • Bing Copilot

和传统搜索的区别

传统搜索:"中国最高的山是什么" → 给你 10 个网页链接

AI 搜索:直接告诉你"珠穆朗玛峰,海拔 8848.86 米",并附上信息来源。

本质

AI 搜索 = 搜索引擎 + RAG + 大模型

先搜索相关网页,然后让大模型总结成答案。

AI 编程助手

帮程序员写代码的工具。

代表产品

  • GitHub Copilot:最早火的
  • Cursor:目前最火的
  • Claude Code:Anthropic 的命令行工具
  • Codeium:免费的选择

能做什么

  • 自动补全代码
  • 根据描述生成代码
  • 解释代码
  • 找 bug
  • 重构代码
  • 写测试

为什么这么火

因为效果立竿见影。用过的程序员普遍反馈效率提升 30-50%。有些人说"用了就回不去了"。

AI 写作

帮你写文章、文案、邮件。

代表产品

  • Jasper:营销文案
  • Copy.ai:各种文案
  • Notion AI:集成在 Notion 里
  • 各种公众号写作助手

能做什么

  • 生成初稿
  • 改写润色
  • 扩写缩写
  • 翻译
  • 起标题

AI 绘画 / 图像生成

输入文字描述,生成图片。

代表产品

  • Midjourney:效果最好
  • DALL·E:OpenAI 的
  • Stable Diffusion:开源,可以本地跑
  • ComfyUI:Stable Diffusion 的工作流工具

用途

  • 设计素材
  • 产品图
  • 插画
  • 艺术创作

AI 视频

文字生成视频,或者图片生成视频。

代表产品

  • Sora:OpenAI 的,效果惊艳但还没完全开放
  • Runway:已经商用
  • Pika:短视频生成
  • 可灵:国内的

目前的限制

  • 时长短(通常几秒到十几秒)
  • 可控性差(难以精确控制内容)
  • 一致性问题(角色可能变形)

AI 语音

语音相关的 AI 应用。

语音识别(语音转文字)

  • Whisper:OpenAI 开源的,效果很好

语音合成(文字转语音)

  • ElevenLabs:支持克隆声音
  • 各大模型自带的语音能力

实时语音对话

  • GPT-4o:支持语音输入输出
  • 豆包:语音对话做得不错

第四章:行业生态

产业链分层

AI 行业可以分成几层:

┌─────────────────────────────────────────────────────┐
│                   应用层                            │
│  聊天机器人 / AI 搜索 / 编程助手 / 写作 / 绘画      │
├─────────────────────────────────────────────────────┤
│                   模型层                            │
│     GPT / Claude / Llama / 文心 / 通义 / DeepSeek   │
├─────────────────────────────────────────────────────┤
│                   平台层                            │
│        云服务 / 训练平台 / 推理服务 / 数据平台       │
├─────────────────────────────────────────────────────┤
│                   算力层                            │
│            GPU / 服务器 / 数据中心                  │
├─────────────────────────────────────────────────────┤
│                   芯片层                            │
│           NVIDIA / AMD / 华为 / 寒武纪              │
└─────────────────────────────────────────────────────┘

模型公司

专门做基础大模型的公司。

国外

公司代表模型特点
OpenAIGPT-4、o1行业领头羊,综合最强
AnthropicClaude强调安全,代码能力强,长上下文
GoogleGemini多模态,和 Google 服务整合
MetaLlama开源路线,推动生态
MistralMistral欧洲公司,小模型效果好

国内

公司代表模型特点
百度文心一言最早发布,中文好
阿里通义千问有开源版本 Qwen
字节豆包产品化做得好
腾讯混元后发,接入微信生态
月之暗面Kimi长上下文见长
智谱GLM有开源版本
深度求索DeepSeek开源、性价比高、技术论文多
零一万物Yi李开复创办
百川百川搜索增强

云厂商

提供算力和平台服务。

能力

  • GPU 租用(按需或包年)
  • 模型训练平台
  • 模型部署服务
  • API 接口服务

主要玩家

国外:AWS、Google Cloud、Azure、CoreWeave

国内:阿里云、腾讯云、华为云、火山引擎、百度智能云

芯片公司

AI 计算的底层硬件。

NVIDIA

目前绝对垄断地位。数据中心 AI 芯片市场份额超过 90%。

主要产品:

  • H100:当前最强训练芯片
  • A100:上一代主力,还在大量使用
  • H20:针对中国市场的版本(受出口管制影响)
  • RTX 4090:消费级最强,很多小团队在用

为什么 NVIDIA 这么强

不只是硬件好,更重要的是 CUDA 生态。所有深度学习框架(PyTorch、TensorFlow)都是基于 CUDA 开发的,迁移成本很高。

其他玩家

  • AMD:MI300 系列,在追赶
  • Intel:Gaudi 系列,市场份额很小
  • 华为:昇腾,国内主要替代方案
  • 寒武纪:国内 AI 芯片

卡脖子问题

美国对中国实施芯片出口管制,高端 GPU(H100、A100)不能卖给中国。所以国内公司只能用 H20(阉割版)或者国产替代方案。这是为什么国产芯片和国产模型都在被重视。

数据公司

AI 模型的训练需要大量数据。

数据从哪来

  • 爬取互联网公开内容
  • 购买版权数据(书籍、论文)
  • 合成数据(让模型生成数据)
  • 众包标注

数据标注公司

模型训练不只需要原始数据,还需要"标注"——给数据打标签,告诉模型这是什么。

  • Scale AI:最大的数据标注公司
  • 国内有很多众包平台

数据的价值

数据是 AI 的"粮食"。高质量数据越来越稀缺,有人说"互联网上的好数据已经被用光了"。

现在的趋势:

  • 合成数据:用模型生成训练数据
  • 私有数据:企业内部数据的价值凸显

第五章:商业模式

AI 公司怎么赚钱?

API 调用收费

按使用量收费,用多少付多少。

计费单位:Token

例子(GPT-4 价格):

  • 输入:$30 / 1M tokens
  • 输出:$60 / 1M tokens

一次普通对话大概几分钱。

优点:门槛低,用多少付多少 缺点:用量大了费用很高

订阅制

按月或按年付费,不限量(或有配额)使用。

例子:

  • ChatGPT Plus:$20/月
  • Claude Pro:$20/月
  • Cursor Pro:$20/月

优点:费用可预期 缺点:用得少可能不划算

企业服务

给企业提供定制化服务。

形式:

  • 私有化部署(模型部署在企业自己的服务器)
  • 专属 API(独立的 API 通道)
  • 定制微调(根据企业数据微调模型)

价格:几万到几百万不等

开源 + 商业化

模型开源,通过其他方式赚钱。

例子:

  • Meta 开源 Llama,不直接赚钱,但强化生态
  • 一些公司开源模型,卖云服务

第六章:成本结构

做 AI 很费钱,钱花在哪?

训练成本

一次性投入,主要是 GPU 租用费。

模型规模训练成本估算
7B 模型几十万美元
70B 模型几百万美元
GPT-4 级别上亿美元

推理成本

持续投入,按用量计算。

OpenAI、Anthropic 这些公司每天处理上亿次请求,GPU 电费是大头。

人才成本

AI 人才非常贵。顶尖研究员年薪几百万美元很正常。

数据成本

高质量数据要么爬取(技术 + 法律成本),要么购买版权,要么标注(人工成本)。

为什么 GPU 这么贵

  • 一张 H100:约 3 万美元
  • 一台 8 卡服务器:约 30-40 万美元
  • 还买不到——产能有限,大家在抢

第七章:常见问题

AI 会取代人类吗?

短期内不会。

目前的 AI 是"工具"不是"智能生命"。它擅长:

  • 重复性、模板化的工作
  • 辅助人类提高效率

它不擅长:

  • 需要深度理解和创造力的工作
  • 需要可靠性和责任的工作
  • 需要最新信息的工作

更现实的趋势是:会用 AI 的人替代不会用的人。

开源模型和闭源模型怎么选?

开源模型闭源模型
效果稍逊,但差距在缩小通常最好
数据隐私数据留在本地要发给别人服务器
成本自己部署有一次性成本按量付费
定制性可以微调、修改只能用现成的

建议:

  • 数据敏感、需要定制:开源
  • 追求效果、快速上线:闭源
  • 先用闭源验证需求,再考虑迁移到开源

怎么判断一个模型好不好?

看评测分数

各种 benchmark 的得分:

  • MMLU:综合知识
  • HumanEval:代码能力
  • GSM8K:数学能力

看实际体验

评测分数高不一定好用,要自己试试。

看社区反馈

Twitter、Reddit、知乎上的用户评价。

学 AI 应该从哪开始?

如果是想用 AI

直接用起来。ChatGPT、Claude、Kimi 都注册一个,多用多试。

学一些 Prompt Engineering 技巧,提高使用效果。

如果是想做 AI

  • 产品方向:理解技术原理 + 产品思维
  • 工程方向:Python + 深度学习框架 + 部署
  • 研究方向:数学 + 论文阅读能力

术语速查表

按字母顺序,方便查阅。

术语解释
Agent能自主完成任务的 AI 系统,不只是聊天
API程序调用模型的接口
CoTChain of Thought,让模型分步思考
Embedding把文字转成数字向量
Fine-tuning微调,在已有模型基础上继续训练
Function Calling让模型能调用外部工具
GPU图形处理器,AI 计算的核心硬件
Hallucination幻觉,模型编造虚假信息
LLMLarge Language Model,大语言模型
LoRA一种省资源的微调方法
MCPModel Context Protocol,连接模型和工具的标准
Multimodal多模态,能处理文字、图片、音视频
Prompt给模型的输入/提示词
Quantization量化,压缩模型体积
RAG检索增强生成,让模型能用外部知识
RLHF人类反馈强化学习,让模型更符合人类期望
SkillsAgent 的技能/能力
Token模型处理文字的最小单位
Tool Use让模型使用工具的能力
上下文长度模型一次能处理的内容上限
推理模型生成回答的过程
训练让模型学习知识的过程

小结

这篇覆盖了 AI 大模型行业的主要概念:

基础概念

  • 大模型、参数、Token、上下文长度
  • 训练 vs 推理

热门技术

  • RAG:让模型用外部知识
  • Agent:让模型能做事
  • MCP:连接模型和工具的标准
  • Function Calling:让模型调用工具
  • Skills:Agent 的能力
  • 推理模型:深度思考的模型

产品形态

  • 聊天机器人、AI 搜索、编程助手、写作、绘画、视频

行业生态

  • 模型公司、云厂商、芯片公司、数据公司

商业模式

  • API 收费、订阅制、企业服务

如果想深入了解技术细节,可以继续看这个系列的其他文章。