HiHuo
首页
博客
手册
工具
关于
首页
博客
手册
工具
关于
  • AI 模型部署指南

    • 本地部署大模型完全指南 (2024最新)
    • 第一章: 本地大模型部署入门准备
    • 第${i}章: ${title}
    • 第${i}章: ${title}
    • 第${i}章: ${title}
    • 第${i}章: ${title}

本地部署大模型完全指南 (2024最新)

关键词: 大模型部署、Ollama教程、本地LLM、私有化部署、vLLM、llama.cpp、模型量化、Open WebUI

零基础搭建私有ChatGPT,完全免费,数据安全,离线可用!

课程目录

第一章: 快速上手Ollama

关键词: Ollama安装、本地大模型、一键部署、Llama模型

  • Ollama是什么
  • 一键安装(Windows/Mac/Linux)
  • 5分钟部署第一个模型
  • 常用命令详解
  • Web界面(Open WebUI)搭建
  • 10个热门模型推荐

第二章: 模型选择与下载

关键词: 大模型对比、Llama、Qwen、Mistral、模型量化、GGUF

  • 主流开源模型对比
    • Llama 3/3.1 (Meta)
    • Qwen 2.5 (阿里)
    • Mistral 7B
    • Phi-3 (微软)
    • Gemma (Google)
  • 模型规格选择
    • 7B/13B/70B参数量
    • Q4/Q5/Q8量化精度
    • 显存需求对照表
  • 模型下载与管理
  • 自定义Modelfile

第三章: llama.cpp深度应用

关键词: llama.cpp、CPU推理、模型转换、GGUF格式

  • llama.cpp原理
  • 编译与安装
  • 模型格式转换
  • CPU推理优化
  • 参数调优
    • 上下文长度
    • 批处理大小
    • 线程数
  • Python绑定(llama-cpp-python)
  • API服务搭建

第四章: vLLM高性能部署

关键词: vLLM、GPU推理、高吞吐、生产环境、FastAPI

  • vLLM架构与优势
  • 环境准备(CUDA/PyTorch)
  • 模型部署
    • 单卡部署
    • 多卡并行
    • Tensor并行
  • 性能优化
    • PagedAttention
    • Continuous Batching
    • 量化加速
  • API服务
    • OpenAI兼容接口
    • 并发测试
    • 监控告警
  • 生产环境最佳实践

第五章: 实战应用

关键词: 私有ChatGPT、RAG系统、API集成、Docker部署

  • 场景1: 私有ChatGPT搭建

    • Open WebUI完整配置
    • 多模型切换
    • 对话历史管理
    • 用户权限控制
  • 场景2: 企业知识库(RAG)

    • 向量数据库(Chroma/Milvus)
    • 文档解析与切分
    • Embedding模型
    • 检索增强生成
  • 场景3: API服务化

    • FastAPI封装
    • 负载均衡
    • 限流熔断
    • Docker容器化
  • 场景4: AI编程助手

    • Continue.dev集成
    • VSCode插件配置
    • 代码补全与生成
  • 场景5: 智能客服

    • 流式输出
    • 多轮对话
    • 意图识别
    • 知识图谱

学习收获

学完本课程,你将掌握:

3种主流部署方案(Ollama/llama.cpp/vLLM) 10+开源大模型的使用 私有ChatGPT完整搭建 RAG企业知识库开发 生产环境部署与优化

3分钟快速开始

方案1: Ollama (最简单,推荐新手)

# 1. 安装Ollama
curl -fsSL https://ollama.com/install.sh | sh

# 2. 下载模型
ollama pull qwen2.5:7b

# 3. 运行
ollama run qwen2.5:7b

# 完成!现在可以和AI对话了

方案2: Open WebUI (图形界面)

# Docker一键部署
docker run -d -p 3000:8080 \
  -v open-webui:/app/backend/data \
  --name open-webui ghcr.io/open-webui/open-webui:main

# 访问 http://localhost:3000

方案3: vLLM (高性能)

# 安装
pip install vllm

# 启动服务
python -m vllm.entrypoints.openai.api_server \
  --model Qwen/Qwen2.5-7B-Instruct \
  --served-model-name qwen2.5

# API调用
curl http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "qwen2.5",
    "messages": [{"role": "user", "content": "你好"}]
  }'

硬件配置推荐

方案对比

方案硬件要求推理速度适用场景
Ollama (CPU)16GB内存较慢个人学习,轻量应用
Ollama (GPU)8GB显存+中等日常使用,Demo
llama.cpp8GB内存慢CPU推理,嵌入式
vLLM16GB显存+极快生产环境,高并发

显存需求对照表

模型规格FP16Q8Q5Q4
7B参数14GB7.5GB5GB4GB
13B参数26GB14GB9GB7GB
34B参数68GB35GB22GB18GB
70B参数140GB71GB45GB36GB

配置建议

入门级 (个人学习):

  • CPU: i5/R5以上
  • 内存: 16GB
  • GPU: 可选,GTX 1660 6G
  • 推荐: Ollama + 7B Q4模型

进阶级 (开发测试):

  • CPU: i7/R7
  • 内存: 32GB
  • GPU: RTX 3060 12G / RTX 4060 Ti 16G
  • 推荐: Ollama/vLLM + 7B/13B模型

生产级 (企业应用):

  • CPU: Xeon/EPYC
  • 内存: 64GB+
  • GPU: RTX 4090 24G / A100 40G/80G
  • 推荐: vLLM + 70B模型

🔥 热门模型推荐

综合能力

模型参数特点推荐场景
Qwen2.57B/14B/72B中文最强,代码能力优秀中文对话、编程
Llama 3.18B/70B/405B综合能力强,多语言通用对话、推理
Mistral 7B7B性能优秀,速度快英文对话、分析
Phi-33.8B/7B/14B小而强,效率高边缘设备、嵌入式

专业领域

模型专长推荐场景
CodeLlama代码生成编程助手、Code Review
DeepSeek Coder代码+中文中文编程、技术文档
Llama-3-Medical医疗领域医疗咨询、病历分析
FinGPT金融分析财报分析、投资建议

中文特化

模型特点优势
Qwen2.5阿里云中文理解最强
ChatGLM3清华对话能力强
Baichuan2百川智能知识问答优秀
InternLM2商汤/上海AI实验室推理能力强

📖 学习路径

Ollama快速入门

  • 安装Ollama
  • 运行第一个模型
  • 尝试5个不同模型

第2-3天: 模型选择与优化

  • 理解量化原理
  • 测试不同量化版本
  • 找到最佳性价比

第4-5天: Open WebUI搭建

  • Docker部署
  • 界面配置
  • 多模型管理

第6-7天: RAG系统开发

  • 向量数据库
  • 文档处理
  • 检索优化

第8-10天: 生产环境部署

  • vLLM配置
  • API服务
  • 性能监控

实战案例预览

案例1: 私有ChatGPT (完整代码)

# docker-compose.yml
version: '3.8'

services:
  ollama:
    image: ollama/ollama:latest
    container_name: ollama
    volumes:
      - ollama:/root/.ollama
    ports:
      - "11434:11434"
    restart: unless-stopped

  open-webui:
    image: ghcr.io/open-webui/open-webui:main
    container_name: open-webui
    ports:
      - "3000:8080"
    environment:
      - OLLAMA_BASE_URL=http://ollama:11434
    volumes:
      - open-webui:/app/backend/data
    depends_on:
      - ollama
    restart: unless-stopped

volumes:
  ollama:
  open-webui:
# 启动
docker-compose up -d

# 下载模型
docker exec ollama ollama pull qwen2.5:7b

# 访问 http://localhost:3000

案例2: RAG知识库

# rag_simple.py
from llama_index import SimpleDirectoryReader, VectorStoreIndex
from llama_index.llms import Ollama

# 1. 加载文档
documents = SimpleDirectoryReader('./docs').load_data()

# 2. 创建索引
llm = Ollama(model="qwen2.5:7b")
index = VectorStoreIndex.from_documents(documents)

# 3. 查询
query_engine = index.as_query_engine(llm=llm)
response = query_engine.query("什么是RAG?")
print(response)

案例3: API服务

# api_server.py
from fastapi import FastAPI
from pydantic import BaseModel
import ollama

app = FastAPI()

class ChatRequest(BaseModel):
    message: str
    model: str = "qwen2.5:7b"

@app.post("/chat")
async def chat(request: ChatRequest):
    response = ollama.chat(
        model=request.model,
        messages=[{'role': 'user', 'content': request.message}]
    )
    return {"response": response['message']['content']}

# 运行: uvicorn api_server:app --host 0.0.0.0 --port 8000

🛠️ 工具生态

必备工具

  • Ollama: 模型管理与运行
  • Open WebUI: Web界面
  • Docker: 容器化部署
  • GPU驱动: CUDA/ROCm

开发工具

  • LangChain: LLM应用框架
  • LlamaIndex: RAG框架
  • Chroma/Milvus: 向量数据库
  • FastAPI: API服务

监控工具

  • Prometheus: 指标采集
  • Grafana: 可视化
  • Netdata: 实时监控

安全与隐私

数据安全

  • 完全本地运行,数据不出本地
  • 支持离线使用
  • 无第三方数据收集

企业应用

  • 内网部署,数据隔离
  • 用户权限管理
  • 审计日志记录
  • 敏感信息过滤

性能对比

推理速度测试 (Token/秒)

模型Ollama (CPU)Ollama (RTX 4090)vLLM (A100)
Qwen2.5 7B Q41585150+
Llama 3.1 8B Q41280140+
Qwen2.5 72B Q4-2045+

显存占用

模型Q4Q5Q8FP16
7B4GB5GB7.5GB14GB
13B7GB9GB14GB26GB
34B18GB22GB35GB68GB

💰 成本分析

硬件投入

方案1: CPU推理 (0元GPU成本)

  • 适合:学习、轻量应用
  • 性能:可用但较慢

方案2: 消费级GPU (¥2000-8000)

  • RTX 3060 12G: ¥2500
  • RTX 4060 Ti 16G: ¥4000
  • RTX 4090 24G: ¥15000

方案3: 云服务器

  • RTX 3090: ¥3-5元/小时
  • A100 40G: ¥10-15元/小时
  • 按需使用,灵活扩展

对比OpenAI API

对比项本地部署OpenAI API
初始成本¥3000-15000¥0
使用成本电费(可忽略)¥0.03/1K tokens
数据安全完全私有⚠️ 上传云端
离线使用支持需联网
模型选择开源模型GPT系列
适用场景企业/隐私敏感快速开发/试验

投入回收: 日调用1000次,1个月回本!

推荐资源

  • Ollama官网: https://ollama.com
  • Ollama Models: https://ollama.com/library
  • Open WebUI: https://openwebui.com
  • vLLM文档: https://docs.vllm.ai
  • HuggingFace: https://huggingface.co/models

⚡ 立即开始

选择你的方案,开始部署:

  • Ollama快速入门 - 5分钟上手
  • 模型选择 - 找到最适合你的模型
  • vLLM部署 - 追求极致性能

让AI为你私人定制! 🤖

Next
第一章: 本地大模型部署入门准备