type
Post
status
Published
date
Mar 3, 2025
slug
summary
tags
思考
LLM
category
知行合一
icon
password
本系列文章将从「实战」出发,系统解析LLM微调(Fine-tuning)、检索增强生成(Retrieval-Augmented Generation, RAG)、智能体(AI Agent)、模型上下文协议(Model Context Protocol, MCP)等热门技术,深入探讨LangChain、ReAct、CoT(Chain of Thought)、LoRA、PEFT(Parameter-Efficient Fine-Tuning)、向量数据库、提示词工程(Prompt Engineering)、知识库构建、工具调用(Tool Use)、多模态融合、智能体编排(Agent Orchestration)等关键概念。

📝 主旨内容
常见的微调方法
- 全量微调(Full Fine-tuning)
- 参数高效微调(Parameter-Efficient Fine-Tuning)
- 指令微调(Instruction Tuning)
- 持续微调(Continual Fine-tuning)
微调方式 | 参数更新量 | 资源消耗 | 典型方法 | 场景举例 |
全量微调 | ★★★★★ | ★★★★★ | Full FT | 医疗QA、法律文书生成 |
PEFT(如LoRA) | ★★☆☆☆ | ★★☆☆☆ | LoRA、Adapter | 客服机器人、行业问答、语义搜索 |
指令微调 | ★★★☆☆ | ★★★☆☆ | SFT + RLHF | 聊天助手、智能交互、多轮对话 |
持续微调 | ★★★☆☆ | ★★☆☆☆ | Incremental | 舆情追踪、新闻摘要、金融预警 |
应用场景
👨⚕️全量微调 ➡️ 企业自建大规模、专域数据充分的场景(如金融、法律、医疗)
💬参数高效微调 ➡️ 轻量级应用(客服机器人、定制问答)快速验证业务新方向
🤖指令微调 ➡️ ChatGPT通用问答助手,理解用户意图,配合RLHF
📈持续微调 ➡️ 实时业务数据演进(如金融新闻、舆情分析)企业知识动态更新
全量微调(Full Fine-tuning)
- 关键词:全参数更新、计算资源消耗大、监督学习、迁移学习、Catastrophic Forgetting
参数高效微调(PEFT)
- 代表方法包括:
- LoRA(Low-Rank Adaptation):只训练低秩矩阵,减少参数更新量;
- Adapter:在层间插入小网络模块,仅调这些模块;
- Prefix/Prompt Tuning:在模型前加提示向量,冻结主模型。
- 关键词:低资源、高效、冻结主模型、兼容性好、多任务、LoRA权重合并、Hub管理
指令微调(Instruction Tuning)
- 关键词:Instruction Dataset、SFT(Supervised Fine-tuning)、对齐(Alignment)、用户意图、Zero-shot/One-shot能力
持续微调(Continual Fine-tuning / Domain Adaptation)
- 关键词:Lifelong Learning、知识注入、灾难性遗忘、数据漂移、增量训练
LoRA/QLoRA 微调
QLoRA = 量化的LoRA微调

🤗 总结归纳
-
📎 参考文章
- Author:YelloooBlue
- URL:https://tangly1024.com/article/1abe32f0-1b7f-80fe-a896-e676ec79de6f
- Copyright:All articles in this blog, except for special statements, adopt BY-NC-SA agreement. Please indicate the source!







