「学习笔记」AI大模型基础
文章目录
1. AI基础概念
- 人工智能(Artificial Intelligence, AI):最宏观的概念,一个庞大的科学领域,致力于创造能够执行通常需要人类智能的任务的机器系统。(AI不一定需要学习,早期AI大多基于预设的规则和逻辑。)
- 机器学习(Machine Learning, ML):实现AI的一种核心方法。其理念是:从数据中“学习”规律,而不是硬编码规则。其性能随着经验(数据)的增加而提高。
- 深度学习(Deep Learning, DL):机器学习的一个重要分支。它使用更深、更复杂的神经网络结构来学习数据。DL的强大之处在于能自动从原始数据中提取特征。
- 神经网络(Neural Network, NN):受人类大脑启发而构建的算法模型,是深度学习的基础和核心架构。它由大量相互连接的“神经元”节点组成。接收输入,进行加权求和,并通过激活函数产生输出。
- 大模型(Large Models, LM):通常指基于深度学习和大规模神经网络(如Transformer),参数规模巨大(通常达到十亿或万亿级别)的深度学习模型。大模型是当前深度学习技术发展到极致的体现。
- 大语言模型(Large Language Model, LLM):LM最突出的一个子类,特指那些专门在海量文本数据上训练,专门用于理解和生成自然语言的大模型。
它们之间的包含关系:[人工智能]-->[机器学习]-->[深度学习]-->[神经网络]-->[大模型]。
[大模型]包含:[大语言模型]:处理文本[多模态大模型]:处理文本、图像、音频等[科学大模型]:处理科学数据
1.1 AI发展关键里程碑
| 发展阶段 | 时间跨度 | 核心范式 | 关键技术/特征 | 标志性里程碑事件 |
|---|---|---|---|---|
| 第一阶段 Logic (逻辑) |
1950s - 1970s |
符号主义 (Symbolism) |
规则驱动: 通过硬编码的逻辑规则(如果-那么)让机器模拟推理。 |
1950年:图灵提出“图灵测试”,定义机器智能。 1956年:达特茅斯会议确立“人工智能”术语。 1966年:ELIZA诞生,首个模拟心理医生的聊天机器人。 |
| 过渡阶段 Knowledge (知识) |
1980s - 1990s |
专家系统 (Expert Systems) |
知识库: 将人类专家的经验转化为计算机可查询的知识库。 |
1980年代:XCON等专家系统在商业领域(如医疗诊断、设备配置)取得成功。 |
| 第二阶段 Learning (学习) |
2006年 - 2020年 |
深度学习 (Deep Learning) |
数据驱动: 利用神经网络从海量数据中自动提取特征,进行分类和识别。 |
2012年:AlexNet在图像识别竞赛中大胜,引爆深度学习革命。 2016年:AlphaGo击败李世石,展示复杂决策能力。 2017年:Google提出Transformer架构(大模型基石)。 |
| 第三阶段 Generating (生成) |
2020年 - 至今 |
大模型/生成式AI (Generative AI) |
生成创造: 基于超大规模预训练,具备通用任务处理能力,能创造文本、图像、视频。 |
2020年:GPT-3展现惊人的零样本学习能力。 2022年:ChatGPT发布,引爆全球AI应用潮。 2024年:Sora、GPT-4o实现高质量视频生成与实时多模态交互。 |
- 从“教”到“学”再到“创”:
- Logic时代,我们像严厉的老师,手把手教机器每一步规则(编程)。
- Learning时代,我们变成了教练,给机器看大量教材(数据),让它自己总结解题方法(训练模型)。
- Generating时代,机器变成了通才助手,它读完了全网知识,不仅能答题,还能帮你写报告、画插画、写代码(生成内容)。
- 在“Logic”和“Learning”之间的过渡阶段,那时候是“Knowledge is Power”(知识就是力量),人们试图把人类专家的知识库直接灌输给机器;但因为知识库太难维护,最终衰落,直到2010年左右大数据和算力突破,才迎来了真正的“Learning”时代。
- Transformer是分水岭:虽然深度学习在2006年就复兴了,但直到 2017年 Transformer 架构出现,才真正为后来的“大模型”和“生成式AI”铺平了道路。它是连接“Learning”和“Generating”的关键桥梁。
- 2022年是奇点:2022年 ChatGPT 的发布是第三次浪潮的爆发点。它让AI从实验室和服务器里走了出来,变成了每个人都能用的生产力工具。
2. 神经网络(Neural Networks)
神经网络(Neural Networks, NN)本质上是一种受生物神经元启发的多层非线性数学模型。它通过堆叠可学习的权重层和激活函数,实现对复杂数据的表示与预测。
2.1 神经元 (Neuron)
神经网络是由大量相互连接的“人工神经元”组成的计算系统。
- 神经元 (Neuron):计算加权输入+偏置(z=w⋅x+b),通过激活函数输出。
- 权重 (Weights):连接神经元,决定特征重要性,是模型学习的参数。
- 激活函数:引入非线性,使网络能拟合任意复杂函数。
- ReLU(Rectified Linear Unit): 目前最常用。公式是
f(x)=max(0,x)。隐层首选,计算快,能有效缓解梯度消失问题,就像一个“大于0就放行”的过滤器。 - Sigmoid:输出在
(0,1)之间,表示概率,常用于二分类问题的输出层。 - Softmax:输出概率归一化,和为1(所有类别概率加起来等于1),常用于多分类任务的输出层,能把输出转换为概率分布。
- ReLU(Rectified Linear Unit): 目前最常用。公式是
2.2 整体架构
一个典型的神经网络通常由以下三层构成:
| 层级 | 作用 | 比喻 |
|---|---|---|
| 输入层 | 接收原始数据(如图片像素、文字向量)。 | 原材料仓库 |
| 隐藏层 | 进行复杂的数学运算,提取特征(如从像素中识别出边缘,再识别出形状)。 | 加工车间(可以有很多层) |
| 输出层 | 给出最终结果(如“这是猫”、“情感倾向:正面”)。 | 成品包装区 |
2.3 核心工作流:前向传播与反向传播
神经网络的训练过程是一个 “预测-纠错” 的循环:
- 🚀 前向传播(Forward Propagation):数据从输入层流向输出层,逐层计算传递。
- \( \text{输入层} → h_1 = σ(W_1x + b_1) \)
- \( \text{隐藏层} → h_l = σ(W_l h_{l-1} + b_l) \)
- \( \text{输出层} → hat{y} = f(W_L h_{L-1} + b_L) \)
- 注: 其中 σ 通常为 ReLU 等非线性激活函数, f 为输出层激活函数(如 Softmax)。
- 🔙 反向传播(Back Propagation):利用链式法则,从输出层向输入层回溯,计算损失对每个权重的梯度:\( \frac{\partial L}{\partial W} = \frac{\partial L}{\partial h} \cdot \frac{\partial h}{\partial W} \)
- 关键步骤:
- 计算误差: 计算输出层误差 \( \delta_L \)。
- 误差回传: 反向传播误差至前层:\( \delta_l = (W_{l+1}^T \delta_{l+1}) \odot \sigma'(z_l) \)。
- 参数更新: 计算梯度并更新权重。
- 关键步骤:
2.4 网络架构演进
- 全连接网络 (FCN/MLP): 最基础的架构,每层神经元与下一层全连接。适合小规模结构化数据(如表格数据)。
- 卷积神经网络 (CNN): 利用局部连接和权重共享,擅长捕捉图像、视频中的空间特征(如边缘、纹理)。
- 循环神经网络 (RNN/LSTM/GRU): 具有记忆能力,擅长处理序列依赖问题(如文本、语音、时间序列)。
- Transformer: 基于自注意力机制,摒弃了循环结构,擅长并行处理长序列数据,是当前大语言模型(LLM)的基石。
2.5 神经网络总结
神经网络的核心在于层次化的特征提取(浅层抓细节,深层抓语义)和端到端的误差反向传播。
- 核心开发流通常是:
- 数据预处理 → 搭建模型骨架 (CNN/RNN/Transformer) → 定义损失与优化器 → 前向传播计算 Loss → 反向传播更新参数 → 验证与调优。
3. 词元(Token)
Token(词元)是大模型处理数据的最小单位。AI不读字,读的是Token(整数编号)。计算机无法直接理解文字,必须将文字转换为数字向量。Tokenization(分词)过程就是将原始文本切片,然后映射到一个巨大的数字索引表中。
- 英文单词可能被拆分,常见词根ing、ed会被切分为独立Token
- 例如:英文 “unhappiness” 可能被切分为 [“un”, “happy”, “ness”]。
- 中文通常一个汉字对应一个Token,相比英文,中文的Token密度会更高,表达效率也不同。
- 例如:中文 “人工智能” 可能被切分为 [“人工”, “智能”] 或 [“人”, “工”, “智”, “能”]。
3.1 上下文窗口(Context Window)
- Token定义: Token 是自然语言在分词器作用下,映射到高维向量空间的离散化索引。它是模型输入输出的最小语义单元,也是计算成本的原子单位。
- 分词算法: 现代大模型多采用 Byte Pair Encoding 或 SentencePiece。它们通过统计词频,将高频的字节对或字符对不断合并,形成一个混合了单词、子词和单字的词表。
- 信息密度: 一个 Token 承载的信息量是不均等的。例如,“的”承载的语义信息极少,而一个专业术语(如“Transformer”)承载的信息量极大。
- 上下文窗口(Context Window)是模型在一次前向传播中,能够访问的最大
Token序列长度。它定义了模型的工作记忆容量。- 技术瓶颈: 核心在于自注意力机制的计算复杂度为 O(N^2),显存占用(特别是 Key-Value Cache)也随序列长度线性或平方级增长。
- 位置外推: 模型在训练时通常有一个固定的上下文长度(如 8k),通过调整位置编码(如 NTK-by-parts, Linear Scaling),可以让模型在推理时支持更长的上下文(如 32k 或 128k),但这通常以牺牲长距离依赖的精度为代价。
- KV Cache: 为了加速自回归生成,模型会缓存每一层的 Key 和 Value 矩阵。随着对话轮次增加,KV Cache 会占用巨大的显存,这是限制长对话的主要物理因素。
- “中间遗忘”效应: 研究表明,模型对输入序列的开头和结尾部分记忆最深刻,而对中间部分的记忆相对薄弱。这被称为“序列位置偏差”。
3.2 Token扩展
- 大模型的本质:规模化的“下一个Token预测”。
- Token 与 Embedding: Token 本身只是一个 ID,必须通过 Embedding Lookup Table 转换为稠密的向量(Embedding),模型才能进行数学运算。这个向量空间的维度通常在几千维。
- 多模态 Token: 在多模态模型中,图像被分割为“图像块”,通过 Vision Transformer 编码为视觉 Token;音频被编码为声学 Token。最终所有模态都统一在同一个 Token 空间中进行处理。
4. 温度(Temperature)与 幻觉(Hallucination)
4.1 温度(Temperature) —— 概率分布的锐化系数
温度(Temperature) 是一个关键超参数,控制生成结果的熵。用于调节模型生成文本的随机性和创造性。其值通常在0到2之间,数值越低输出越确定和稳定,数值越高则越多样化和富有创意。
- 作用原理:温度通过调整模型输出的概率分布来控制词选择的随机性。低温度(如0.1-0.3)放大高概率词的优势,抑制低概率词,使输出更“保守”;高温度(如0.8-2.0)平滑概率分布,增加低概率词被选中的机会,使输出更“放飞”。
- 典型场景:
- 低温(0-0.3):适合需要准确性和稳定性的任务,如事实问答、代码生成或数学解题,输出更“老实”但可能呆板。
- 中温(0.4-0.7):平衡准确与自然,适用于日常聊天或文章摘要,输出更易读和亲切。
- 高温(0.8-2.0):激发创意,适合故事创作、诗歌或头脑风暴,输出可能新颖但易出现逻辑错误或“胡说八道”。
- 设置建议:根据任务需求调整温度,避免“温度越高越聪明”的误区。创意任务可搭配Top-p等参数协同优化,但需注意高温可能增加幻觉风险。
- Top-k 与 Top-p: 除了温度,还有更高级的采样策略。
- Top-k: 只从概率最高的 k 个词中采样。
- Top-p: 从累积概率超过 p 的最小词集中采样(也叫核采样)。这些方法通常比单纯调整温度更能保证生成文本的质量。
4.2 幻觉(Hallucination) —— 概率与事实的错位
“幻觉”(Hallucination) 指的是大模型“一本正经地胡说八道”。指模型生成的内容在事实性、逻辑性或忠实度上与真实世界或输入上下文不一致的现象。
- 产生幻觉的原因 :
- 概率游戏而非事实库:大模型的核心是预测“下一个最可能出现的词”。
- 训练数据的缺陷:模型的知识源于海量的互联网数据,这些数据本身就可能包含错误、过时信息或矛盾之处。模型缺乏辨别真伪的能力,可能会把虚构的内容当成事实学习。
- “过度自信”的对齐机制:在训练的最后阶段(RLHF),为了讨好人类反馈,模型学会了表现得自信和乐于助人。这导致它倾向于给出一个看似完美的回答,即使这个回答是编造的。
- 复杂推理的失误:在进行长链条的逻辑推理或数学计算时,模型可能在某一步骤出错,导致后续结果完全偏离轨道。
- 知识截止日期: 模型的知识固化在训练数据中,无法感知训练日期之后发生的事件。
- 越狱攻击: 攻击者通过精心设计的提示词,利用长上下文窗口中的信息,诱导模型绕过对齐机制(Alignment),生成有害或虚假内容。
- 幻觉缓解策略:
- RAG: 检索增强生成,通过外部知识库实时检索信息注入上下文,弥补模型内部知识的不足。
- 事实性校验: 在生成过程中引入事实核查模块,或使用基于强化学习的对齐技术。
4.3 温度对幻觉的影响
大模型的温度参数(Temperature)直接影响生成文本的随机性和幻觉概率:温度越低,模型输出越保守、幻觉越少;温度越高,随机性越大,幻觉风险显著增加。
- 低温度(如 0.1-0.5):概率分布更集中,模型优先选择高置信度词汇,减少虚构内容。例如,在事实问答或文档总结等需高准确性的任务中,低温设置可将幻觉率降至最低。
- 高温度(如 >1.0):概率分布更平滑,低概率词汇被激活,导致输出更具创造性但易产生幻觉。例如,温度设为 1.5 时,模型可能生成逻辑合理但事实错误的内容。
- 极端温度(=0 或 >2):温度为 0 时触发贪婪采样(仅选最高概率词),但若训练数据有误,仍可能输出错误答案;温度过高则放大尾部 token 概率,加剧长尾错误。
最佳实践建议
- 场景化设置:
- 严谨任务(如医疗诊断、金融分析):使用低温(0.2-0.5)以抑制幻觉。
- 创意任务(如头脑风暴):可适度提高温度(1.0-1.5),但需配合事实核查。
- 结合其他方法:低温虽有效,但无法彻底消除幻觉(因训练数据缺陷仍存在)。建议与检索增强生成(RAG)、提示词优化等技术结合,进一步降低风险。
- 注:当前主流模型(如 DeepSeek)通常将 T=0.3~0.7 设为严谨模式,T=1.5~2.0 为创意模式。
总结
如果将大模型视为一个计算机系统:
- 输入层: 输入的提示(
Prompt)被 Tokenizer 切割并映射为Token ID流。 - 内存层: 这些
Token ID及其对应的Embedding向量被加载到 上下文窗口(有限的内存空间)中。 - 计算层: Transformer 架构通过多层自注意力和前馈网络,对这些向量进行复杂的非线性变换,计算出下一个
Token的概率分布。 - 控制层: Temperature 参数调节这个概率分布的锐化程度,决定是“死板照抄”还是“自由发挥”。
- 输出层: 模型根据调整后的概率采样出下一个
Token,并将其反馈回输入端,形成自回归循环。 - 风险层: 在整个过程中,由于训练数据的局限性和概率生成的本质,幻觉始终是一个潜在的系统级
Bug。
END .
相关系列文章
- 「学习笔记」大模型GraphRAG(知识图谱增强检索)
- 「学习笔记」Milvus 向量数据库入门
- 「学习笔记」向量数据库 (Vector Database)
- 「学习笔记」大模型RAG(检索增强生成)
- 「学习笔记」大模型提示工程(Prompt Engineering)
- 「学习笔记」大语言模型(LLM)原理
- 「学习笔记」AI大模型基础