「学习笔记」AI大模型基础

文章目录

一、AI 基础概念

  • 人工智能(Artificial Intelligence, AI):最宏观的概念,一个庞大的科学领域,致力于创造能够执行通常需要人类智能的任务的机器系统(AI 不一定需要学习,早期 AI 大多基于预设的规则和逻辑)
  • 机器学习(Machine Learning, ML):实现 AI 的一种核心方法。其理念是:从数据中“学习”规律,而不是硬编码规则。其性能随着经验(数据)的增加而提高
  • 深度学习(Deep Learning, DL):机器学习的一个重要分支。它使用更深、更复杂的神经网络结构来学习数据。DL 的强大之处在于能自动从原始数据中提取特征
  • 神经网络(Neural Network, NN):受人类大脑启发而构建的算法模型,是深度学习的基础和核心架构。它由大量相互连接的“神经元”节点组成,接收输入,进行加权求和,并通过激活函数产生输出
  • 大模型(Large Models, LM):通常指基于深度学习大规模神经网络(如 Transformer),参数规模巨大(通常达到十亿万亿级别)的深度学习模型。大模型是当前深度学习技术发展到极致的体现
  • 大语言模型(Large Language Model, LLM):LM 最突出的一个子类,特指那些专门在海量文本数据上训练,专门用于理解和生成自然语言的大模型

它们之间的包含关系:[人工智能] → [机器学习] → [深度学习] → [神经网络] → [大模型]

大模型包含

  • [大语言模型]:处理文本
  • [多模态大模型]:处理文本、图像、音频等
  • [科学大模型]:处理科学数据

1.1 AI 发展关键里程碑

发展阶段 时间跨度 核心范式 关键技术/特征 标志性里程碑事件
第一阶段
Logic (逻辑)
1950年 - 1970年 符号主义
(Symbolism)
规则驱动:通过硬编码的逻辑规则(如果-那么)让机器模拟推理 1950年:图灵提出“图灵测试”,定义机器智能
1956年:达特茅斯会议确立“人工智能”术语
1966年:ELIZA 诞生,首个模拟心理医生的聊天机器人
过渡阶段
Knowledge (知识)
1980年 - 1990年 专家系统
(Expert Systems)
知识库:将人类专家的经验转化为计算机可查询的知识库 1980年代:XCON 等专家系统在商业领域(如医疗诊断、设备配置)取得成功
第二阶段
Learning (学习)
2006年 - 2020年 深度学习
(Deep Learning)
数据驱动:利用神经网络从海量数据中自动提取特征,进行分类和识别 2012年:AlexNet 在图像识别竞赛中大胜,引爆深度学习革命
2016年:AlphaGo 击败李世石,展示复杂决策能力
2017年:Google 提出 Transformer 架构(大模型基石)
第三阶段
Generating (生成)
2020年 - 至今 大模型/生成式AI
(Generative AI)
生成创造:基于超大规模预训练,具备通用任务处理能力,能创造文本、图像、视频 2020年:GPT-3 展现惊人的零样本学习能力
2022年:ChatGPT 发布,引爆全球 AI 应用潮
2024年:Sora、GPT-4o 实现高质量视频生成与实时多模态交互

关键洞察

  1. 从“教”到“学”再到“创”

    • Logic 时代:像严厉的老师,手把手教机器每一步规则(编程)
    • Learning 时代:变成教练,给机器看大量教材(数据),让它自己总结解题方法(训练模型)
    • Generating 时代:机器变成通才助手,读完了全网知识,不仅能答题,还能帮你写报告、画插画、写代码(生成内容)
  2. 知识工程的兴衰:在“Logic”和“Learning”之间的过渡阶段,“Knowledge is Power”(知识就是力量),人们试图把人类专家的知识库直接灌输给机器;但因为知识库太难维护,最终衰落,直到 2010 年左右大数据和算力突破,才迎来了真正的“Learning”时代

  3. Transformer 是分水岭:虽然深度学习在 2006 年就复兴了,但直到 2017 年 Transformer 架构出现,才真正为后来的“大模型”和“生成式 AI”铺平了道路。它是连接“Learning”和“Generating”的关键桥梁

  4. 2022 年是奇点:2022 年 ChatGPT 的发布是第三次浪潮的爆发点。它让 AI 从实验室和服务器里走了出来,变成了每个人都能用的生产力工具

二、神经网络(Neural Networks)

神经网络(Neural Networks, NN)本质上是一种受生物神经元启发的多层非线性数学模型。它通过堆叠可学习的权重层和激活函数,实现对复杂数据的表示与预测。

2.1 神经元 (Neuron)

神经网络是由大量相互连接的“人工神经元”组成的计算系统。

  • 神经元 (Neuron):计算加权输入+偏置(z=w⋅x+b),通过激活函数输出
  • 权重 (Weights):连接神经元,决定特征重要性,是模型学习的参数
  • 激活函数:引入非线性,使网络能拟合任意复杂函数
    • ReLU(Rectified Linear Unit):目前最常用,公式是 f(x)=max(0,x)隐层首选,计算快,能有效缓解梯度消失问题,就像一个“大于0就放行”的过滤器
    • Sigmoid:输出在 (0,1) 之间,表示概率,常用于二分类问题的输出层
    • Softmax:输出概率归一化,和为1(所有类别概率加起来等于1),常用于多分类任务的输出层,能把输出转换为概率分布

2.2 整体架构

一个典型的神经网络通常由以下三层构成:

层级 作用 比喻
输入层 接收原始数据(如图片像素、文字向量) 原材料仓库
隐藏层 进行复杂的数学运算,提取特征(如从像素中识别出边缘,再识别出形状) 加工车间(可以有很多层)
输出层 给出最终结果(如“这是猫”、“情感倾向:正面”) 成品包装区

2.3 核心工作流:前向传播与反向传播

神经网络的训练过程是一个“预测-纠错”的循环:

  • 🚀 前向传播(Forward Propagation):数据从输入层流向输出层,逐层计算传递

    • \( \text{输入层} → h_1 = σ(W_1x + b_1) \)
    • \( \text{隐藏层} → h_l = σ(W_l h_{l-1} + b_l) \)
    • \( \text{输出层} → \hat{y} = f(W_L h_{L-1} + b_L) \)
    • :其中 σ 通常为 ReLU 等非线性激活函数,f 为输出层激活函数(如 Softmax)
  • 🔙 反向传播(Back Propagation):利用链式法则,从输出层向输入层回溯,计算损失对每个权重的梯度:\( \frac{\partial L}{\partial W} = \frac{\partial L}{\partial h} \cdot \frac{\partial h}{\partial W} \)

关键步骤

  1. 计算误差:计算输出层误差 \( \delta_L \)
  2. 误差回传:反向传播误差至前层:\( \delta_l = (W_{l+1}^T \delta_{l+1}) \odot \sigma'(z_l) \)
  3. 参数更新:计算梯度并更新权重

2.4 网络架构演进

  • 全连接网络 (FCN/MLP):最基础的架构,每层神经元与下一层全连接。适合小规模结构化数据(如表格数据)
  • 卷积神经网络 (CNN):利用局部连接和权重共享,擅长捕捉图像、视频中的空间特征(如边缘、纹理)
  • 循环神经网络 (RNN/LSTM/GRU):具有记忆能力,擅长处理序列依赖问题(如文本、语音、时间序列)
  • Transformer:基于自注意力机制,摒弃了循环结构,擅长并行处理长序列数据,是当前大语言模型(LLM)的基石

2.5 神经网络总结

神经网络的核心在于层次化的特征提取(浅层抓细节,深层抓语义)和端到端的误差反向传播

核心开发流程数据预处理 → 搭建模型骨架 (CNN/RNN/Transformer) → 定义损失与优化器 → 前向传播计算 Loss → 反向传播更新参数 → 验证与调优

三、词元(Token)

Token(词元)是大模型处理数据的最小单位。AI 不读字,读的是 Token(整数编号)。计算机无法直接理解文字,必须将文字转换为数字向量。Tokenization(分词)过程就是将原始文本切片,然后映射到一个巨大的数字索引表中。

  • 英文分词:英文单词可能被拆分,常见词根 ing、ed 会被切分为独立 Token
    • 例如:英文 “unhappiness” 可能被切分为 ["un", "happy", "ness"]
  • 中文分词:中文通常一个汉字对应一个 Token,相比英文,中文的 Token 密度会更高,表达效率也不同
    • 例如:中文 “人工智能” 可能被切分为 ["人工", "智能"]["人", "工", "智", "能"]

3.1 上下文窗口(Context Window)

  • Token 定义:Token 是自然语言在分词器作用下,映射到高维向量空间的离散化索引。它是模型输入输出的最小语义单元,也是计算成本的原子单位

    • 分词算法:现代大模型多采用 Byte Pair EncodingSentencePiece。它们通过统计词频,将高频的字节对或字符对不断合并,形成一个混合了单词、子词和单字的词表
    • 信息密度:一个 Token 承载的信息量是不均等的。例如,“的”承载的语义信息极少,而一个专业术语(如“Transformer”)承载的信息量极大
  • 上下文窗口(Context Window)是模型在一次前向传播中,能够访问的最大 Token 序列长度。它定义了模型的工作记忆容量

    • 技术瓶颈:核心在于自注意力机制的计算复杂度为 O(N^2),显存占用(特别是 Key-Value Cache)也随序列长度线性或平方级增长
    • 位置外推:模型在训练时通常有一个固定的上下文长度(如 8k),通过调整位置编码(如 NTK-by-parts, Linear Scaling),可以让模型在推理时支持更长的上下文(如 32k 或 128k),但这通常以牺牲长距离依赖的精度为代价
    • KV Cache:为了加速自回归生成,模型会缓存每一层的 Key 和 Value 矩阵。随着对话轮次增加,KV Cache 会占用巨大的显存,这是限制长对话的主要物理因素
    • “中间遗忘”效应:研究表明,模型对输入序列的开头结尾部分记忆最深刻,而对中间部分的记忆相对薄弱。这被称为“序列位置偏差”

3.2 Token 扩展

  • 大模型的本质:规模化的“下一个 Token 预测”
  • Token 与 Embedding:Token 本身只是一个 ID,必须通过 Embedding Lookup Table 转换为稠密的向量(Embedding),模型才能进行数学运算。这个向量空间的维度通常在几千维
  • 多模态 Token:在多模态模型中,图像被分割为“图像块”,通过 Vision Transformer 编码为视觉 Token;音频被编码为声学 Token。最终所有模态都统一在同一个 Token 空间中进行处理

四、温度(Temperature)与幻觉(Hallucination)

4.1 温度(Temperature)—— 概率分布的锐化系数

温度(Temperature) 是一个关键超参数,控制生成结果的。用于调节模型生成文本的随机性和创造性。其值通常在 0 到 2 之间,数值越低输出越确定和稳定,数值越高则越多样化和富有创意。

  • 作用原理:温度通过调整模型输出的概率分布来控制词选择的随机性。低温度(如 0.1-0.3)放大高概率词的优势,抑制低概率词,使输出更“保守”;高温度(如 0.8-2.0)平滑概率分布,增加低概率词被选中的机会,使输出更“放飞”

  • 典型场景

    • 低温(0-0.3):适合需要准确性和稳定性的任务,如事实问答、代码生成或数学解题,输出更“老实”但可能呆板
    • 中温(0.4-0.7):平衡准确与自然,适用于日常聊天或文章摘要,输出更易读和亲切
    • 高温(0.8-2.0):激发创意,适合故事创作、诗歌或头脑风暴,输出可能新颖但易出现逻辑错误或“胡说八道”
  • 设置建议:根据任务需求调整温度,避免“温度越高越聪明”的误区。创意任务可搭配 Top-p 等参数协同优化,但需注意高温可能增加幻觉风险

  • Top-k 与 Top-p:除了温度,还有更高级的采样策略

    • Top-k:只从概率最高的 k 个词中采样
    • Top-p:从累积概率超过 p 的最小词集中采样(也叫核采样)。这些方法通常比单纯调整温度更能保证生成文本的质量

4.2 幻觉(Hallucination)—— 概率与事实的错位

“幻觉”(Hallucination) 指的是大模型“一本正经地胡说八道”。指模型生成的内容在事实性、逻辑性或忠实度上与真实世界或输入上下文不一致的现象。

产生幻觉的原因

  • 概率游戏而非事实库:大模型的核心是预测“下一个最可能出现的词”
  • 训练数据的缺陷:模型的知识源于海量的互联网数据,这些数据本身就可能包含错误、过时信息或矛盾之处。模型缺乏辨别真伪的能力,可能会把虚构的内容当成事实学习
  • “过度自信”的对齐机制:在训练的最后阶段(RLHF),为了讨好人类反馈,模型学会了表现得自信和乐于助人。这导致它倾向于给出一个看似完美的回答,即使这个回答是编造的
  • 复杂推理的失误:在进行长链条的逻辑推理或数学计算时,模型可能在某一步骤出错,导致后续结果完全偏离轨道
  • 知识截止日期:模型的知识固化在训练数据中,无法感知训练日期之后发生的事件
  • 越狱攻击:攻击者通过精心设计的提示词,利用长上下文窗口中的信息,诱导模型绕过对齐机制(Alignment),生成有害或虚假内容

幻觉缓解策略

  • RAG:检索增强生成,通过外部知识库实时检索信息注入上下文,弥补模型内部知识的不足
  • 事实性校验:在生成过程中引入事实核查模块,或使用基于强化学习的对齐技术

4.3 温度对幻觉的影响

大模型的温度参数(Temperature)直接影响生成文本的随机性和幻觉概率:温度越低,模型输出越保守、幻觉越少;温度越高,随机性越大,幻觉风险显著增加。

  • 低温度(如 0.1-0.5):概率分布更集中,模型优先选择高置信度词汇,减少虚构内容。例如,在事实问答或文档总结等需高准确性的任务中,低温设置可将幻觉率降至最低
  • 高温度(如 >1.0):概率分布更平滑,低概率词汇被激活,导致输出更具创造性但易产生幻觉。例如,温度设为 1.5 时,模型可能生成逻辑合理但事实错误的内容
  • 极端温度(=0 或 >2):温度为 0 时触发贪婪采样(仅选最高概率词),但若训练数据有误,仍可能输出错误答案;温度过高则放大尾部 token 概率,加剧长尾错误

最佳实践建议

  • 场景化设置
    • 严谨任务(如医疗诊断、金融分析):使用低温(0.2-0.5)以抑制幻觉
    • 创意任务(如头脑风暴):可适度提高温度(1.0-1.5),但需配合事实核查
  • 结合其他方法:低温虽有效,但无法彻底消除幻觉(因训练数据缺陷仍存在)。建议与检索增强生成(RAG)、提示词优化等技术结合,进一步降低风险
  • :当前主流模型(如 DeepSeek)通常将 T=0.3~0.7 设为严谨模式,T=1.5~2.0 为创意模式

总结

如果将大模型视为一个计算机系统

  1. 输入层:输入的提示(Prompt)被 Tokenizer 切割并映射为 Token ID
  2. 内存层:这些 Token ID 及其对应的 Embedding 向量被加载到 上下文窗口(有限的内存空间)中
  3. 计算层Transformer 架构通过多层自注意力和前馈网络,对这些向量进行复杂的非线性变换,计算出下一个 Token 的概率分布
  4. 控制层Temperature 参数调节这个概率分布的锐化程度,决定是“死板照抄”还是“自由发挥”
  5. 输出层:模型根据调整后的概率采样出下一个 Token,并将其反馈回输入端,形成自回归循环
  6. 风险层:在整个过程中,由于训练数据的局限性和概率生成的本质,幻觉始终是一个潜在的系统级 Bug
END .

相关系列文章

×