嵌入模型 on 知行 - 大道至简，知易行难；道阻且长，行则将至。

嵌入模型 on 知行 - 大道至简，知易行难；道阻且长，行则将至。 https://blog.itdn.top/tags/%E5%B5%8C%E5%85%A5%E6%A8%A1%E5%9E%8B/ Recent content in 嵌入模型 on 知行 - 大道至简，知易行难；道阻且长，行则将至。 Hugo -- gohugo.io zh-CN 郑超(Charles·Zheng) Wed, 28 Jan 2026 10:30:00 +0000 「学习笔记」大模型嵌入模型（Embedding Models） https://blog.itdn.top/posts/2026/ai_embedding/ Wed, 28 Jan 2026 10:30:00 +0000 https://blog.itdn.top/posts/2026/ai_embedding/ 一、什么是嵌入模型嵌入模型（Embedding Model）是一种将非结构化数据（文本、图像、音频等）转换为高维向量的机器学习模型。这些向量能够捕捉数据的语义信息，使得相似的内容在向量空间中距离更近。 1.1 核心概念概念说明嵌入（Embedding）将离散符号（如单词、图像）映射到连续向量空间的过程向量空间（Vector Space）嵌入向量所在的高维空间，维度通常为 768、1024、1536 等语义相似性（Semantic Similarity）通过向量距离衡量数据语义相近程度上下文理解（Context Understanding）模型理解词语在不同语境下的含义 1.2 嵌入模型的作用文本 "猫很可爱" ──→ [0.12, 0.34, -0.56, ...] ──→ 向量文本 "猫咪很萌" ──→ [0.11, 0.35, -0.54, ...] ──→ 向量（与上者距离很近）嵌入模型是以下应用的基础：语义搜索：根据语义相似度检索文档推荐系统：找到相似的商品或内容 RAG（检索增强生成）：为LLM提供外部知识聚类分析：自动分组相似的数据二、主流嵌入模型 2.1 模型分类类型代表模型特点通用文本嵌入 BERT、Sentence-BERT、OpenAI Embedding 适用于大多数文本任务多语言嵌入 XLM-RoBERTa、mBERT 支持多种语言长文本嵌入 Longformer、LED 处理超长文本（10K+ tokens）多模态嵌入 CLIP、ALBEF 同时处理文本和图像 2.2 常用模型对比模型维度适用场景特点 text-embedding-3-small 1536 通用场景，平衡性能与速度 OpenAI最新模型 text-embedding-3-large 3072 需要高精度的场景更高维度，更好性能 all-MiniLM-L6-v2 384 轻量级，快速推理 Sentence-BERT系列 all-mpnet-base-v2 768 平衡效果与效率常用开源选择 bge-large-en 1024 中文优化，效果优异中文场景首选三、嵌入模型工作原理 3.