NLP on 知行 - 大道至简，知易行难；道阻且长，行则将至。

NLP on 知行 - 大道至简，知易行难；道阻且长，行则将至。 https://blog.itdn.top/tags/nlp/ Recent content in NLP on 知行 - 大道至简，知易行难；道阻且长，行则将至。 Hugo -- gohugo.io zh-CN 郑超(Charles·Zheng) Fri, 13 Feb 2026 10:00:00 +0000 「学习笔记」大模型NLP（自然语言处理） https://blog.itdn.top/posts/2026/ai_nlp/ Fri, 13 Feb 2026 10:00:00 +0000 https://blog.itdn.top/posts/2026/ai_nlp/ 一、NLP基础概念自然语言处理（Natural Language Processing, NLP）是人工智能领域中研究如何让计算机理解、处理和生成人类语言的技术。它是连接人类语言与计算机系统的桥梁。 1.1 NLP的发展历程阶段时间核心技术代表任务规则时代 1950s-1990s 基于语法规则和专家系统机器翻译（早期）、文本解析统计时代 1990s-2010s 机器学习、概率模型朴素贝叶斯分类、隐马尔可夫模型深度学习时代 2010s-至今神经网络、Transformer 预训练模型、生成式AI 1.2 NLP核心任务 mindmap root((NLP任务体系)) 基础任务分词 (Tokenization) 词性标注 (POS Tagging) 命名实体识别 (NER) 理解任务文本分类情感分析语义理解生成任务文本生成机器翻译对话系统高级任务问答系统 (QA) 摘要生成知识图谱构建 1.3 关键概念回顾在深入NLP之前，回顾我们在 AI大模型基础和大语言模型原理中学过的核心概念： Token（词元）：模型处理的最小单位，通过分词器将文本转换为Token序列 Embedding（嵌入）：将离散符号映射到连续向量空间，捕捉语义信息 Transformer：基于自注意力机制的架构，是现代NLP的基石 LLM（大语言模型）：在海量文本上预训练的大型模型，具备强大的语言理解和生成能力二、NLP核心技术 2.1 文本预处理文本预处理是NLP的第一步，将原始文本转换为模型可处理的格式。 import re import jieba def preprocess(text): # 1.