<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom">
  <channel>
    <title>NLP on 知行 - 大道至简，知易行难；道阻且长，行则将至。</title>
    <link>https://blog.itdn.top/tags/nlp/</link>
    <description>Recent content in NLP on 知行 - 大道至简，知易行难；道阻且长，行则将至。</description>
    <generator>Hugo -- gohugo.io</generator>
    <language>zh-CN</language>
    <copyright>郑超(Charles·Zheng)</copyright>
    <lastBuildDate>Fri, 13 Feb 2026 10:00:00 +0000</lastBuildDate><atom:link href="https://blog.itdn.top/tags/nlp/index.xml" rel="self" type="application/rss+xml" />
    <item>
      <title>「学习笔记」大模型NLP（自然语言处理）</title>
      <link>https://blog.itdn.top/posts/2026/ai_nlp/</link>
      <pubDate>Fri, 13 Feb 2026 10:00:00 +0000</pubDate>
      
      <guid>https://blog.itdn.top/posts/2026/ai_nlp/</guid>
      <description>
        
          
            一、NLP基础概念 自然语言处理（Natural Language Processing, NLP） 是人工智能领域中研究如何让计算机理解、处理和生成人类语言的技术。它是连接人类语言与计算机系统的桥梁。
1.1 NLP的发展历程 阶段 时间 核心技术 代表任务 规则时代 1950s-1990s 基于语法规则和专家系统 机器翻译（早期）、文本解析 统计时代 1990s-2010s 机器学习、概率模型 朴素贝叶斯分类、隐马尔可夫模型 深度学习时代 2010s-至今 神经网络、Transformer 预训练模型、生成式AI 1.2 NLP核心任务 mindmaproot((NLP任务体系))基础任务分词 (Tokenization)词性标注 (POS Tagging)命名实体识别 (NER)理解任务文本分类情感分析语义理解生成任务文本生成机器翻译对话系统高级任务问答系统 (QA)摘要生成知识图谱构建1.3 关键概念回顾 在深入NLP之前，回顾我们在 AI大模型基础 和 大语言模型原理 中学过的核心概念：
Token（词元）：模型处理的最小单位，通过分词器将文本转换为Token序列 Embedding（嵌入）：将离散符号映射到连续向量空间，捕捉语义信息 Transformer：基于自注意力机制的架构，是现代NLP的基石 LLM（大语言模型）：在海量文本上预训练的大型模型，具备强大的语言理解和生成能力 二、NLP核心技术 2.1 文本预处理 文本预处理是NLP的第一步，将原始文本转换为模型可处理的格式。
import re import jieba def preprocess(text): # 1.
          
          
        
      </description>
    </item>
    
  </channel>
</rss>
