图书简介:
基础篇
第1章 导论 002
1.1 自然语言处理概述 003
1.1.1 发展历程及未来展望 003
1.1.2 研究内容与常见应用 003
1.1.3 自然语言处理的基本流程 005
1.2 自然语言处理的开发环境 007
1.2.1 Python的优势 007
1.2.2 自然语言处理开发环境配置 008
1.3 自然语言与大语言模型 013
本章小结 015
课后习题 015
第2章 文本基础处理 016
2.1 文本数据源 017
2.2 语料库 017
2.2.1 语料库的类型 018
2.2.2 语料库的用途 019
2.2.3 语料库的构建与获取 019
2.3 中文分词 023
2.3.1 常用中文分词方法 023
2.3.2 基于jieba库的中文分词 029
2.4 词性标注与命名实体识别 031
2.4.1 词性标注简介与规范 031
2.4.2 命名实体识别简介与常用算法 033
2.4.3 基于jieba库的词性标注与命名实体识别 035
2.5 关键词提取 037
2.5.1 常用关键词提取算法 037
2.5.2 提取文本关键词 039
本章小结 043
课后习题 043
第3章 文本预处理与分析 045
3.1 文本向量化与相似度 046
3.1.1 文本向量化与相似度简介 046
3.1.2 常用文本向量化方法 047
3.1.3 文本向量化实现 055
3.1.4 常用文本相似度算法 057
3.1.5 文本相似度算法实现 060
3.2 文本分析简介 062
3.2.1 结构化分析 062
3.2.2 语义化分析 064
3.3 文本分析常用算法 065
3.3.1 常用机器学习算法 065
3.3.2 常用深度学习算法 070
本章小结 076
课后习题 076
实践篇
第4章 新闻类型自动分类 080
4.1 业务背景与项目目标 081
4.1.1 业务背景 081
4.1.2 数据说明 081
4.1.3 分析目标 082
4.2 分析方法与过程 082
4.2.1 数据采集 083
4.2.2 数据探索 083
4.2.3 文本预处理 088
4.2.4 构建SVM模型 092
4.2.5 模型评估 095
本章小结 096
课后习题 097
第5章 “天问一号”事件用户评论情感分析 098
5.1 业务背景与项目目标 099
5.1.1 业务背景 099
5.1.2 数据说明 099
5.1.3 分析目标 100
5.2 分析方法与过程 101
5.2.1 数据探索 101
5.2.2 文本预处理 106
5.2.3 绘制词云图 110
5.2.4 模型构建与训练 114
5.2.5 模型评估 119
5.2.6 模型优化 121
本章小结 126
课后习题 126
第6章 游客景区印象分析 127
6.1 业务背景与项目目标 128
6.1.1 业务背景 128
6.1.2 数据说明 128
6.1.3 分析目标 129
6.2 分析方法与流程 130
6.2.1 文本预处理 130
6.2.2 景区印象分析 133
6.2.3 景区特色分析 134
6.2.4 提升景区美誉度的建议 140
本章小结 141
课后习题 141
第7章 论文标题自动生成 142
7.1 业务背景与项目目标 143
7.1.1 业务背景 143
7.1.2 数据说明 144
7.1.3 分析目标 144
7.2 分析方法与流程 145
7.2.1 文本预处理 145
7.2.2 训练模型 148
7.2.3 结果与分析 154
本章小结 156
课后习题 156
第8章 基于TipDM大数据挖掘建模平台的游客景区印象分析 157
8.1 TipDM大数据挖掘建模平台简介 158
8.1.1 共享库 159
8.1.2 数据连接 159
8.1.3 数据集 160
8.1.4 我的工程 160
8.1.5 个人组件 163
8.2 使用平台实现游客景区印象分析 164
8.2.1 使用平台实现游客景区印象分析的总体流程 164
8.2.2 配置数据源 165
8.2.3 文本预处理 167
8.2.4 景区印象分析 171
8.2.5 景区特色分析 174
本章小结 177
课后习题 178
参考文献 179
展开
自然语言处理(Natural Language Processing,NLP)技术作为智能科技领域的闪亮新星,其在数字经济时代的应用范围正日益扩大,成为数据洪流中的关键动力。在当前数字经济发展的浪潮中,自然语言处理不仅是推动信息流通和处理效率提升的重要工具,也是促进社会经济结构转型升级的关键因素。它代表着新质生产力的崛起,通过智能化手段解放和发展生产力,为经济增长注入新的活力。
新质生产力的发展强调以技术创新为核心,自然语言处理在社交媒体互动、视频内容解析、新闻资讯筛选等领域中的应用,不仅提高了信息处理的效率,也推动了内容创造和知识服务新模式的形成。在旅行规划辅助、文本自动生成等方面,自然语言处理同样展现出强大的创新能力和广泛的应用前景。
本书立足于数字经济和新质生产力的发展背景,旨在为广大自然语言处理新手提供一条边学边练的捷径。通过精选与数字经济紧密相关的中文语料案例,不仅让读者在实战中迅速掌握自然语言处理的核心技能,也为推动我国新质生产力的发展培养了一批具备实战能力的专业人才。
本书特色
本书全面贯彻党的二十大精神,以社会主义核心价值观为引领,加强基础研究、发扬斗争精神,为建设社会主义文化强国、数字强国添砖加瓦。全书将理论与实战结合,注重实战思路的融会贯通。本书采用图文并茂的方式和简洁易懂的语言,旨在引导读者从实际应用出发,循序渐进地掌握自然语言处理。从每个知识点的背景故事开始,逐步深入到原理的剖析,再通过新闻类型分类、社交媒体分析、旅游评论分析以及文本生成等案例,直观展示如何将所学技能转化为解决实际问题的利器。全书内容紧贴实用需求,避免冗余理论堆砌,专注于启发思维和提供切实可行的解决方案,让读者能够轻松上手,真正将自然语言处理应用于日常生活和工作之中。
本书适用对象
?开设有自然语言处理课程的高校学生。
?自然语言处理应用的开发人员。
?进行自然语言处理应用研究的科研人员。
代码下载及问题反馈
为了帮助读者更好地使用本书,本书配有原始数据文件、Python程序代码,以及PPT课件、教学大纲、教学进度表和教案等教学资源,读者可以扫描书后二维码免费获取。
由于编者水平有限,书中难免出现一些疏漏和不足的地方,敬请读者批评指正。如果您有更多的宝贵意见,欢迎在泰迪学社微信公众号(TipDataMining)回复“图书反馈”进行反馈。更多本系列图书的信息可以在泰迪云教材网站查阅。
编 者 ?
2025年8月
展开