图书简介:
目 录
第1篇 绪 论
第1章 大数据分析与挖掘的概念与理论
1.1 概述
1.2 机器学习
1.2.1 机器学习的定义
1.2.2 机器学习类型
1.2.3 机器学习的应用与工具
1.3 数据挖掘与知识发现过程
1.3.1 CRISP-DM
1.3.2 知识发现
1.4 大数据分析与挖掘中的研究热点与前沿
1.4.1 商务智能研究热点与前沿
1.4.2 大数据分析热点与前沿
1.4.3 机器学习热点与前沿
1.4.4 数据挖掘热点与前沿
1.4.5 本章小结
本章参考文献
本书涉及的环境、语言、框架和库
第2篇 基础实践篇
第2章 爬虫与数据处理——“茶颜悦色”话题情感趋向的影响因素
2.1 相关理论
2.1.1 Python爬虫
2.1.2 其他相关理论
2.2 背景与分析目标
2.3 数据采集与处理
2.3.1 茶颜悦色品牌的选择
2.3.2 数据的选择
2.3.3 数据的采集
2.3.4 数据的处理
2.4 数据的分析与挖掘
2.4.1 情绪分析
2.4.2 词云分析
2.5 拓展思考
2.6 本章小结
本章参考文献
第3章 Echarts可视化——B站视频分区热度及其影响因素分析
3.1 Echarts介绍及使用
3.1.1 Echarts实例
3.1.2 系列
3.1.3 组件
3.1.4 用option描述图表
3.1.5 组件的定位
3.1.6 坐标系
3.1.7 小例子:实现日历图
3.1.8 自定义配置参数
3.2 其他相关理论
3.2.1 主题模型
3.2.2 数据预处理
3.3 背景与分析目标
3.4 数据采集与处理
3.4.1 数据采集
3.4.2 数据处理
3.5 数据分析与挖掘
3.5.1 分区热度
3.5.2 影响因素之视频标题分析
3.5.3 影响因素之视频时长和视频发布时间分析
3.6 拓展思考
3.7 本章小结
本章参考文献
第4章 Python可视化——社科基金项目选题分析
4.1 Python可视化
4.2 背景与分析目标
4.3 数据采集与处理
4.4 数据分析与挖掘
4.4.1 Matplotlib可视化分析
4.4.2 词云图
4.4.3 知识图谱
4.5 拓展思考
4.6 本章小结
本章参考文献
第5章 描述性分析——热映电影背后的成因分析
5.1 描述性分析
5.1.1 描述性分析的含义
5.1.2 基于Python的描述性统计分析
5.2 背景与分析目标
5.2.1 背景
5.2.2 分析目标
5.3 数据采集与处理
5.3.1 数据采集
5.3.2 数据处理
5.4 数据分析与挖掘
5.4.1 电影行业的整体发展情况
5.4.2 电影类型随时间的变化趋势
5.5 拓展思考
5.5.1 数据分析的意义
5.5.2 数据分析的分类
5.6 本章小结
本章参考文献
第6章 关联分析——提高相亲旅游成功率的分析
6.1 相关理论
6.1.1 关联分析概念
6.1.2 频繁项集挖掘方法
6.2 背景与分析目标
6.3 数据采集与处理
6.3.1 数据采集
6.3.2 数据预处理
6.4 数据分析与挖掘
6.4.1 用户属性定位
6.4.2 旅游路线及内容规划
6.4.3 总结
6.5 拓展思考
6.5.1 理论意义
6.5.2 实践意义
6.5.3 优点
6.5.4 不足之处
6.6 本章小结
本章参考文献
第7章 回归与分类——二手房房价影响因素及预测分析
7.1 回归与分类
7.1.1 回归分析
7.1.2 分类与预测
7.2 背景与分析目标
7.3 数据采集与处理
7.4 数据分析与挖掘
7.4.1 数据分析
7.4.2 机器学习与预测房价
7.5 拓展思考
7.6 本章小结
本章参考文献
第8章 分类——民宿价格和评分影响因素分析
8.1 相关理论
8.1.1 分类
8.1.2 线性回归
8.2 背景与分析目标
8.3 数据采集与处理
8.3.1 数据采集
8.3.2 数据预处理
8.4 数据分析与挖掘
8.4.1 民宿价格影响因素分析
8.4.2 民宿评分影响因素分析
8.4.3 结论与对策建议
8.5 拓展思考
8.5.1 理论意义
8.5.2 实践意义
8.5.3 不足之处
8.6 本章小结
本章参考文献
第9章 聚类——新冠肺炎疫情分析及微博评论的数据挖掘
9.1 聚类
9.1.1 聚类方法
9.1.2 K-means
9.1.3 DBSCAN
9.2 背景与分析目标
9.3 数据采集与处理
9.3.1 数据选择
9.3.2 数据采集
9.3.3 数据预处理
9.4 数据分析与挖掘
9.4.1 疫情数据拟合分析
9.4.2 评论数据信息挖掘
9.5 拓展思考
9.5.1 理论意义
9.5.2 实践意义
9.6 本章小结
本章参考文献
第10章 序列挖掘——景区日客流量影响因素分析与预测
10.1 相关理论
10.1.1 序列挖掘
10.1.2 其他相关理论
10.2 背景与分析目标
10.3 数据采集与处理
10.3.1 数据采集
10.3.2 影响因素分析
10.3.3 数据处理
10.4 数据分析与挖掘
10.4.1 平稳时间序列分析
10.4.2 非平稳时间序列分析
10.4.3 其他时间序列分析
10.5 拓展思考
10.5.1 理论意义
10.5.2 实践意义
10.5.3 优点
10.5.4 不足之处
10.6 本章小结
本章参考文献
第3篇 提高实践篇
第11章 文本分析——政府工作报告分析
11.1 文本分析相关理论
11.1.1 概念和方法
11.1.2 工具
11.2 背景与分析目标
11.3 数据采集与处理
11.4 数据分析与挖掘
11.5 本章小结
本章参考文献
第12章 主题模型——生育价值观变化分析
12.1 主题模型
12.1.1 LSI
12.1.2 PLSI
12.1.3 PLSA
12.1.4 LDA
12.2 背景与分析目标
12.3 数据采集与处理
12.3.1 数据选择
12.3.2 数据采集
12.3.3 数据预处理
12.4 数据分析与挖掘
12.4.1 各因素影响研究分析
12.4.2 评论数据的特征分析
12.4.3 语义网络分析
12.4.4 情感分析
12.4.5 LDA主题构建
12.5 拓展思考
12.5.1 理论意义
12.5.2 实践意义
12.5.3 优点
12.5.4 不足之处
12.6 本章小结
本章参考文献
第13章 推荐系统——基于牛客网的职位推荐分析
13.1 推荐系统
13.1.1 基于内容的推荐
13.1.2 协同过滤推荐
13.1.3 混合式推荐
13.2 背景与分析目标
13.3 数据采集与处理
13.4 数据分析与挖掘
13.4.1 可视化分析
13.4.2 推荐系统设计与开发
13.4.3 知识图谱
13.5 拓展思考
13.5.1 理论意义
13.5.2 实践意义
13.5.3 优点
13.5.4 不足之处
13.6 本章小结
本章参考文献
第14章 知识图谱——影评分析
14.1 相关理论
14.1.1 知识图谱
14.1.2 其他相关理论
14.2 背景与分析目标
14.3 数据采集与处理
14.3.1 数据采集
14.3.2 数据描述
14.3.3 数据预处理
14.4 数据分析与挖掘
14.4.1 知识图谱的构建
14.4.2 TF-IDF特征提取
14.4.3 情感分析
14.4.4 LDA主题模型
14.5 拓展思考
14.5.1 理论意义
14.5.2 实践意义
14.5.3 优点
14.5.4 不足之处
14.6 本章小结
本章参考文献
第15章 情感分析——景区印象分析
15.1 相关理论
15.1.1 情感分析
15.1.2 其他相关理论
15.2 背景与分析目标
15.2.1 背景
15.2.2 分析目标
15.2.3 A01景区的竞争形势
15.3 数据采集与处理
15.3.1 数据爬取与清洗
15.3.2 分词与去停用词
15.4 情感分析
15.4.1 关键词提取(TF-IDF)
15.4.2 词云图
15.4.3 情感分类(正、负面情感)
15.4.4 LDA主题模型
15.5 数据分析与挖掘
15.5.1 描述性统计
15.5.2 社会关系网络
15.5.3 SPSS分析
15.5.4 SWOT分析
15.6 拓展思考
15.7 本章小结
本章参考文献
第4篇 管理应用篇
第16章 网红经济背景下审丑现象的受众心理及原因分析——以马某某事件为例
16.1 引言
16.2 文献回顾及相关理论
16.2.1 文献回顾
16.2.2 相关理论
16.3 数据来源与处理
16.3.1 数据来源
16.3.2 数据处理
16.3.3 研究方法
16.4 数据挖掘与分析
16.4.1 博文关键词词频分析
16.4.2 原因类博文分析
16.4.3 评论数据分析
16.5 本章小结
16.5.1 丑味网红流行的原因
16.5.2 用户追捧审丑文化的原因
本章参考文献
第17章 丁真走红背后的那些事——基于微博数据分析
17.1 引言
17.2 文献回顾
17.3 研究方法及理论基础
17.3.1 研究方法
17.3.2 理论基础
17.4 数据挖掘与分析
17.4.1 数据爬取
17.4.2 数据处理
17.4.3 分析过程与结果
17.5 本章小结
本章参考文献
第18章 “准社会交往”原则下网红受欢迎的原因分析——基于丁真微博数据
18.1 引言
18.2 文献回顾
18.3 理论与方法
18.4 数据挖掘与分析
18.4.1 数据爬取
18.4.2 数据处理
18.4.3 分析过程与结果
18.5 本章小结
18.5.1 结论
18.5.2 启示
18.5.3 不足之处
本章参考文献
第19章 基于粉丝经济理论对消费者购买行为影响因素的分析
19.1 引言
19.2 相关理论
19.2.1 粉丝经济
19.2.2 购买意愿
19.3 数据爬取
19.4 数据处理
19.4.1 分词处理
19.4.2 数据数值化
19.5 数据分析
19.5.1 多元线性回归分析
19.5.2 一元分析与多元分析混合
19.6 情感分析
19.6.1 数据筛选
19.6.2 一般消费者情感分析
19.6.3 粉丝消费者情感分析
19.6.4 对比结论
19.7 粉丝经济乱象
19.8 建议
本章参考文献
展开
前 言
1.写作目的
在2020年中国软件教育年会上,孙家广院士指出“高校计算机教育培养人才的目标应是为行业企业培养能解决问题的工程师”,应该“又红又专、真刀真枪”地培养人才,“在培养人才上应注重学习力、执行力、诚信力、创新力、亲和力”。
目前,高校的数据分析、数据挖掘、商务智能等课程的教学方式仍存在“重理论、轻实践”的现象。为培养计算机高技能人才,我们必须关注社会的需求、企业的需求。为了全面提升学生的工程能力、跨界能力、动手落地应用实践能力,我们策划并编写了本书。
2.本书特色
本书旨在介绍大数据分析和挖掘的基本原理、方法及应用流程,通过案例分析实战,使读者能够应用书中知识解决生活和工作中的相关问题。全书分为4篇、共19章,所有章节汇总在一起完整阐述了大数据分析与挖掘的基础理论与知识,同时章节之间相对独立,案例故事单独实现,可操作性强,所有案例均提供数据和源代码。
第1篇为绪论,从整体上介绍大数据分析与挖掘的概念与理论(第1章),使读者了解大数据分析、机器学习、数据挖掘、商务智能的相关技术,了解这些技术在各个领域中的应用概貌,了解大数据分析、机器学习、数据挖掘、商务智能的研究热点与前沿。
第2篇为基础实践篇,对爬虫与数据处理(第2章)、Echarts可视化(第3章)、Python可视化(第4章)、描述性分析(第5章)、关联分析(第6章)、回归与分类(第7章)、分类(第8章)、聚类(第9章)、序列挖掘(第10章)的基本方法和理论进行了介绍,同时每一章都通过具体案例分析与实战,使读者能够掌握和应用这些方法和理论,从而帮助其解决相关问题。
第3篇为提高实践篇,主要介绍文本分析(第11章)、主题模型(第12章)、推荐系统(第13章)、知识图谱(第14章)和情感分析(第15章),使读者通过实践,理解并掌握案例中应用的方法和原理。
第4篇为管理应用篇,主要从管理学视角对基于大数据分析和挖掘的方法进行了实战案例分析。本篇针对网红经济的相关问题,通过爬取和收集网络数据进行分析建模,对审丑现象的受众心理及原因(第16章)、网红个人走红的原因(第17章)、网红个人受欢迎的原因(第18章)和基于粉丝经济理论对消费者购买行为影响因素(第19章)等通过案例进行了实战分析和解读。
3.本书适用对象
本书适用对象如下:
(1)开设数据挖掘、商务智能、数据分析等课程的高校教师和学生;
(2)数据挖掘开发人员;
(3)数据分析人员;
(4)从事数据挖掘、机器学习应用研究的科研人员。
4.致谢
本书的出版汇集了许多人的辛勤劳动。全书由万欣策划和统稿。武汉纺织大学夏火松教授和武汉大学吴江教授对本书的内容架构、案例分析给了许多宝贵意见;白艳君、徐栋、张一晗、周学妍、张会彬、陈佳敏、罗文慧、舒双婕、柳逸渊、张璇、张羿、胡佳佳、陈诗慧、贺永嘉、彭欣怡、陈婷、孙鹏举、易方兴、李荣林、朱昊昊、聂文辞、李妮、陈静、倪帆、赵轩、肖唯瞻、黄偲佳、徐航、张小玲、李佳蓉、侯玉萍、张圣博、谢豪、童颖、赵国铭、喻学良、彭春雪、汤鑫杰、彭小雪、董晓蔓、苏雨晴等同学参与了书中案例的整理、数据采集、分析和挖掘等工作。本书的出版也得到了武汉纺织大学管理学院领导和同事的大力支持,在此一并表示感谢。作者特别感谢电子工业出版社的王二华老师,王二华老师组织了“大数据与商务智能系列”图书的编写,并对本书的出版给予了大力支持。
限于作者的学识水平,书中难免存在不足和疏漏之处,敬请读者批评指正。
作者
展开