华信教育资源网
大数据分析与挖掘实验教程
丛   书   名: 新工科x新商科•大数据与商务智能系列
作   译   者:万欣 出 版 日 期:2023-06-01
出   版   社:电子工业出版社 维   护   人:王二华 
书   代   号:G0456900 I S B N:9787121456909

图书简介:

本书是一本面向数据科学初学者的实验教材。本书旨在通过实验的方式,帮助学生掌握数据分析和挖掘的基本概念、方法和技术,并学会使用Python等工具进行实际操作。本书的实验设计涵盖了数据预处理、数据可视化、分类与预测、聚类与关联规则挖掘、文本挖掘、网络分析、时间序列分析、情感分析和主题模型等多个方面,旨在培养学生的数据思维和实际操作能力,为学生日后从事数据科学工作打下坚实的基础。本书的实验设计遵循理论与实践相结合的原则,每个实验都提供了详细的理论知识和实验步骤,以及实验数据和代码。通过实验,学生可以熟悉数据分析与挖掘的实际操作流程,了解各种数据分析与挖掘方法的优缺点以及应用场景。同时,本书还鼓励学生进行自主思考和创新,通过实验提高学生解决问题的能力和创新能力。
定价 46.0
您的专属联系人更多
关注 评论(4) 分享
配套资源 图书内容 样章/电子教材 图书评价
  • 配 套 资 源

    本书资源

    会员上传本书资源

  • 图 书 内 容

    内容简介

    本书是一本面向数据科学初学者的实验教材。本书旨在通过实验的方式,帮助学生掌握数据分析和挖掘的基本概念、方法和技术,并学会使用Python等工具进行实际操作。本书的实验设计涵盖了数据预处理、数据可视化、分类与预测、聚类与关联规则挖掘、文本挖掘、网络分析、时间序列分析、情感分析和主题模型等多个方面,旨在培养学生的数据思维和实际操作能力,为学生日后从事数据科学工作打下坚实的基础。本书的实验设计遵循理论与实践相结合的原则,每个实验都提供了详细的理论知识和实验步骤,以及实验数据和代码。通过实验,学生可以熟悉数据分析与挖掘的实际操作流程,了解各种数据分析与挖掘方法的优缺点以及应用场景。同时,本书还鼓励学生进行自主思考和创新,通过实验提高学生解决问题的能力和创新能力。

    图书详情

    ISBN:9787121456909
    开 本:16(185*260)
    页 数:160
    字 数:192

    本书目录

    第一章  数据预处理	1
    第一节  数据清洗	2
    第二节  数据集成	3
    第三节  数据变换	5
    第四节  数据规约	7
    第五节  Python中的数据预处理工具	8
    小结	14
    第二章  数据可视化	15
    第一节  理解数据可视化的概念和重要性	16
    第二节  使用Python的matplotlib和seaborn库绘制基本图形	17
    第三节  绘制柱状图、折线图、散点图、箱线图等常见图形	21
    第四节  利用图形展示数据的关系和趋势、数据的分析	24
    第五节  利用交互式可视化工具进行高级数据可视化	29
    小结	33
    第三章  分类与预测	34
    第一节  理解分类与预测的概念和应用场景	35
    第二节  理解机器学习分类算法的基本原理	36
    第三节  利用Python的scikit-learn库进行分类算法的实现	43
    第四节  利用交叉验证、网格搜索等方法对分类算法进行优化	47
    小结	51
    第四章  聚类与关联规则挖掘	52
    第一节  理解聚类与关联规则挖掘的概念和应用场景	53
    第二节  理解聚类算法的基本原理	54
    第三节  利用Python的scikit-learn库进行聚类算法的实现	55
    第四节  理解关联规则挖掘的基本原理:Apriori算法	60
    第五节  利用Python的mlxtend库进行关联规则挖掘的实现	64
    小结	66
    第五章  文本挖掘	67
    第一节  理解文本挖掘的概念和应用场景	68
    第二节  理解自然语言处理的基本概念及技术	69
    第三节  利用Python的NLTK和jieba库进行文本预处理	71
    第四节  理解文本分类的基本原理和算法	79
    第五节  利用Python的scikit-learn和keras库进行文本分类的实现	83
    小结	88
    第六章  网络分析	89
    第一节  理解网络分析的概念、应用场景和工具	90
    第二节  理解网络的基本概念	93
    第三节  利用Python的NetworkX库进行网络构建和分析	95
    第四节  理解社交网络分析的基本原理和方法	98
    第五节  利用Python的igraph库进行社交网络分析的实现	101
    小结	104
    第七章  时间序列分析	105
    第一节  理解时间序列分析的概念和应用场景	106
    第二节  理解时间序列的基本概念	106
    第三节  利用Python的pandas库进行时间序列数据的处理和分析	107
    第四节  理解时间序列预测的基本原理和方法	109
    第五节  利用Python的statsmodels库进行时间序列预测的实现	111
    小结	113
    第八章  情感分析	115
    第一节  理解情感分析的概念和应用场景	116
    第二节  理解自然语言处理中的情感分析基本原理和方法	117
    第三节  利用Python的NLTK和SnowNLP库进行情感分析的实现	118
    第四节  理解深度学习在情感分析中的应用	121
    第五节  利用Python的keras和tensorflow库进行深度学习情感分析
            的实现	124
    小结	127
    第九章  主题模型	129
    第一节  理解主题模型的概念和应用场景	130
    第二节  理解主题模型的基本原理和方法	131
    第三节  利用Python的gensim和scikit-learn库进行主题模型的实现	133
    第四节  理解主题模型在文本分析、信息检索和推荐系统中的应用	141
    第五节  利用主题模型进行文本主题分析和推荐系统的 实现	142
    小结	145
    附录A  实验环境搭建	146
    后记	148
    
    
    
    展开

    前     言

    前    言
    数据科学是一个快速发展的领域,涉及统计学、计算机科学、机器学习、人工智能等多个方向的内容。在数据科学领域中,数据分析与挖掘是非常重要的一部分,而实验则是学习数据分析与挖掘的最佳途径之一。
    本书分为9章,介绍了9个数据科学实验,包括数据预处理、数据可视化、分类与预测、聚类与关联规则挖掘、文本挖掘、网络分析、时间序列分析、情感分析和主题模型。这些实验内容涵盖了数据科学的各个方面,让学生能够更好地理解和应用数据科学中的各种技术和方法。
    在数据科学中,数据预处理是非常重要的一步。第一章介绍了数据预处理的概念和重要性,同时也包括了数据清洗、数据集成、数据变换和数据规约等内容。在实验中,我们将学习如何处理缺失值、异常值、重复值,合并多个数据源,标准化,离散化,归一化等操作,以及如何通过抽样、聚合等方法减少数据量,为后续的数据分析和挖掘做好准备。
    第二章则介绍了数据可视化的概念和重要性,以及如何使用Python的matplotlib和seaborn库绘制基本图形,包括柱状图、折线图、散点图、箱线图等常见图形。我们将学习如何利用这些图形展示数据关系和趋势,以及如何使用交互式可视化工具(如Tableau、D3.js等)进行高级数据可视化。
    在第三章中,我们将学习分类与预测的概念和应用场景,以及机器学习分类算法的基本原理,包括决策树、K近邻、朴素贝叶斯、支持向量机、随机森林等。同时,我们将使用Python的scikit-learn库进行分类算法的实现和模型评估。
    第四章则介绍了聚类与关联规则挖掘的概念和应用场景,以及K均值、层次聚类、关联规则挖掘等算法的基本原理。我们将使用Python的scikit-learn库和Apriori算法进行聚类和关联规则挖掘的实现。
    在第五章中,我们将学习文本挖掘的概念和应用场景,以及如何使用Python的NLTK和scikit-learn等库进行文本预处理、文本分类、情感分析、主题模型分析等操作。我们将探索如何使用深度学习框架keras库进行文本分类和情感分析的实现。
    第六章介绍了网络分析的概念、应用场景(包括社交网络分析、生物网络分析、信息网络分析、交通网络分析等)和工具—Python的NetworkX和igraph库。我们将学习如何使用NetworkX和igraph库进行网络的构建、分析和可视化。
    在第七章中,我们将学习时间序列分析的概念和应用场景,以及时间序列的基本概念—趋势、周期、季节性等。我们将使用Python的pandas、statsmodels库进行时间序列分析和预测。
    第八章介绍了情感分析的概念和应用场景,以及如何使用Python的NLTK和SnowNLP库进行情感分析的实现。我们将使用情感词典和机器学习算法进行情感分析,并且探索如何使用Python的keras和tensorflow库进行深度学习情感分析的实现。
    第九章介绍了主题模型的概念、应用场景、基本原理和方法,以及如何使用Python的gensim、scikit-learn库进行主题模型的实现。我们将学习如何使用LDA、NMF等方法进行主题建模,并且探索如何使用主题模型进行推荐系统的实现。
    总之,本书实验内容涵盖了数据科学各个方面的技术和方法,学生通过学习这些实验内容,可以掌握数据预处理、数据可视化、分类与预测、聚类与关联规则挖掘、文本挖掘、网络分析、时间序列分析、情感分析和主题模型等数据科学中的核心技术和方法,为实际的数据分析和挖掘工作打下坚实的基础。
    
    展开

    作者简介

    万欣,武汉纺织大学管理学院副教授,硕士生导师,武汉纺织大学大数据与效益制造中心主任,湖北省一流课程“商务智能”负责人;毕业于日本电气通信大学,工学博士(社会智能信息学),主要研究方向有商务智能、机器学习、数据挖掘等;曾就职于国内外多家上市公司,从事技术研发、软件开发工作;在大数据分析与挖掘领域教学经验丰富。
  • 样 章 试 读
  • 图 书 评 价 我要评论
华信教育资源网