图书简介:
第1章 绪论 11.1 大数据平台异常检测分析研究的背景与意义 11.2 大数据平台异常检测分析技术的国内外相关研究进展 31.2.1 大数据平台异常检测分析技术的国内外研究现状 31.2.2 大数据平台异常检测分析系统的国内外研究现状 51.3 本书的主要贡献 71.4 本书的组织结构 81.5 本章小结 11第2章 大数据平台异常检测分析的相关基础 122.1 引言 122.2 日志 122.3 日志预处理 132.4 异常检测 142.4.1 异常检测的定义 142.4.2 几类常见的异常检测算法 142.5 入侵检测Snort系统 162.6 Web用户行为模式挖掘 172.7 本章小结 19第3章 基于数据流二重概念漂移检测的增量学习 203.1 引言 203.2 二重概念漂移检测机制 203.3 基于数据属性的二重概念漂移检测机制 213.4 基于分类性能的二重概念漂移检测机制 223.5 基于增量SVM与二重检测的概念漂移数据流分类模型TDD-ISVM 233.6 TDD-ISVM算法的时间复杂度分析 253.7 实验设计与结果分析 263.7.1 实验数据集 263.7.2 实验结果与分析 263.8 本章小结 29第4章 分布式日志的最大频繁序列模式挖掘算法 314.1 引言 314.2 序列模式挖掘相关工作 324.3 动机与背景 334.3.1 使用分布式计算框架的动机与背景 334.3.2 使用PrefixSpan算法挖掘序列模式的动机与背景 344.3.3 改进PrefixSpan算法提取局部最大频繁序列的动机与背景 344.3.4 改进PrefixSpan算法提取全局最大频繁序列的动机与背景 354.4 分布式日志最大频繁序列模式挖掘算法描述 354.4.1 基于Spark的分布式计算框架 354.4.2 算法总体描述 364.4.3 算法第一阶段:各节点提取局部最大频繁序列 374.4.4 算法第二阶段:各节点集成,提取全局最大频繁序列 374.5 实验设计与结果分析 384.5.1 实验数据集 384.5.2 实验结果与分析 384.6 本章小结 41第5章 基于最大频繁模式的动态规则库构建算法 425.1 引言 425.2 动态Web用户访问序列数据库DWASD的构建 435.3 基于DWASD的分布式PrefixSpan算法 445.3.1 PrefixSpan算法改进描述 445.3.2 算法的时间复杂度分析 465.4 实验设计与结果分析 465.4.1 实验数据集 465.4.2 实验结果与分析 465.5 本章小结 48第6章 基于Web会话流的分布式实时异常定位算法 496.1 引言 496.2 基于Web会话流的实时异常定位框架 506.3 基于混合生物基因序列比对的异常定位AL_HBGSA算法 506.3.1 基本概念 516.3.2 AL_HBGSA序列比对算法 516.3.3 AL_HBGSA算法的时间复杂度分析 546.4 实验设计与结果分析 546.4.1 实验数据集 546.4.2 实验结果与分析 556.5 本章小结 59第7章 基于最大信息系数的在线异常检测算法 607.1 引言 607.2 相关基础 607.2.1 用户活跃度 607.2.2 最大信息系数 617.3 基于最大信息系数的在线异常检测算法介绍 627.4 算法的时间复杂度分析 647.5 实验设计与结果分析 647.5.1 实验数据集 647.5.2 实验结果与分析 657.6 本章小结 68第8章 基于聚类分析的离线异常检测算法 698.1 引言 698.2 基本聚类算法 698.2.1 K-means聚类算法 698.2.2 Canopy聚类算法 708.2.3 CMBK聚类算法 718.3 基于改进聚类分析的离线异常检测算法 728.3.1 异常指数 728.3.2 CMBK4AD离线异常检测算法 738.4 算法的时间复杂度分析 738.5 实验设计与结果分析 738.5.1 实验数据集 748.5.2 实验结果与分析 748.6 本章小结 76第9章 基于相邻请求的动态时间阈值会话识别算法 779.1 引言 779.2 相关基础 789.2.1 页面访问时间阈值 789.2.2 用户访问时间阈值 789.2.3 设置页面时间阈值 799.3 DAITS算法 799.4 实验设计与结果分析 819.4.1 实验数据集 819.4.2 实验结果与分析 819.5 本章小结 82第10章 基于会话特征相似性模糊聚类的SFAD异常检测算法 8310.1 引言 8310.2 基本工作 8510.2.1 会话特征中网络权重的计算 8510.2.2 会话特征相似性的计算 8510.2.3 会话数据集的模糊聚类方法 8610.3 会话特征相似性模糊聚类的异常检测算法 8710.3.1 会话的数据结构及生成 8710.3.2 建立用户相似性矩阵 8810.3.3 检测和定位异常用户 8810.4 实验设计与结果分析 8910.4.1 数据集描述 8910.4.2 实验结果与分析 9010.5 本章小结 93第11章 基于贝叶斯粒子群的异常检测算法 9411.1 引言 9411.2 基于朴素贝叶斯分类的异常检测模型ADM-NBC 9511.2.1 用户会话特征提取 9511.2.2 ADM-NBC的构建 9611.3 基于ADM-NBC的WNB-PSO算法 9711.3.1 加权朴素贝叶斯分类算法 9711.3.2 粒子群优化算法 9711.3.3 改进的粒子群优化算法 9911.3.4 WNB-PSO算法描述 9911.4 实验设计与结果分析 10111.4.1 实验数据集 10111.4.2 实验结果与分析 10111.5 本章小结 104第12章 平台异常时的推测式任务调度策略 10512.1 引言 10512.2 多用户作业调度器 10512.2.1 公平调度器 10512.2.2 计算能力调度器 10712.3 推测执行调度算法 10912.3.1 Hadoop-Original推测执行调度算法 11012.3.2 LATE推测执行调度算法 11012.3.3 基于备份任务完成时间的推测执行调度策略 11112.3.4 Mantri系统推测执行调度策略 11212.4 本章小结 112第13章 基于实时负载的推测式任务调度算法 11313.1 引言 11313.1.1 Hadoop-Original推测式任务调度算法的不足 11313.1.2 LATE推测式任务调度算法的不足 11313.2 推测式任务调度算法改进 11413.2.1 基于混合进度比的任务进度估算方法 11413.2.2 慢任务判定方法 11513.2.3 慢节点判定方法 11613.3 节点负载分级模型 11713.4 基于实时负载的推测式任务调度算法流程 11913.5 实验设计与结果分析 12013.5.1 实验平台及部署 12013.5.2 测试作业选择及评估方式 12113.5.3 实验方案 12213.5.4 实验结果与分析 12213.6 本章小结 126第14章 大数据Lambda架构与微服务架构技术选型 12714.1 引言 12714.2 大数据技术Lambda架构 12714.2.1 Hadoop技术基础 12714.2.2 Spark技术生态体系 12914.2.3 基于Flume+Kafka的大数据收集组件 13014.2.4 基于Spark的大数据处理组件 13114.2.5 基于HBase的大数据存储与管理组件 13114.2.6 基于MLlib的大数据分析及挖掘组件 13114.2.7 基于Spark Streaming的大数据流处理组件 13214.3 微服务架构的有关组件技术选型 13214.3.1 微服务架构 13214.3.2 Spring Boot 13314.3.3 MyBatis 13314.3.4 Spring Cloud 13414.4 本章小结 135第15章 大数据平台异常检测分析系统的结构化分析 13615.1 引言 13615.2 问题与场景描述 13615.3 初步需求分析 13715.4 系统数据流 13715.4.1 顶层数据流 13715.4.2 第一层数据流 13815.4.3 第二层数据流 13815.4.4 第三层数据流 13915.5 功能需求 13915.6 非功能需求 14015.7 本章小结 140第16章 基于融合架构的RADA系统概要设计 14116.1 引言 14116.1.1 RADA系统逻辑架构的初步构建 14116.1.2 RADA系统物理架构的初步构建 14116.2 RADA系统逻辑架构设计 14216.2.1 基于微服务架构的RADA系统逻辑架构设计 14316.2.2 基于Lambda架构的RADA系统逻辑架构设计 14316.2.3 基于微服务架构和Lambda架构的RADA系统技术架构设计 14316.3 运行部署环境 14416.3.1 系统运行网络环境 14416.3.2 系统运行硬件环境 14516.3.3 系统运行软件环境 14516.4 日志预处理子系统概要设计 14516.4.1 上传离线日志 14616.4.2 处理离线日志 14716.4.3 获取实时日志 14816.4.4 处理实时日志 14816.4.5 日志规范化 14916.4.6 处理规范化日志 15016.4.7 添加日志模板 15116.4.8 处理日志模板 15216.5 监控告警子系统概要设计 15316.5.1 设置告警方式 15416.5.2 离线异常检测 15416.5.3 实时异常检测 15616.5.4 查询异常信息 15616.5.5 更新规则库 15616.6 数据库设计 15816.6.1 数据库实体关系分析 15816.6.2 数据字典 15916.7 本章小结 162第17章 RADA系统的详细设计与实现方法 16317.1 引言 16317.2 RADA系统架构的实现机制 16317.2.1 RADA系统中微服务架构的实现 16317.2.2 RADA系统中Lambda架构的实现 16417.3 日志预处理的详细设计 16417.3.1 控制层设计 16417.3.2 服务层设计 16617.3.3 持久化层设计 16817.4 监控告警模块的详细设计 16917.4.1 控制层设计 16917.4.2 服务层设计 17017.4.3 持久层设计 17117.5 核心用例的实现 17217.5.1 上传离线日志 17217.5.2 离线日志规范化处理 17317.5.3 离线异常检测 17417.5.4 获取实时日志 17717.5.5 实时日志规范化处理 17817.5.6 实时异常检测 17817.6 本章小结 179第18章 总结与展望 18018.1 总结 18018.2 展望 181附录A 182参考文献 185
展开
移动互联网、社交网、云计算、物联网的飞速发展促使大数据的各种应用迅速增多,搭建在大数据平台上的各类应用服务已成为含有大量用户隐私信息和体现运营商利益的共同体,应用层的安全问题变得越来越严峻。然而国内外相关的技术往往针对分布式集群系统的下层,很少针对分布式集群系统的上层,对于系统应用中的异常检测分析而言,实时检测与定位异常的能力较弱。分布式异常检测技术是当前学术界与产业界的广泛研究热点,但实用的成果还不多。在此背景下,针对大数据平台准确地检测异常并发现其根源,直接关系到大数据平台运营商及平台用户的广泛利益,因此,研究大数据平台在应用层的各类异常检测分析方法具有重要意义。本书以大数据平台上层应用的异常检测关键技术为主要研究内容,一方面,将离线分析方法和实时检测方法相结合,研究大数据平台异常检测分析的关键技术;另一方面,对异常检测系统研发的关键模块进行详细描述。全书共18章,第1章介绍对大数据平台进行异常检测分析的背景与意义、相关研究进展、本书的主要贡献与组织结构等;第2章介绍大数据平台异常检测分析的相关基础;第3章介绍基于数据流二重概念漂移检测的增量学习;第4章介绍分布式日志的最大频繁序列模式挖掘算法;第5章介绍基于最大频繁模式的动态规则库构建算法;第6章介绍基于Web会话流的分布式实时异常定位算法;第7章介绍基于最大信息系数的在线异常检测算法;第8章介绍基于聚类分析的离线异常检测算法;第9章介绍基于相邻请求的动态时间阈值会话识别算法;第10章介绍基于会话特征相似性模糊聚类的SFAD异常检测算法;第11章介绍基于贝叶斯粒子群的异常检测算法;第12章介绍平台异常时的推测式任务调度策略;第13章介绍基于实时负载的推测式任务调度算法;第14章介绍大数据Lambda架构与微服务架构技术选型;第15章介绍大数据平台异常检测分析系统的结构化分析;第16章介绍基于融合架构的RADA系统概要设计;第17章介绍RADA系统的详细设计与实现方法;第18章是总结与展望。本书由肖如良著,较全面地介绍国内外异常检测分析领域的相关研究和成果,研究异常检测分析技术实现过程中需要解决的若干关键技术,这些技术是支撑大数据平台系统安全的核心技术。大数据平台异常检测分析的若干方法及实现RADA系统的具体方法,能为产业界提供应用示范。本书中的多项工作已申请了发明专利。本书作者与福建榕基软件股份有限公司合作,受福建省科技计划项目的资助,开展了“大数据平台异常检测分析的关键技术研发及产业化”(2016H7006)的立项研究,本书全面地总结了本项目的研究成果及拓展的主要内容。本书虽然几易其稿,但是错误仍然不可避免。梅忠、李奕诺、彭行雄、丘志鹏、张锐、曾令、苏家威、陈雄等研究生同学对本书中的关键技术进行了编程实现,付出了努力,对本书部分内容的撰写也提供了很重要的帮助。电子工业出版社的王晓庆编辑为本书的出版做了大量的工作,对此深表感谢。最后,特别感谢我的家人对我的支持。本书成书仓促,错误之处敬请各位读者批评指正。
肖如良xiaoruliang@fjnu.edu.cn2020年5月
展开