华信教育资源网
人工智能数据工程基础——概念、方法与案例
丛   书   名: 人工智能数据工程技术专业核心课程系列教材
作   译   者:聂明 出 版 日 期:2026-07-01
出   版   社:电子工业出版社 维   护   人:寻翠政 
书   代   号:G0527520 I S B N:9787121527524

图书简介:

本书是“人工智能数据工程技术专业核心课程系列教材”的第一本,系统介绍人工智能数据工程的基本概念、方法体系与关键技术。通过图像、音频和文本三个典型数据集的设计与生产案例,详细阐述数据采集、预处理、标注、质量控制与评估、工具选型及应用等,帮助读者深入理解数据工程从需求分析到成果交付的完整工作流程。本书注重理论与实践紧密结合,配备丰富的实践项目和案例分析,帮助读者熟练掌握数据产品设计、生产、验收等环节中的主流技术与工具,培养解决实际问题的工程能力,满足当前人工智能产业对数据工程专业人才的岗位技能需求。本书可作为人工智能数据工程相关专业的教材,也可供人工智能从业人员参考阅读。
定价 59.0
您的专属联系人更多
关注 评论(0) 分享
配套资源 图书内容 样章/电子教材 图书评价
  • 配 套 资 源

    本书资源

    会员上传本书资源

  • 图 书 内 容

    内容简介

    本书是“人工智能数据工程技术专业核心课程系列教材”的第一本,系统介绍人工智能数据工程的基本概念、方法体系与关键技术。通过图像、音频和文本三个典型数据集的设计与生产案例,详细阐述数据采集、预处理、标注、质量控制与评估、工具选型及应用等,帮助读者深入理解数据工程从需求分析到成果交付的完整工作流程。本书注重理论与实践紧密结合,配备丰富的实践项目和案例分析,帮助读者熟练掌握数据产品设计、生产、验收等环节中的主流技术与工具,培养解决实际问题的工程能力,满足当前人工智能产业对数据工程专业人才的岗位技能需求。本书可作为人工智能数据工程相关专业的教材,也可供人工智能从业人员参考阅读。

    图书详情

    ISBN:9787121527524
    开 本:16(185*260)
    页 数:280
    字 数:448

    本书目录

    第1章  人工智能数据工程概述	001
    1.1  引言	001
    1.1.1  人工智能数据工程的含义	001
    1.1.2  人工智能数据工程师	002
    1.2  数据的来源与分类	002
    1.2.1  典型大模型使用的主要数据来源	002
    1.2.2  通用数据类别	003
    1.2.3  专业数据类别	005
    1.2.4  数据的模态与类型	009
    1.3  数据集的概念与作用	012
    1.3.1  数据集的定义与分类	012
    1.3.2  数据集在模型训练中的作用	015
    1.3.3  优质数据集的特征	016
    1.4  人工智能数据工程解读	017
    1.4.1  人工智能数据工程的实现方法	017
    1.4.2  数据产品的生产流程	017
    1.4.3  数据工程在AI项目中的位置	020
    1.5  数据服务产业的发展现状与人才需求	022
    1.5.1  数据服务产业的发展现状	022
    1.5.2  人才需求分析	024
    1.5.3  职业发展路径	027
    1.6  习题	029
    第2章  数据产品的工程化生产	031
    2.1  数据产品的含义	031
    2.1.1  数据产品的定义与特征	031
    2.1.2  案例分析:ImageNet数据产品的构建	033
    2.2  数据产品生产的全流程	036
    2.2.1  需求分析	036
    2.2.2  产品设计	037
    2.2.3  数据获取	038
    2.2.4  数据预处理	038
    2.2.5  数据标注	039
    2.2.6  质量控制	040
    2.2.7  产品交付	040
    2.2.8  数据产品的迭代升级	041
    2.3  数据产品生产的组织与管理	041
    2.3.1  项目管理	041
    2.3.2  数据管理	043
    2.3.3  质量控制	044
    2.4  数据产品生产的工具与平台	045
    2.4.1  数据生产平台架构	045
    2.4.2  常用工具与技术	046
    2.4.3  平台的实施与运维	048
    2.5  数据标注专项训练	050
    2.5.1  Label Studio简介	050
    2.5.2  Label Studio的安装与启动	051
    2.5.3  CatDog20图片分类标注项目实战	053
    2.5.4  文本情感分析标注项目示例	058
    2.5.5  多模态图文对齐标注项目示例	059
    2.6  习题	062
    第3章  开源数据的利用与整合	063
    3.1  开源数据的概念与意义	063
    3.1.1  开源数据的概念	063
    3.1.2  开源数据的优势与案例	064
    3.1.3  开源数据的局限	065
    3.2  常用的开源数据集	065
    3.2.1  图像数据集	066
    3.2.2  文本数据集	066
    3.2.3  音频数据集	067
    3.2.4  视频数据集	068
    3.2.5  网页数据集	069
    3.3  开源数据的获取与使用	069
    3.3.1  数据许可协议解读	069
    3.3.2  数据预处理与适配	070
    3.3.3  数据质量评估	071
    3.4  开源数据在数据产品生产中的应用	072
    3.4.1  利用开源数据扩充数据集	072
    3.4.2  处理开源数据的挑战	073
    3.5  习题	074
    第4章  数据获取	075
    4.1  网络爬虫数据获取	075
    4.1.1  网络爬虫技术原理	075
    4.1.2  爬取策略与反爬机制	076
    4.1.3  数据清洗与存储	078
    4.1.4  法律与伦理考虑	080
    4.2  众包数据获取	081
    4.2.1  众包模式介绍	081
    4.2.2  众包任务的设计与发布	082
    4.2.3  质量控制与数据收集	083
    4.3  传感器与设备数据获取	084
    4.3.1  设备选型与部署	084
    4.3.2  数据采集与存储	085
    4.3.3  数据传输与安全	087
    4.4  合成数据的生成	088
    4.4.1  合成数据的概念与应用	088
    4.4.2  典型合成数据生产方法解析	089
    4.4.3  合成数据的质量评估	091
    4.4.4  数据生成的未来发展方向	092
    4.5  开源数据集整合	093
    4.6  API数据获取	094
    4.7  数据合作与共享	095
    4.8  实验与研究数据采集	095
    4.9  数据获取方法小结	096
    4.10  习题	097
    第5章  图像处理与数据集生产案例	098
    5.1  认识像素	098
    5.1.1  像素的数字表示	098
    5.1.2  像素在计算机中的存储方式	102
    5.1.3  像素操作与基本图像处理	104
    5.1.4  图像分辨率与显示分辨率	105
    5.2  图像处理技术	106
    5.2.1  图像的基本特征参数	106
    5.2.2  图像的高级特征参数	111
    5.2.3  图像数据的分类与特性	115
    5.3  图像数据的公开数据源	118
    5.3.1  开源图像数据集的种类	119
    5.3.2  开源图像数据集的特征	120
    5.3.3  典型公开图像数据集解析	121
    5.3.4  图像数据的操作	123
    5.4  水果分类数据集生产项目	124
    5.4.1  项目背景与目标	125
    5.4.2  数据集需求分析	125
    5.4.3  数据获取	126
    5.4.4  数据处理	128
    5.4.5  数据标注	130
    5.4.6  质量控制与验证	133
    5.4.7  数据集交付与发布	134
    5.4.8  项目总结	135
    5.5  习题	136
    第6章  音频处理与数据集生产案例	137
    6.1  音频技术基础	137
    6.1.1  声音与音频内涵解析	137
    6.1.2  人的听觉与智慧听觉技术	138
    6.1.3  音频信号的分类与特性	140
    6.1.4  数字音频的编码方式和存储格式	148
    6.2  音频数据的分类与音频数据集	152
    6.2.1  音频数据的种类、特征与应用	152
    6.2.2  语音数据集的分类与特征	157
    6.2.3  典型公开语音数据集介绍	159
    6.2.4  音频数据的处理操作	162
    6.3  音频数据的公开数据源	169
    6.3.1  开源音频数据集的种类	169
    6.3.2  开源音频数据集的特征	170
    6.3.3  典型公开音频数据集解析	171
    6.3.4  音频数据的基本处理操作与样板数据集展示	175
    6.4  城市声音数据集生产项目	178
    6.4.1  项目背景与目标	178
    6.4.2  数据集需求分析	179
    6.4.3  数据获取	179
    6.4.4  音频数据预处理	182
    6.4.5  数据标注	187
    6.4.6  质量控制与验证	190
    6.4.7  数据集交付与发布	191
    6.4.8  项目总结	194
    6.5  习题	194
    第7章  文本处理与数据集生产案例	196
    7.1  文本数据技术基础	196
    7.1.1  文本数据的特性	196
    7.1.2  文本数据的表示方法	198
    7.1.3  特殊文本的种类与表示方法	201
    7.1.4  特殊文本表示的程序实现	202
    7.1.5  GPT的文本表示方法和代码实现	204
    7.2  文本数据的来源、分类与公开数据集	206
    7.2.1  文本数据的来源	206
    7.2.2  文本数据集的分类与特征	210
    7.2.3  典型公开文本数据集介绍	211
    7.2.4  文本数据的基本操作	212
    7.3  中文文本数据集生产项目	219
    7.3.1  项目背景与目标	219
    7.3.2  数据集需求分析	220
    7.3.3  数据获取	221
    7.3.4  数据处理	222
    7.3.5  手工数据标注	223
    7.3.6  Label Studio半自动化标注	227
    7.3.7  数据集质量控制与验收	237
    7.3.8  数据集保存与使用	240
    7.3.9  项目总结	241
    7.4  习题	241
    第8章  数据工程的机遇、挑战与未来	242
    8.1  数据成为大模型时代的核心驱动力	242
    8.1.1  人工智能发展对数据的需求	242
    8.1.2  数据工程技术趋势	243
    8.2  数据质量与闭环流程	245
    8.2.1  数据质量四维度	245
    8.2.2  数据闭环流程	246
    8.3  数据工程师的职业发展	247
    8.3.1  职业发展路径	247
    8.3.2  面向未来的思考	248
    8.3.3  数据工程师从支持到AI核心	248
    8.4  数据工程未来趋势	249
    8.4.1  AI与数据工程的深度融合	249
    8.4.2  开源与协作的力量	249
    8.4.3  数据治理与合规的智能化	249
    8.4.4  合成数据的机遇与挑战	250
    8.4.5  实时/流式数据管道的崛起	250
    8.4.6  数据工程:支撑AI落地与AGI的到来	250
    8.5  习题	251
    附录A  开发环境安装与配置	253
    附录B  数据工程术语表	258
    附录C  专业化数据采集与标注实训平台	265
    参考文献	268
    展开

    前     言

    党的二十大报告强调,“加快发展数字经济,促进数字经济和实体经济深度融合,打造具有国际竞争力的数字产业集群。”“推动战略性新兴产业融合集群发展,构建新一代信息技术、人工智能、生物技术、新能源、新材料、高端装备、绿色环保等一批新的增长引擎。”
    随着2023年美国OpenAI公司的GPT-4、2025年中国DeepSeek(深度求索)公司的DeepSeek-R1以及多模态大模型如ChatGPT-o3等的相继问世,人工智能技术在自然语言处理、计算机视觉、自动驾驶、智能机器人、医疗诊断和智能制造等领域取得了革命性突破。这些成就的背后,是海量高质量数据的支撑—数据已成为人工智能的核心要素,驱动模型从感知、推理到决策的全面演进。数据工程作为连接原始数据与智能应用的桥梁,正处在规模爆炸、多样复杂与质保困难“三重挑战”的交会点:一端是采集、清洗、标注、质控、治理的系统化方法与工具,另一端是“能交付、可复现、可追溯”的工程化落地能力。数据工程是否能“立住”,直接决定智能系统的性能上限与产业化效率。
    本书立足“数据全生命周期工程化”主线,从需求分析到交付运维构建完整的教学与实战闭环,力求让读者既懂原理,又会做事,还能交付。全书围绕概念、方法、工具与案例展开:第1章奠定共识与术语体系;第2章系统讲解数据产品的工程化生产及组织保障;第3章介绍开源数据的获取、许可、适配与质量评估;第4章覆盖网络爬取、众包、传感器、合成及整合等多源数据获取方法;第5章~第7章通过图像、音频、文本三个端到端项目,操练从产品化需求、数据获取到质检验收的全流程;第8章面向趋势与职业发展给出方法性展望。
    一、编写初衷与定位
    1.以工程交付为纲:将“可交付的数据产品”作为目标,强调流程化、标准化与自动化,形成“规范—工具—度量—验收”的闭环(第2章与项目管理、质控、工具平台相配套)。
    2.以多模态为骨架:围绕图像、音频、文本三大典型模态,提供端到端生产案例,沉淀跨模态可迁移范式(第5章~第7章)。
    3.以教学为用:兼顾入门可上手与进阶可扩展,配套术语表与工具附录,适合课堂教学、工程训练与自学拓展。
    二、读者对象与先修要求
    1.适用对象:计算机、软件工程、数据工程、人工智能、数据科学、物联网与数字媒体等相关专业专科生与本科生,也适合工程师系统补课。
    2.先修基础:建议具备Python编程、概率统计与线性代数入门、计算机系统与网络基础,了解机器学习、深度学习基本概念更佳。
    三、内容结构与特色
    1.全栈流程,可追溯、可复现:围绕“需求—设计—获取—预处理—标注—质控—交付—迭代”全流程,提供组织管理、数据管理与质量控制的系统化做法(第2章2.2节、2.3节和2.4节)。
    2.三大“端到端”综合项目。
    (1)图像·智慧农业:水果分类数据集(第5章)—从产品设计到质量验收,覆盖类别、规模、质量指标设定、采集与增强、一致性与均衡性控制等,强调“面向真实部署的可用性”。
    (2)音频·智慧城市:城市声音数据集(第6章)—围绕噪声场景多样性、信噪比与标签准确率等关键指标,构建标准化交付物与文档体系。
    (3)文本·智慧学习:中文知识问答数据集(第7章)—面向知识检索与教育问答,实践文档解析、问答对的生成与质控准则。
    3.开源数据利用与合规:系统梳理主流开源数据源、许可协议剖析与适配策略,并给出质量评估与风险应对(第3章)。
    4.工具与平台并重:从平台架构、数据处理样板程序到常用工具与技术栈,配合“开发环境搭建”“术语表”“标注工具清单”等附录,形成“学—练—用”一体化路径。
    5.质量度量与验收模板:贯穿准确性、一致性、完整性与多样性等指标体系,并在各项目中落地抽检、复检、回归策略,确保交付可验可评。
    四、教学使用建议
    1.课程节奏(32~64学时可裁剪):第1章建立术语与全景;第2章~第4章完成“工程化生产+开源整合+多源获取”的方法底座;第5章~第7章以三个端到端项目为主线完成作业与里程碑,可根据学时数与教学需求选择其中的案例进行教学;第8章进行趋势研讨与职业规划。
    2.实践组织:建议5~10人为一组,采用“需求评审—中期检查—最终验收”机制,每次课产出可交付物(数据字典、标注规范、质检报告、交付清单等)。
    3.评价方式:过程性评价(规范度、协作度、问题闭环率等)+结果性评价(质量指标达成、复现性、文档完整度等)。
    五、专业建设与人才培养
    在产业需求牵引下,编者作为主要负责人,于2019年9月成功开发和增补全国高等职业教育第一个人工智能类专业—人工智能技术应用专业。在此基础上,编者又联合相关院校与企业,系统推进人工智能数据工程技术专业的设计与开发,涵盖产业调研、岗位技能提炼、教材开发、实验实训、师资培训、线上平台、标准研制等环节。本书作为“人工智能数据工程技术专业核心课程系列教材”的第一本,面向新生与转入者,通过“知识框架+端到端项目+标准化交付”的编排,帮助读者快速搭起数据工程全貌,并以Step by Step的方式掌握数据采集、预处理、标注、质量评估与工具应用等基础技能。
    
    六、配套资源
    受篇幅限制,样板程序与教学资源(如课程大纲、授课PPT、微视频、习题参考答案等)通过二维码和资源包提供。另外,附录A给出了Jupyter Notebook开发环境的安装与配置,附录B给出了数据工程术语表,附录C给出了专业化数据采集与标注实训平台。希望这些能为教学和实战选型与集成提供便利。
    七、致谢
    感谢“人工智能数据工程技术专业核心课程系列教材”编委会各位领导、专家的指导!感谢百度飞桨、天津华大教育给予的实验实训平台支持!感谢南京信息职业技术学院人工智能学院院长何淼教授、南京工业职业技术大学计算机与软件学院院长胡光永教授、江苏海事职业技术学院信息工程学院院长张娟教授、南京科技职业学院信息学院院长陈正东教授、数据堂(北京)科技股份有限公司总裁齐红威博士等专家学者对本书结构、案例和资源组织给予的支持和指导!另外,本书引用了一些专著、教材、论文、报告和网络上的成果、素材、结论或图文,受篇幅限制没有在参考文献中一一列出,在此一并致谢原创作者。
    由于时间仓促,编者水平有限,疏漏和不足之处在所难免,恳请广大读者和社会各界朋友批评指正!编者邮箱:427723799@qq.com。
    期望本书的出版发行,能够为相关专业的大学生、行业企业从业人员和广大爱好者了解数据工程产业、学习数据工程技术起到快速入门的指导作用,也期望能够为全国高等职业院校开设人工智能数据工程技术专业起到引导作用。
    
    编  者
    展开

    作者简介

    聂明,男,1964年生人,中共党员,博士,三级教授, 曾任南京信息职业技术学院人工智能学院院长、全国工信和信息化职业教育教学指导委员会计算机专指委委员,江苏省"333工程”中青年学术带头人、江苏省"六大人才高峰”高层次人才培养对象。编著出版过《移动增值应用开发导论》、《Java Web应用开发项目教程》、《VC++程序设计技能教程与实训》和《计算机应用技术导论》等多本专著和教材。
  • 样 章 试 读
    本书暂无样章试读!
  • 图 书 评 价 我要评论
华信教育资源网