华信教育资源网
数据标注工程——语言知识与应用
丛   书   名: “数据标注”人才培养系列丛书
作   译   者:于东 出 版 日 期:2023-08-01
出   版   社:电子工业出版社 维   护   人:杨波 
书   代   号:G0459550 I S B N:9787121459559

编辑推荐:

本书介绍了人工智能与语言知识的结合特点。通过理论概念讲解、具体实例分析,介绍语言知识的构建方法、类型案例、应用领域,辅助学习者快速了解行业基础和发展动态。
定价 58.0
您的专属联系人更多
关注 评论(2) 分享
配套资源 图书内容 样章/电子教材 图书评价
  • 配 套 资 源

    本书资源

    本书暂无资源

    会员上传本书资源

  • 图 书 内 容

    内容简介

    本书介绍了人工智能与语言知识的结合特点。通过理论概念讲解、具体实例分析,介绍语言知识的构建方法、类型案例、应用领域,辅助学习者快速了解行业基础和发展动态。本书首先介绍语言知识库的基本理论和构建方法,通过例子介绍资源类语言知识、语料库语言知识的概念和结构。为了方便理解,本书结合大量案例介绍语言知识在自然语言处理及在司法、医疗、金融等垂直领域中的应用,目的是帮助数据标注者理解行业发展,建立语言知识理论和应用的基本框架,为从事相关工作提供便利。

    图书详情

    ISBN:9787121459559
    开 本:16(185*260)
    页 数:140
    字 数:143

    本书目录

    目录
    第1章  人工智能与知识表示	001
    1.1 智能与人工智能	001
    1.1.1 智能	001
    1.1.2  人工智能	002
    1.2  基本方法和流派	003
    1.2.1 基本方法	004
    1.2.2  基本流派	004
    1.3  知识表示	005
    1.3.1  知识符号化	005
    1.3.2 知识表示的概念	006
    1.3.3 人工智能中的知识表示	007
    1.4  一阶谓词逻辑的知识表示	008
    1.4.1  命题逻辑	008
    1.4.2 谓词逻辑	010
    1.4.3 使用谓词表示知识	012
    1.4.4 小结	014
    1.5 产生式知识表示	015
    1.5.1 产生式的概念	015
    1.5.2 规则性知识的产生式	015
    1.5.3 事实性知识的产生式	017
    1.5.4 产生式系统	017
    第2章  语言知识库的构建	023
    2.1 语言知识的概念	023
    2.1.1 语言知识	023
    2.1.2 语言知识库	024
    2.1.3 语言知识库的类型	025
    2.2 语言知识的来源	026
    2.2.1 结构化数据	027
    2.2.2 半结构化数据	027
    2.2.3 非结构化数据	028
    2.3 语言知识库的构建	028
    2.3.1 构建流程	028
    2.3.2 规范和原则	029
    2.4 语言知识获取方法	031
    2.4.1 人工标注知识	031
    2.4.2 自动获取知识	032
    2.4.3 人机交互获取知识	033
    2.5 语言知识的存储	033
    2.5.1 数据库及其类型	033
    2.5.2 可扩展标记语言	034
    2.5.3 数据交换格式	036
    2.5.4 本体知识表示	037
    第3章  资源类语言知识	042
    3.1 资源类语言知识的概念	042
    3.2 资源类语言知识的发展	043
    3.2.1 语义网络	043
    3.2.2 语义Web	044
    3.2.3 知识图谱	049
    3.3 常用的资源类语言知识	049
    3.3.1 WordNet	049
    3.3.2 FrameNet	050
    3.3.3 ConceptNet	052
    3.3.4 HowNet	054
    3.3.5 同义词词林	055
    第4章  语料库语言知识	059
    4.1  词汇中的语言知识	059
    4.1.1 词性知识	059
    4.1.2 分词知识	061
    4.2 句子中的语言知识	062
    4.2.1 命名实体知识	063
    4.2.2 实体关系知识	063
    4.2.3 事件知识	064
    4.3 句子结构中的知识	065
    4.3.1 句法结构树	065
    4.3.2 浅层句法结构	066
    4.3.3 依存句法树	067
    4.3.4 抽象语义表示	069
    4.4 常用汉语语料库	070
    4.4.1 大规模汉语语料库	070
    4.4.2 汉语标注语料库	072
    第5章  语言知识的应用:面向自然语言处理	077
    5.1 自然语言处理的基本问题	077
    5.1.1 语言模型问题	077
    5.1.2 分类问题	080
    5.1.3 序列标注问题	081
    5.1.4 语言结构分析问题	083
    5.1.5 语言生成问题	085
    5.2 自动问答	085
    5.2.1 概念和历史	085
    5.2.2 开放领域自动问答	087
    5.2.3 基于知识的自动问答	088
    5.3  机器阅读理解	090
    5.3.1 概念和发展史	090
    5.3.2 完型填空型任务和数据集	092
    5.3.3 选择型任务和数据集	093
    5.3.4 片段抽取型任务和数据集	094
    5.3.5 自由问答型任务和数据集	095
    5.4 机器翻译	096
    5.4.1 概念和发展史	096
    5.4.2 机器翻译的基石:双语平行语料库	098
    5.4.3 统计机器翻译方法简介	099
    5.4.4 神经机器翻译方法简介	100
    第6章  语言知识的应用:面向垂直领域	104
    6.1 智能司法信息处理	104
    6.1.1 概述	104
    6.1.2 法律判决预测任务	106
    6.1.3  相似案件匹配任务	107
    6.1.4 司法领域自动问答	108
    6.2 智能医疗信息处理	110
    6.2.1 概述	110
    6.2.2 医疗信息知识库构建	111
    6.2.3 智慧医疗的典型应用	115
    6.2.4 智慧医疗的未来发展	116
    6.3 智能金融信息处理	117
    6.3.1 概述	117
    6.3.2 金融领域知识库构建与分析技术	118
    6.3.3 智能金融的典型应用	123
    展开

    前     言

    序
    目前,我们正经历人工智能的第三次浪潮,机器学习大行其道。机器学习的发展和进步主要依赖算法和数据。如今,算法基本相同,数据的作用尤其突出。这里所说的数据是指机器学习所用的带标数据,这种带标数据是通过数据标注的方式获得的。
    数据标注是被人工智能催生出来的新兴职业,对人工智能的实现至关重要,也因人工智能技术落地的大量需求而进入从业者的视野。近几年,在数据标注的助力下,人工智能的应用场景不断落地,让大家享受到了人工智能的便利。
    人工智能变得越来越智能,数据标注行业面临的挑战也就越来越大,这种挑战主要体现在两个方面:一是数据标注的质量要求越来越高,人工智能正在经历着从 1 到 2的发展过程,需要更多高质量的带标数据支撑,人工智能发展初期阶段的准确率已无法满足当今人工智能技术发展的需求;二是数据标注任务的难度越来越高,随着人工智能技术的日趋成熟,人工智能任务的难度不断提高,数据标注的难度也在不断提高。
    这些都对数据标注人员提出了更高的要求,一方面要求数据标注人员在工作时要更加细致,另一方面也要求数据标注人员具有更高的素质。基于这种趋势,数据标注人员想在数据标注行业取得持续性发展,就要不断提高自身的能力和素质,向专业化方向发展。
    事在人为,业以人兴。数据标注乃至人工智能行业的发展关键在于专业人才的培养。
    在未来几十年,数据标注会伴随着人工智能需求的不断提高而不断发展、精进。我相信会有更多的年轻人愿意加入数据标注行业,享受学习的福利与时代的红利,也相信本书能为他们的职业生涯助一臂之力,为求知者打开一扇新领域的大门。我期待数据标注人员将来利用自己卓越的数据标注技能通过计算机及智能设备给人类提供更丰富的智能服务。
    中国中文信息学会名誉理事长
    哈尔滨工业大学教授
    李生
    2023年3月
    
    前言
    语言是人类知识的重要载体,语言知识也是人工智能发展的基石。研究语言知识的特点,是人工智能相关从业人员必不可少的基本技能。为了满足相关领域学生和工程技术人员对语言知识发展和应用方法了解的需求,我们根据多年授课经验,精心编撰了这本《数据标注工程—语言知识与应用》,希望能够通过这本书,向更多的读者介绍语言知识在人工智能诸多论题中的基础性作用。本书可以作为相关学科学生教材以及相关培训的理论基础教材,也可以作为相关工程技术人员在构建语言知识库、使用语言知识库进行研究开发时的参考资料。
    本书第1章介绍人工智能的基本概念和基本方法,以及面向人工智能的知识表示方法。详细为读者介绍主流的语言知识表示类型和特点。在此基础上,介绍语言知识基本理论。
    第2~4章介绍语言知识的构建、获取、存储方法。内容涵盖了语言知识库开发的全过程。在此基础上,具体介绍资源类语言知识、语料库语言知识的概念和方法。针对资源类语言知识,以目前典型的语言知识资源如语义网络、知识图谱为例详细介绍其开发、构建方法;针对语料库语言知识,进一步从词法、实体关系、句法、篇章几个角度展开论述。
    第5~6章结合大量案例介绍语言知识的应用,包括语言知识在自动问答、机器阅读理解、机器翻译等问题中的应用方法,以及在智能司法、智能医疗、智能金融等垂直领域中的应用。
    本书理论框架清晰,内容循序渐进,经过精心策划,在内容上体现人工智能与语料库语言学相结合的最新进展。书中介绍了许多目前主流的语料库资源,为相关技术人员学习建立语料库,从事语言知识研究提供了极大方便。
    编  者
    展开

    作者简介

    于东,北京语言大学信息科学学院副教授。中国中文信息学会青工委委员,语言与知识计算专委会委员。主要研究方向为计算语言学、数字人文、语言资源建设。擅长将语言学问题与计算语言学方法交叉,构建新问题、研究新方法。主持国家自然科学基金项目、教育部人文社科基金,参与国家863计划、国家社科基金项目多项。累计发表论文30余篇。多年主讲《人工智能思想与方法》、《自然语言处理》等专业课程,主讲课程获批国家级一流本科课程。
  • 样 章 试 读
  • 图 书 评 价 我要评论
华信教育资源网