编辑推荐:
第1章 大模型知识增强概述 1
1.1 大模型时代的通用人工智能 2
1.1.1 人类语言与世界知识 2
1.1.2 大模型是处理世界知识的通用
人工智能系统 2
1.1.3 通用人工智能的特征 3
1.2 大模型的知识力 8
1.2.1 什么是知识 8
1.2.2 知识的表示形式 9
1.2.3 大模型中的世界知识 11
1.3 知识图谱与语言模型 14
1.3.1 知识表示与知识规模 15
1.3.2 为什么仍然需要符号知识图谱 16
1.3.3 语言模型与知识图谱都是表示和处理
知识的手段 16
1.4 大模型知识增强 17
1.4.1 大模型知识增强的分类 17
1.4.2 大模型知识增强的典型方法及核心概念 20
1.5 本章小结 21
第2章 知识增强预训练基础 23
2.1 知识增强预训练概述 24
2.2 预训练语言模型 25
2.2.1 语言模型 25
2.2.2 词向量与分布式语义表示 26
2.2.3 注意力机制:增强词的交互关系 28
2.2.4 预训练语言模型 29
2.2.5 ChatGPT 31
2.3 知识增强的预训练 34
2.3.1 常见知识增强语料 34
2.3.2 知识增强词向量 36
2.3.3 知识注入 37
2.3.4 结构增强 43
2.4 应用与实践 47
2.4.1 知识增强电信预训练模型 47
2.4.2 知识增强电商预训练模型 53
2.4.3 知识增强蛋白质预训练模型 56
2.5 本章小结 59
第3章 知识增强提示指令 60
3.1 知识增强提示指令概述 61
3.2 提示学习与指令精调 63
3.2.1 提示学习 63
3.2.2 指令精调 69
3.2.3 思维链 73
3.2.4 提示的本质 74
3.3 知识增强提示学习 76
3.3.1 传统提示学习的局限性 76
3.3.2 知识增强提示模板 76
3.3.3 知识增强标签词集构建 79
3.3.4 面向图数据的提示学习 81
3.4 结构增强思维链 83
3.4.1 传统思维链的局限性 83
3.4.2 结构化思维链 84
3.4.3 知识图谱思维链 91
3.5 结构增强指令精调 93
3.5.1 传统指令精调的局限性 93
3.5.2 知识抽取指令 94
3.5.3 图学习指令 97
3.5.4 知识图谱指令 99
3.6 本章小结 100
第4章 知识辅助检索增强 103
4.1 知识辅助检索增强概述 104
4.2 检索增强生成 105
4.2.1 什么是检索增强生成 105
4.2.2 RAG的典型架构 108
4.2.3 RAG的训练机制 111
4.2.4 RAG的优化 114
4.2.5 RAG的局限性 114
4.3 知识图谱与RAG 115
4.3.1 向量RAG与KG-RAG 115
4.3.2 知识图谱对于RAG的价值 116
4.3.3 知识图谱增强RAG的不同阶段 118
4.4 KG-RAG的几种典型架构 121
4.4.1 Tree-RAG:构建实体或主题
概念树增强RAG 121
4.4.2 KE-RAG:利用知识抽取增强RAG 122
4.4.3 利用外部知识图谱增强的KG-RAG 125
4.4.4 融合思维链的多模态KG-RAG 126
4.5 本章小结 127
第5章 知识增强大模型查询问答 129
5.1 知识增强大模型查询问答概述 130
5.2 查询问答背景知识 131
5.2.1 结构化知识表示 131
5.2.2 结构化知识查询 132
5.2.3 查询问答方法 135
5.3 大模型查询问答能力分析 137
5.4 知识增强查询问答方法 138
5.4.1 基于大模型微调的查询问答 138
5.4.2 基于检索生成的查询问答 139
5.4.3 基于统一表示的查询问答 142
5.5 本章小结 144
第6章 知识增强大模型推理 146
6.1 知识增强大模型推理概述 147
6.2 知识推理背景介绍 148
6.2.1 什么是知识推理 148
6.2.2 语言模型推理 153
6.2.3 知识图谱推理 156
6.2.4 知识增强大模型推理的目标 162
6.3 知识图谱增强语言模型推理 163
6.3.1 知识图谱引导多跳推理链 163
6.3.2 符号规则引导大模型推理 166
6.3.3 知识图谱过程监督 170
6.4 语言模型增强知识图谱推理 172
6.4.1 语言模型增强知识图谱查询推理 173
6.4.2 语言模型增强知识图谱关系推理 175
6.4.3 语言模型增强知识图谱规则推理 177
6.5 知识图谱基础模型 179
6.5.1 知识图谱预训练方法 180
6.5.2 知识图谱基础模型初探 183
6.6 本章小结 186
第7章 知识增强幻觉抑制 188
7.1 知识增强幻觉抑制概述 189
7.2 大模型幻觉背景 190
7.2.1 大模型幻觉问题定义 190
7.2.2 大模型幻觉成因 192
7.2.3 大模型幻觉检测与抑制意义 193
7.2.4 知识增强与幻觉抑制 194
7.3 大模型幻觉检测与抑制 194
7.3.1 幻觉问题检测方法 195
7.3.2 知识增强幻觉抑制 199
7.4 本章小结 206
第8章 大模型知识编辑 208
8.1 大模型知识编辑概述 209
8.2 大模型知识编辑问题 210
8.2.1 什么是大模型知识编辑 210
8.2.2 大模型知识分析方法 212
8.2.3 大模型知识存储机制 214
8.3 模型知识编辑方法 217
8.3.1 基于外部干预的知识编辑方法 218
8.3.2 基于内部更新的知识编辑方法 222
8.4 模型编辑影响分析 225
8.4.1 知识能力影响 225
8.4.2 通用能力影响 227
8.5 应用与实践 227
8.5.1 EasyEdit开源知识编辑工具实践 227
8.5.2 OneEdit知识编辑框架 230
8.5.3 大模型知识编辑应用 230
8.6 本章小结 232
第9章 知识增强多模态学习 233
9.1 知识增强多模态概述 234
9.1.1 人类认知系统 234
9.1.2 融合两种记忆 234
9.1.3 知识图谱与多模态学习 235
9.2 多模态与大模型 236
9.2.1 多模态任务简介 236
9.2.2 多模态生成模型 238
9.2.3 多模态大模型 241
9.3 知识增强视觉问答 242
9.3.1 视觉问答与知识图谱 243
9.3.2 知识增强视觉问答的基本过程 244
9.3.3 典型案例:知识增强多模态视觉问答 249
9.4 知识增强跨模态检索 251
9.4.1 跨模态检索与知识图谱 251
9.4.2 典型案例:知识增强多模态语义检索 252
9.5 知识增强低资源多模态学习 254
9.5.1 低资源学习与知识图谱 254
9.5.2 典型案例:知识增强的零样本学习 255
9.6 知识增强多模态生成 257
9.6.1 多模态生成任务概述 257
9.6.2 典型案例:知识增强视觉叙事 258
9.7 知识增强多模态幻觉检测 260
9.7.1 领域知识与大模型幻觉检测 260
9.7.2 典型案例:知识引导的多模态幻觉检测 262
9.8 本章小结 264
第10章 知识智能体与世界模型 266
10.1 概述 267
10.2 AI智能体与工具调用 268
10.2.1 什么是AI智能体 268
10.2.2 AI智能体架构 270
10.2.3 AI智能体学习 275
10.2.4 为什么需要知识增强AI智能体 276
10.3 知识增强的AI智能体 277
10.3.1 知识增强的单智能体规划 277
10.3.2 知识增强的多智能体协同 281
10.4 总结与展望 282
10.4.1 大模型的知识机制 282
10.4.2 具身智能与世界模型 283
10.4.3 世界知识模型 284
参考文献 286
展开
序言
自从大模型问世以来,人们在惊讶和欢呼其强大功能之余,也为它的种种不足之处感到遗憾。特别是被赋予“为人类生产知识”任务的大模型,往往不能生产出高质量的知识,甚至还会给出明眼人一看就能发现的错误,在本书中被称为大模型的幻觉。人们,包括曾经的我自己在内,往往会发问:不是有很多现成的知识库、知识图谱、百科全书等知识源吗?大模型为什么在应用户要求生成知识之前不去查一查呢?这就问到本书的关键之处了:让大模型直接去查这些知识源是不行的,因为大模型的运行机制是生成式人工智能。它只会生成,不会查阅。于是,只好在大模型收集和训练数据时,或在向大模型给出指令时,引导大模型调配和生成符合用户需求的知识,而各种知识图谱中规范化表示的知识在完成这个任务时可以大显身手。至于这本300余页的专著是怎么从各个角度一步步地引导读者漫步这个领域的,我们下面做一个小小的透视。
在本书的前言中,有几句很关键的话指出了本书关注的要点。其中提到:“通用智能是一种具备人类水平广泛认知能力的人工智能”(关键句一)。“充足而广泛的世界知识则成为实现通用智能的重要基础”(关键句二)。“大模型则可以视为一种处理世界知识的通用智能系统”(关键句三)。“知识图谱也是一种用于表示和处理人类知识的技术手段”(关键句四)。这四句话构成了本书的基本架构(四边形的四条边)。“通用智能”“世界知识”“大模型”“知识图谱”则构成了这个架构的四个顶点,是本书内容的四个要素。顶点之间的连线则表示了要素的关系。
我们的序言就围绕这四个要素及它们的关系做一番简单的探讨,并且采用由简到繁、由基础到组合的方式逐步深入讨论。首先,来看“世界知识”,它是关键句二中通用智能的“基础”,也是关键句三中大模型的处理对象。这个词在日常语言中不常被使用。我查阅了相关论文,虽然有一些探讨这个词的文献,但却找不到一个简单明了的定义,甚至还有论文提到“真实世界知识”(FEFahlman,1979),难道还有虚拟世界知识?也许有(神话故事)。但根据本书作者前言的关键句三,考虑到大模型是通过训练海量语言数据(包括多模态语言数据)生成的,因此大体上可以推出结论:“世界知识是可以由大模型生成知识的所有多模态语料。”
在探讨“通用智能”之前,我们先审视省去“通用”二字的“智能”。本书虽然以“知识增强”为主要目标,但对智能本质的探索依然是核心维度。细心的读者可能会注意到,第3章提到了思维链这种抽象概念。思维链作为一种思维模式,被引入来改进对大模型的提示,使之更像一位善于引导的老师对学生的提示。令人感觉这已经不是在谈论知识增强,而像在谈论智能增强,称它为“大模型智能增强”未尝不可。但这与知识增强并不矛盾。知识和智能的关系历来是哲学家、心理学家、教育学家等研究和讨论的课题。不少人研究过这个问题。为此,我查阅了相关文献,果然发现知识和智能的关系历来引起学者们的关注和讨论。例如Cattell在二十世纪七八十年代提出要区分流动的智能和结晶的智能,其中前者是进行中的智能,是进程,而后者是固化的智能,就是知识。1996年,Ackermann直接将专家的领域知识定义为专家的智能。这个说法将智能定义简化为流动的知识。
特定的知识可能对应特定的智能,例如隐知识(Tacit Knowledge)是由迈克尔·波兰尼在1958年提出的概念,指的是那些难以用语言表达或形式化的知识。这种知识通常与抽象概念涉及的具体事物和场景有关,涉及多个维度的因素,难以用几句严格的话语来定义。对于这种知识,也有人找到了它的对应智能概念。Sternberg在1988年提出隐知识对应的智能为实用智能(Practical Intelligence),意思大概是不必苛求它的理论定义,有用就行。例如,人们常说外交官在会见外宾时行为举止要“得体”。至于怎么做才算得体,这就是隐知识,难以用简短的语言描述。所以,试图截然区分智能和知识并非易事。
但我还是认为不能把知识和智能等同起来。什么是智能?智能就是人们遇到新的难题时善于利用已有的知识,可能还要结合新的思路去解决它。不论是成功还是失败,其结果都构成经验,从而转化为新的知识而非单纯的智能。
我认为第3章的思维链等内容对大模型的智能化非常重要。深入开展知识增强大模型的研究必然会引导学者们进一步考虑智能增强大模型,这是我们可以预见的。除了思维链技术,本书内容与“智能增强”有关的部分至少还有两处。一处是第6章提到的大模型推理,以逻辑推导为主要思想的经典人工智能思想在起作用。对本书的关键角色——知识图谱——的利用非常重要。另一处是第10章提到的知识智能体,这方面的研究在二十世纪八九十年代兴起,始终没有被人工智能专家忘记,对于智能增强大模型还是很有用的。大模型技术崛起以后,“大模型增强多智能体”成了提高其技术水平的重要思路,研究很多,因此本书无须重复。
现在我们回到通用智能的话题。究竟什么是通用智能(GI)?对于它,原来我也只是有一个模糊的概念。这次为了写序,我特意系统查阅了文献,结果发现对此还有五花八门的定义。有关工作大致上可分为两大类,其中一类是以实验心理学为基础的,可类比为小学生扩大版的智商测验,适用于所有人,例如C.Spearman(1904年)的Artificial Brain包含了详细的实验记录。后来又被推广到所有的哺乳类动物,认为哺乳类动物(含啮齿类和灵长类)也是有智能且其智能是可测的。我找到专门讲这个问题的一本书,就是Burkart、JudithM等人(2017年)的综述。另一类是由BGoertzel和CPennachin担任主编、DMGabbay和JSiegmann担任执行主编的专著《人工通用智能》(ArtificialGeneralIntelligence,AGI)开创的(2007年)。该书的主编们还宣称AGI这个术语是该书的创举,指出起这个名字是为了刻画人工通用智能是通用智能的“工程化”。书中共收录了12篇论文,其中有理论探讨(AGI定义),也有实践应用(AGI编程)。但是在我看来,书中所收录论文的内容在当时还处于摸索阶段,尽管有关的观点可供AGI研究者参考,但其中实际有效的实践方案仍显不足。不过,这个学科领域发展很快,现在已经有了专门的杂志(Journal of Artificial General Intelligence)。AGI的名字虽然冠以“人工”前缀,却正好契合了本书的主题,因为知识增强大模型生成的通用智能肯定是属于“人工”范畴的。本书的出版真正为AGI实践提供了切实有效的入门指南。其中的“智能增强”部分还可以认为是AGI理论的初步体现。我相信本书的第二版、第三版……将从知识工程与AGI结合的角度进一步体现知识增强大模型与AGI研究的同步发展和完善。
陆汝钤
2025年2月8日
前言
人类通过观察和认识世界来积累对万物的知识,而语言是最直接的表达和传递这些知识的工具。特别是以ChatGPT和DeepSeek为代表的大模型,标志着人工智能在理解和处理世界知识方面取得了显著的进展。通用智能是一种具备人类水平广泛认知能力的人工智能,充足和广泛的世界知识是实现通用智能的重要基础,大型模型则可以被视为一种处理世界知识的通用智能系统。知识图谱也是一种用于表示和处理人类知识的技术手段,在传统搜索引擎、智能问答和大数据分析等领域有着广泛的应用。大模型扩展了对语言的理解能力,知识图谱则丰富了表示知识的方式,将这二者深度结合和相互补充将极大地提升人工智能在知识处理方面的全面性、可靠性和可控性,为人工智能技术提供更加丰富和精准的知识处理能力。
为什么撰写本书
大模型作为当前人工智能领域的重要方向,正在不断拓展人类对智能的认知边界。尽管目前已有大量关于大模型和知识图谱的书籍,但系统介绍二者结合的专著仍然匮乏。本书的第一个出发点就是填补这个空白,旨在通过由浅入深地讲解,为研究者和实践者提供关于大模型与知识图谱融合的清晰指引,帮助他们全面理解这项融合技术的核心理念与实现路径。
本书的第二个出发点是探讨一些新的通用智能实现途径,尤其是从大模型与知识图谱的融合视角出发,探索符号知识增强的大模型技术新路径。长期以来,我国的大模型研究多以追赶和模仿国外技术为主,原创性突破相对较少。我们希望通过本书,推动形成具有自主特色的大模型技术体系,为国内人工智能技术的原创性发展提供一些新思路。
本书是基于作者团队近年来在学术研究和产业实践中的经验整理而成的一部专著,很多内容源自团队自有科研成果和产学研实践。尽管该领域很多内容仍处于探索阶段,但通过在理论与技术上的不断尝试,我们积累了一些实践经验。我们期望,本书的出版能为学术界和工业界的研究者提供一些新的参考,激发不同的创新思路,并为我国人工智能技术的进步和自主创新贡献绵薄之力。
本书主要内容
本书共包括10章,主要内容如下。
第1章,概述了大模型知识增强的基本概念、分类和方法。首先,探讨大模型时代通用智能的核心特征。接着,分析大模型中世界知识的表示与处理,以及面临的主要问题。随后,从语言模型和传统符号知识的优缺点出发,介绍二者的互补优势。最后,简要介绍大模型知识增强的常见方法与实践,为后续章节的深入讨论奠定基础。
第2章,重点介绍预训练阶段的知识增强。作为全书的基础部分,首先,回顾预训练语言模型的基本概念和背景知识。接着,详细探讨常见的知识增强技术方法,包括知识注入的多种方式和结构增强的不同策略。最后,通过多个应用案例,展示知识增强预训练模型的实践效果。
第3章,重点介绍提示指令阶段的知识增强。首先,回顾提示学习和指令精调的基本背景。随后,从知识增强提示学习、结构化思维链到知识图谱思维链等多个角度,探讨知识增强提示工程的常见方法与思路。此外,还深入讨论利用知识图谱引导指令生成的技术路径。
第4章,聚焦于检索阶段的知识增强。先总体介绍RAG的基本概念、典型架构及训练机制。再讨论并分析知识图谱与RAG的结合,并介绍几种常见的知识图谱增强RAG的技术思路。同时,本章强调生成模型、检索技术和知识图谱三者之间的强互补关系。
第5章,聚焦于大模型在结构化知识问答中的应用。首先,介绍结构化知识表示、查询方法及自然语言到查询语言转换的基础知识。接着,分析大模型在查询问答中的能力,探讨基于大模型微调、检索生成和统一表示的查询问答方法。最后,总结大模型在结构化知识问答中的关键作用。
第6章,重点探讨推理阶段的知识增强。先比较分析语言模型推理和知识图谱推理两种实现知识推理的技术思路,再围绕知识图谱增强语言模型推理、语言模型增强知识图谱推理及知识图谱基础模型,探讨将知识图谱与语言模型结合以提升推理能力的多种方法。
第7章,聚焦知识增强幻觉抑制。先介绍大模型幻觉的背景及成因,再分析几种知识增强幻觉抑制技术,包括检索增强生成、知识约束解码、知识对齐优化和知识表征编辑。
第8章,聚焦大模型知识编辑。首先,概述大模型知识编辑的基本概念。接着,介绍两种主要的知识编辑方法:基于外部干预和基于内部更新的知识编辑方法。然后,分析知识编辑对大模型知识能力和通用能力的影响。最后,展示大模型知识编辑的应用与实践。
第9章,聚焦知识增强多模态学习。首先,介绍多模态学习及多模态大模型的相关知识背景。随后,深入探讨知识图谱在增强多模态学习方面的价值,并从知识增强视觉问答、跨模态检索、低资源学习和多模态生成等方面展示这些技术的实际应用。
第10章,重点探讨知识库和AI智能体的关系。首先,从知识增强的单智能体规划能力,以及知识增强的多智能体协同能力入手介绍一些相关的研究工作。然后,从大模型的知识机制、知识增强的具身智能与世界知识模型三个方面,结合“符号知识”的视角对未来人工智能进行展望。
如何阅读本书
这是一本偏重技术发展前沿的图书,知识点繁多,读者应该怎样利用这本书呢?
首先,考虑到读者的知识背景和基础不同,本书每章的第一部分均专门介绍相关领域的基础知识。对于基础较弱的读者,可以通过这个部分掌握核心概念和基础知识,为后续深入理解和学习具体的技术内容打下坚实的基础。这样一来,读者无须担心缺乏某些前置知识,能够顺利跟进书中的技术思路和方法。
其次,本书在设计时充分考虑了读者节约时间的需求。章节之间考虑了逻辑上的连贯性,但也尽力确保各章内容的独立性。因此,读者可以根据自己的兴趣和需求,选择性地阅读某个章节,而无须按固定顺序阅读整本书。这样,读者能够更高效地掌握自己关心的内容,避免从头到尾逐章阅读。
最后,本书专门考虑了高阶读者在技术深度和实践方面的扩展需求,涵盖了一些学术前沿知识和开源工具实践,读者可结合书中的参考文献进行扩展阅读,并通过实际操作相关工具,进一步加深对技术概念的理解。
值得注意的是,大模型和知识图谱领域发展迅速,技术方法和思路持续更新。因此,读者在阅读过程中应关注新兴技术趋势,并保持对最新发展的敏感度。
致谢
我首先要感谢浙江大学知识引擎实验室的全体教师和同学,这本书的很多内容源自实验室的自有科研成果,没有团队的集体努力,也就没有这本书的出版。同时,我要特别感谢陈卓、朱渝珊、张溢驰、姚云志、陈想、朱雨琦、乔硕斐、王梦如、黄志玮、金龙、袁源、汪俊杰、屠铭尘、华尹、甘诚韬等同学,他们为本书的核心章节提供关键素材。另外,我要感谢李娟、欧翌昕、王潇寒、习泽坤、方润楠等同学,他们为本书付出了很多努力并帮助审校文字。
我也要感谢我的家人给予我坚持不懈和毫不犹豫的支持。
感谢电子工业出版社博文视点和宋亚东编辑对本书的重视,以及为本书出版所做的一切。
由于水平有限,书中不足及错误之处在所难免,敬请专家和读者给予批评指正。
陈华钧
2024年12月
展开