大模型应用开发动手做AI Agent

大模型应用开发动手做AI Agent

作者：黄佳

出版社：人民邮电出版社

出版年：2024-05

ISBN：9787115642172

行业：其它

浏览数：6

内容简介

人工智能时代一种全新的技术Agent正在崛起。这是一种能够理解自然语言并生成对应回复以及执行具体行动的人工智能体。它不仅是内容生成工具，而且是连接复杂任务的关键纽带。本书将探索Agent的奥秘，内容包括从技术框架到开发工具，从实操项目到前沿进展，通过带着读者动手做7个功能强大的Agent，全方位解析Agent的设计与实现。本书最后展望了Agent的发展前景和未来趋势。

本书适合对Agent技术感兴趣或致力于投身该领域的研究人员、开发人员、企业负责人，以及高等院校相关专业师生等阅读。读者将跟随咖哥和小雪的脚步，踏上饶有趣味的Agent开发之旅，零距离接触GPT-4模型、OpenAI API和Assistants、LangChain、LlamaIndex和MetaGPT等尖端技术，见证Agent在办公自动化、智能调度、知识整合以及检索增强生成（RAG）等领域的非凡表现，携手开启人工智能时代的无限可能，在人机协作的星空中共同探寻那颗最闪亮的Agent之星！

作者简介

黄佳

笔名咖哥，新加坡科技研究局人工智能研究员。他在NLP、大模型、Al in MedTech、Al in FinTech等领域积累了丰富的项目经验。著有《GPT图解大模型是怎样构建的》《零基础学机器学习》《数据分析咖哥十话:从思维到实践促进运营增长》等图书。同时他还在极客时间、CSDN和深蓝学院开设专栏和课程，主要有“LangChain实战课”“零基础实战机器学习”“A 应用实战课”“大模型应用开发实战课’和“生成式预训练语言模型:理论与实战”等。他乐于保持好奇的心、拥抱变化、持续学习，希望借助AI的“慧眼”和“注意力”来观察世界，并以轻松幽默的方式分享知识，收获本真的快乐。

目录

第1章何为Agent，为何Agent 1

1.1 大开脑洞的演讲：Life 3.0 2

1.2 那么，究竟何为Agent 5

1.3 Agent的大脑：大模型的通用推理能力 9

1.3.1 人类的大脑了不起 10

1.3.2 大模型出现之前的Agent 11

1.3.3 大模型就是Agent的大脑 12

1.3.4 期望之峰和失望之谷 14

1.3.5 知识、记忆、理解、表达、推理、反思、泛化和自我提升 18

1.3.6 基于大模型的推理能力构筑AI应用 22

1.4 Agent的感知力：语言交互和多模态 23

1.4.1 语言交互能力 23

1.4.2 多模态能力 24

1.4.3 结合语言交互和多模态能力 25

1.5 Agent的行动力：语言输出和工具使用 25

1.5.1 语言输出能力 25

1.5.2 工具使用能力 26

1.5.3 具身智能的实现 27

1.6 Agent对各行业的效能提升 28

1.6.1 自动办公好助手 29

1.6.2 客户服务革命 29

1.6.3 个性化产品推荐 30

1.6.4 流程的自动化与资源的优化 30

1.6.5 医疗保健的变革 31

1.7 Agent带来新的商业模式和变革 32

1.7.1 Gartner的8项重要预测 33

1.7.2 Agent即服务 34

1.7.3 多Agent协作 36

1.7.4 自我演进的AI 37

1.7.5 具身智能的发展 38

1.8 小结 39

第2章基于大模型的Agent技术框架 41

2.1 Agent的四大要素 41

2.2 Agent的规划和决策能力 44

2.3 Agent的各种记忆机制 45

2.4 Agent的核心技能：调用工具 46

2.5 Agent的推理引擎：ReAct框架 49

2.5.1 何为ReAct 50

2.5.2 用ReAct框架实现简单Agent 53

2.5.3 基于ReAct框架的提示 56

2.5.4 创建大模型实例 60

2.5.5 定义搜索工具 61

2.5.6 构建ReAct Agent 62

2.5.7 执行ReActAgent 63

2.6 其他Agent认知框架 66

2.6.1 函数调用 66

2.6.2 计划与执行 66

2.6.3 自问自答 66

2.6.4 批判修正 66

2.6.5 思维链 67

2.6.6 思维树 67

2.7 小结 68

第3章 OpenAI API、LangChain和LlamaIndex 70

3.1 何为OpenAI API 71

3.1.1 说说OpenAI这家公司 71

3.1.2 OpenAI API和Agent开发 76

3.1.3 OpenAI API的聊天对话示例 78

3.1.4 OpenAI API的图片生成示例 85

3.1.5 OpenAI API实践 89

3.2 何为LangChain 91

3.2.1 说说LangChain 92

3.2.2 LangChain中的六大模块 98

3.2.3 LangChain和Agent开发 100

3.2.4 LangSmith的使用方法 102

3.3 何为LlamaIndex 105

3.3.1 说说LlamaIndex 105

3.3.2 LlamaIndex和基于RAG的AI开发 106

3.3.3 简单的LlamaIndex开发示例 110

3.4 小结 113

第4章 Agent 1：自动化办公的实现——使用Assistants API和DALL·E 3模型创作PPT 115

4.1 OpenAI公司的Assistants是什么 117

4.2 不写代码，在Playground中玩Assistants 118

4.3 Assistants API的简单示例 123

4.3.1 创建助手 124

4.3.2 创建线程 128

4.3.3 添加消息 130

4.3.4 运行助手 132

4.3.5 显示响应 138

4.4 创建一个简短的虚构PPT 141

4.4.1 数据的收集整理 142

4.4.2 创建OpenAI助手 142

4.4.3 自主创建数据分析图表 144

4.4.4 自主创建数据洞察 149

4.4.5 自主创建页面标题 152

4.4.6 用Dall-E为主题配图 152

4.4.7 自主创建PPT 154

4.5 小结 160

第5章 Agent 2：多功能选择的引擎——通过Functions Calling调用函数 161

5.1 OpenAI中的Functions 163

5.1.1 什么是Functions 163

5.1.2 Function的说明文字很重要 164

5.1.3 Function定义中的Sample是什么？ 165

5.1.4 什么是Functions Calling 166

5.2 在OpenAI Playground中定义Function 168

5.3 用Assistants API来实现Functions Calling 173

5.3.1 创建能使用Functions的Assistant 175

5.3.2 不调用Function，直接运行Assistant 177

5.3.3 在Run进入requires_action状态之后跳出循环 185

5.3.4 拿到Assistant返回的元数据信息 186

5.3.5 利用Assistant的返回信息调用函数 187

5.3.6 通过submit_tool_outputs提交结果完成任务 190

5.4 用ChatCompletion API来实现Tool Calls 196

5.4.1 初始化对话和定义可用函数 197

5.4.2 第一次调用大模型，向模型发送对话及工具定义，并获取响应 198

5.4.3 调用模型选择的工具并构建新消息 201

5.4.4 第二次向模型发送对话以获取最终响应 204

5.5 小结 205

第6章 Agent 3：推理与行动的协同——使用LangChain中的ReAct框架实现自动定价 207

6.1 复习一下ReAct推理框架 208

6.2 LangChain中ReAct Agent 的实现 210

6.3 LangChain中的工具和工具包 212

6.4 通过create_react_agent创建鲜花定价Agent 215

6.5 深挖AgentExecutor的运行机制 221

6.5.1 在AgentExecutor中设置断点 221

6.5.2 第一轮思考：模型决定搜索 224

6.5.3 第一轮行动：工具执行搜索 233

6.5.4 第二轮思考：模型决定计算 239

6.5.5 第二轮行动：工具执行计算 241

6.5.6 第三轮思考：模型完成任务 245

6.6 小结 249

第7章 Agent 4：计划和执行的解耦——使用LangChain中的Plan-and-Execute智能调度库存 251

7.1 Plan-and-Solve策略的提出 252

7.2 LangChain中的Plan-and-Execute Agent 257

7.3 用Plan-and-Execute Agent实现物流管理 258

7.3.1 为Agent定义一系列进行自动库存调度的工具 258

7.3.2 创建Plan-and-Execute Agent并尝试一个“不可能完成”的任务 260

7.3.3 改动一下请求，Agent就会成功完成任务 268

7.4 从单Agent到多Agent 273

7.5 小结 273

第8章 Agent 5：知识的提取与整合——使用Llama Index实现检索增强生成Agent 275

8.1 何为检索增强生成 276

8.1.1 提示工程vs RAG vs 微调 278

8.1.2 技术角度的检索 Pipeline 280

8.1.3 用户视角的RAG流程 281

8.2 RAG和Agent 282

8.3 用LlamaIndex的ReAct Agent来实现花语秘境财报检索 284

8.3.1 获取并加载电商文档 284

8.3.2 将文档转换为嵌入向量 285

8.3.3 构建查询引擎和工具 287

8.3.4 配置文本生成引擎大模型 288

8.3.5 创建 Agent查询财务信息 288

8.4 小结 289

第9章 Agent 6：GitHub的网红聚落——AutoGPT、BabyAGI、CAMEL和Generative Agents 292

9.1 AutoGPT 293

9.1.1 AutoGPT简介 293

9.1.2 AutoGPT实战 294

9.2 BabyAGI 298

9.2.1 BabyAGI简介 299

9.2.2 BabyAGI实现 301

9.3 CAMEL 317

9.3.1 CAMEL简介 318

9.3.2 CAMEL论文中的股票交易场景 319

9.3.3 CAMEL实现 324

9.4 小结 333

第10章 Agent 7：多Agent系统框架——AutoGen和MetaGPT 335

10.1 AutoGen 336

10.1.1 AutoGen简介 336

10.1.2 AutoGen实战 340

10.2 MetaGPT 343

10.2.1 MetaGPT简介 343

10.2.2 MetaGPT实战 345

10.3 小结 353

第11章下一代Agent的诞生地：科研论文中的新思路 355

11.1 两篇高质量的Agent综述 355

11.2 论文选读：Agent自主学习、多Agent合作、Agent可信度的评估、边缘系统部署以及具身智能落地 358

11.3 小结 359

参考文献 361

后记创新与变革的交汇点 362

读书文摘

猜你喜欢

核心素养十讲

核心素养十讲

プリンシパル 1

プリンシパル 1

穿越幻想之门的插画师：凯·尼尔森

穿越幻想之门的插画师：凯·尼尔森

猎人笔记

七个被绞死的人

七个被绞死的人

如何阅读海德格尔

如何阅读海德格尔

点击查看