当前位置: 首页 > 人工智能

大语言模型GUI智能体:人机交互新时代 pdf电子书[54MB]

简介《大语言模型GUI智能体 : 人机交互新时代》是由张朝运编著,随着大语言模型(LLM)技术的突破,人工智能正从“语言专家”演变为具备行动能力的 智能体。大语言模型驱动的图形用户界面(GUI)智能体革新了传统 GUI 的自动化方式,不 再依赖脚本或规则,而是通过自然语言理解、屏幕解析和自主决策,高效地执行任务...
《大语言模型GUI智能体:人机交互新时代》pdf电子书下载
《大语言模型GUI智能体:人机交互新时代》pdf百度网盘
《大语言模型GUI智能体:人机交互新时代》pdf百度网盘
《大语言模型GUI智能体:人机交互新时代》pdf百度网盘

 

随着大语言模型(LLM)技术的突破,人工智能正从“语言专家”演变为具备行动能力的 智能体。大语言模型驱动的图形用户界面(GUI)智能体革新了传统 GUI 的自动化方式,不 再依赖脚本或规则,而是通过自然语言理解、屏幕解析和自主决策,高效、灵活地执行任务。 《大语言模型GUI智能体 : 人机交互新时代》系统介绍这一新兴领域的发展背景、核心技术与应用场景,涵盖 GUI 智能体的架构设计、 数据采集,以及大行动模型(LAM)的构建、关键评估指标和应用,帮助读者掌握 GUI 智能体 的完整方法论,并深入探讨 GUI 智能体当前面临的挑战与未来的发展趋势。

《大语言模型GUI智能体 : 人机交互新时代》配有丰富的图示与实践案例,涵盖多种真实场景下的GUI 智能体自动化方案,帮助读者轻松上手。针对研究人员与开发者,书中提供了示例代码与实践指南,从系统搭建到核心算 法调参,都配有注释。对于希望提高企业自动化能力的工程师,也可借鉴书中切实可行的落地 经验。针对复杂的跨平台操作或大规模界面测试,本书给出了行之有效的思路与实现路径,使 GUI 智能体自动化不再是遥不可及的概念。


作者简介:
张朝运,微软首席研究员,专注于大语言模型驱动的GUI智能体与人机交互前沿技术。作为Windows系统首个GUI智能体——UFO的核心开发者,带领团队实现了多模态交互与高效自动化,相关项目在GitHub获得超过7000星,受到国内外主流科技媒体广泛报道。博士毕业于英国爱丁堡大学信息学院,获深度学习与智能移动网络方向博士学位,其间荣获爱丁堡全球研究奖学金等多项荣誉。在国际顶级会议与期刊发表高水平论文40余篇,谷歌学术引用超5000次。作为主要发明人,拥有多项中、美发明专利。长期致力于大语言模型智能体、智能运维等领域的创新研究,推动GUI智能体技术在桌面操作系统、行业生产力工具等场景的应用落地。 秦思,微软首席研究经理,IEEE高级会员。博士毕业于美国维拉诺瓦大学,在国际会议与期刊上发表论文50余篇,并拥有10多项授权专利。曾多次获得国际学术奖,包括IEE... 张朝运,微软首席研究员,专注于大语言模型驱动的GUI智能体与人机交互前沿技术。作为Windows系统首个GUI智能体——UFO的核心开发者,带领团队实现了多模态交互与高效自动化,相关项目在GitHub获得超过7000星,受到国内外主流科技媒体广泛报道。博士毕业于英国爱丁堡大学信息学院,获深度学习与智能移动网络方向博士学位,其间荣获爱丁堡全球研究奖学金等多项荣誉。在国际顶级会议与期刊发表高水平论文40余篇,谷歌学术引用超5000次。作为主要发明人,拥有多项中、美发明专利。长期致力于大语言模型智能体、智能运维等领域的创新研究,推动GUI智能体技术在桌面操作系统、行业生产力工具等场景的应用落地。 秦思,微软首席研究经理,IEEE高级会员。博士毕业于美国维拉诺瓦大学,在国际会议与期刊上发表论文50余篇,并拥有10多项授权专利。曾多次获得国际学术奖,包括IEEE国际微波与毫米波技术会议“最佳学生论文奖”、IEEE信号处理学会“青年作者最佳论文奖”,以及欧洲信号处理协会“最佳论文奖”等。 现专注于智能运维和大语言模型技术研究,相关技术已成功应用于多个微软产品,曾获“微软亚洲研究院年度最佳技术转化奖”及“微软亚太研发团队奖”,微软机器学习、人工智能与数据科学大会“杰出贡献奖”。 李立群,微软首席研究员,专注于研发基于大语言模型的智能体应用,同时是TaskWeaver智能体开源框架的主要贡献者之一。于2012年获得中国科学院软件研究所博士学位,2006年获得清华大学计算机科学与技术学士学位,曾于2009年访问密歇根州立大学。研究兴趣包括物联网、移动、大数据、机器学习和云计算等领域,在Mobisys、Mobicom、NSDI、ATC、ICSE、ESEC/FSE、ICDCS、RTSS、TPDS和TOSN等顶级会议和期刊上发表40余篇论文。2022年在ESEC/FSE会议上获得SIGSOFT Distinguished Paper奖项。 何世林,现就职于字节跳动,曾任微软亚洲研究院高级研究员,博士毕业于香港中文大学计算机科学与工程系。主要研究方向包括大模型、智能体及软件智能化等。已发表40余篇国际顶级会议和期刊文章,学术引用4000余次,曾获得FSE杰出论文奖和ISSRE最有影响力论文奖。任FSE、ISSTA等国际顶级会议的程序委员会委员。TaskWeaver、UFO、LogPAI等开源项目的核心开发人员。GitHub总星数过万。 媒体评论

目录:
第 1 章 大语言模型驱动下的人机交互革命 2
第 2 章 GUI 自动化的发展之路 16
第 3 章 大语言模型与通用智能体 24
第 4 章 GUI 智能体的体系结构与核心设计 36
第 5 章 GUI 智能体的高级增强与自我演进 56
第 6 章 大语言模型驱动的GUI 智能体框架与平台实践 69
第 7 章 GUI 智能体数据集的采集与构建 87
第 8 章 GUI 智能体的大行动模型训练 95
第 9 章 GUI 智能体评测方法与展望 117
第 10 章 详解 WindowsGUI 智能体UFO 133
第 11 章 GUI 智能体的商业化落地与应用 151
第 12 章 面向未来的挑战与研究方向 166
第 13 章 本书总结 173

点击下载