




 
大模型是近年来引人注目的热点之一。大模型蓬勃发展的基础,是针对其需求设计的算力及基础架构。本书针对如何为大模型构建基础架构进行深入讲解,并基于TOGAF方法论,剖析业界知名案例的设计方案。
《大模型时代的基础架构:大模型算力中心建设指南》总计13章。第1章讲解AI与大模型时代对基础架构的需求;第2章讲解软件程序与专用硬件的结合,涉及GPU并行运算库、机器学习程序的开发框架和分布式AI训练;第3章剖析GPU的硬件架构,涉及GPU的总体设计、Nvidia GH100芯片架构和拥有其他Hopper架构的GPU;第4章讲解GPU服务器的设计与实现;第5章讲解机器学习所依托的I/O框架体系;第6章讲解GPU集群的网络设计与实现;第7章讲解GPU板卡算力调度技术;第8章讲解GPU虚拟化调度方案;第9章讲解GPU集群的网络虚拟化设计与实现;第10章讲解GPU集群的存储设计与实现;第11章讲解如何基于云原生技术为机器学习应用设计与实现更好的开发和运行平台;第12章讲解基于云平台的GPU集群的管理与运营,涉及云运维平台、云运营平台和云审计平台;第13章基于一个服务机器学习的GPU计算平台落地案例,展示如何针对机器学习应用进行需求分析、设计与实现。
无论是高等院校计算机与人工智能等相关专业的本科生或研究生,还是对并行计算技术、云计算技术、高性能存储及高性能网络技术感兴趣的研究人员或工程技术人员,都可以参考和阅读本书。
作者简介:
方天戟 腾讯专有云首席架构师,本科毕业于北京航空航天大学自动控制专业,硕士研究生毕业于中国科学院研究生院计算机科学与技术专业。从业近20年,从事过硬件开发、内核与驱动开发、协议栈开发、网络与云计算解决方案设计等工作,曾在华为、新华三、Juniper等企业任职,为航天科技、中国建筑、BMW及环球影城等国内外知名客户设计且落地过云计算与网络解决方案。“云鉴”丛书编写组核心成员。 微信公众号:帅云霓的技术小屋
目录:
第1章 AI与大模型时代对基础架构的需求…… 001
第2章 软件程序与专用硬件的结合…………… 019
第3章 GPU硬件架构剖析… ………………… 030
第4章 GPU服务器的设计与实现… ………… 040
第5章 机器学习所依托的I/O框架体系… …… 055
第6章 GPU集群的网络设计与实现… ……… 073
第7章 GPU板卡级算力调度技术… ………… 088
第8章 GPU虚拟化调度方案… ……………… 101
第9章 GPU集群的网络虚拟化设计与实现… 115
第10章 GPU集群的存储设计与实现………… 137
第11章 机器学习应用开发与运行平台的设计与实现… …………… 167
第12章 基于云平台的GPU集群的管理与运营 205
第13章 服务机器学习的GPU计算平台落地案例…………………… 214
点击下载