Hello,各位好,今天我想聊一下英伟达。
2023年3月21日,在英伟达2023年GTC(GPU Technology Conference)开发者大会上,黄仁勋做了主题演讲,通篇没有一处提到游戏显卡。而是从头到尾围绕着“加速计算”和AI的“iPhone时刻”到来展开……
从去年到今年,整个科技圈最火的概念毫无疑问就是AI,尤其是AIGC也就是生成式AI的发展,让人有一种AI即将觉醒的压迫感,什么区块链、Web3.0、元宇宙似乎已成昨日黄花,科技圈风口你方唱罢我登场,让人不得不感叹世界潮流之汹涌!
AI预测蛋白质结构、AI作画、再到ChatGPT的连续风靡,让AI成为最热门的话题。
而这些让人惊掉下巴的AI应用背后,一切的基础当然还是那两个字——算力。
AI背后的算力引擎,不是CPU而是GPU,而这个领域目前的主宰就是黄仁勋和他的英伟达(Nvidia)。
英伟达从93年开始,做3D游戏显卡起家,后来99年发明GPU,再到认识到GPU不仅能做3D游戏渲染而是代表了一种与CPU不同的并行算力,而后推出CUDA开发框架,再到GPU能挖矿,直到如今对AI的支持……并行计算的演化,在不知不觉中完成了史诗级的跨越。
谁又能想到当初那个臭打游戏的,如今成了决定未来的霸主……
看完本次GTC大会,大有一种未来最前沿的科技都得姓黄的观感。。。
黄仁勋在大会上都说了啥?GPU对AI的加持有多强?英伟达又发布了哪些新硬件?扔出了哪些王炸?让我们来跟踪解读一波。
01
加速计算和AI的“iPhone时刻”
黄仁勋整个演讲最先抛出来的就是“加速计算”这个概念。
通篇看完我的感觉是,所谓加速计算,就是老黄要把之前由CPU完成的计算,其中凡是大规模的、复杂的,适合并行计算的计算,全部由GPU抢过来。
“加速计算”当然需要从芯片、系统、网络、加速库等方面综合推进,但其中英伟达强推的核心部件就是所谓“加速库”。
这就像我们做木工会用现成的工具一样,程序要要解决特定的问题也不可能从0101001开始编程,而是从特定的“工具库”中调取“工具”进行搭配,而英伟达的所谓加速库,就是这个“工具库”,专门针对某个特定领域计算的一组软件的统称,功能就是让某一种计算的速度大大加快!
黄仁勋提到的这些领域包括,光线追踪和神经渲染、物理、地球和生命科学、量子物理学、化学和计算机视觉、数据处理、机器学习等等,反正一眼望去都是未来最重要的科技行业,英伟达“加速库”目前涉及的领域已经成百上千个。
老黄首先展示了一个用于流体力学的加速库CFD,这看上去确实很酷,整个演示极具科技感!其实这并不意外,对英伟达来说这本就是拿手好戏,这个技术基础是从游戏中直接过渡过来的。
3D游戏里的水流、爆炸、软体等等,一直是游戏效果长期研发的关键,毕竟NVIDIA长期以来有自己的物理引擎PhysX,这些技术与有限元分析结合,用于工业上数字孪生仿真,就可以挖掘出很多潜力价值。
流体模拟其实应用范围很广,从船舶到飞机、汽车,从建筑到工业散热,总之都是赚大钱的行业。
有了这个,在工业设计上确实能节省很大的成本。用软件模拟工业效果,可能目前达不到真实风洞一样完美,但起码能省下不少步骤了。
老黄介绍用A100算卡做CFD,GPU比CPU而言,效率提高了9倍,成本节省了90%,能耗减少了17倍,确实强!猜测如果用上H100,那就更恐怖了!
黄仁勋说英伟达今年更新了其中的100个加速库,其中最令人印象深刻的就是,对芯片制造光刻环节的加速库cuLitho,这个加速库将计算光刻加速了40倍以上。
这玩意儿本质上,就是对光掩模版制造的加速。芯片制造的核心环节是光刻,简单讲就是光通过一个掩膜版照到光刻胶上,让光刻胶曝光融化。
这个掩膜版就是芯片的整体图纸,然而如今芯片制程发展到3nm级别。已经不是简单的宏观物理下光直线传播或者衍射就能解决的了,事实上掩膜版上的图案跟最终光刻到晶圆上的图案并不一致,所以需要通过麦克斯韦方程描述,逆物理算法来预测掩膜版上的图案。
这是一个巨大的计算负载,以往都是用CPU来算,消耗极大。每年消耗数百亿CPU小时,需要大型的数据中心做到24h*7d全天候的运行。
现在英伟达和台积电、阿斯麦等公司密切合作四年,搞定了这个“核弹”级别的光刻加速库cuLitho。
最关键的是,一块芯片的制造往往需要若干块掩膜版,光刻很多次才能完成制造!
据老黄举例:英伟达H100芯片的制造,总共需要89块掩膜版,当前在CPU上运行时处理单个掩膜版的时间需要2周!但如果在GPU上运行cuLitho,只需要8个小时就可以处理完一个掩膜版。
台积电可以通过在500个DGX H100系统上使用cuLitho加速,将功率从35MW降至5MW,从而代替用于计算光刻的4万台CPU服务器。
借助cuLitho,台积电可以缩短芯片的制造周期,提高产量,减少制造过程的碳排放,并为2纳米以上的生产做好准备。黄仁勋表示,台积电将于6月开始对cuLitho进行生产资格认证。
老黄本次演讲中另个一重要的加速库就是,图像处理加速库CV-CUDA和用于视频处理的VPF,这俩是新的云规模加速库。简单来说就是在云上,做大规模的视频和图像处理用的,能够极大的加速这两方面的处理速度。
其实这两个加速库在总体演讲中占的篇幅并不大,为啥我们要重点讲一下呢?我觉得这里面是有两个隐藏条件:
1、英伟达CV-CUDA的主要合作方是中国,研发伙伴是字节跳动,但TikTok目前在科技战背景下,处境有点尴尬,所以老黄故意简略了这块内容,只提了腾讯。
2、目前互联网上文字类内容其实并不占大头,图像和视频内容是更多的,这对云算力来说是块肥肉。
ChatGPT4最大的进步就是支持了图像和视频!现在互联网上的信息尤其是短视频,是最多的,所以必然这块的算力需求也是天量,以往这些视频处理负载都在CPU上处理,非常艰辛,老黄看到了之后非常感动,眼泪不禁从嘴角流了下来。
老黄自己在演讲中也提到,目前80% 的互联网流量来自于视频,而50%-80%的云视频工作运行在CPU上。用户生成的视频内容,正在推动流量大幅增长并消耗大量能源,我们应该加速所有视频处理并降低能耗。
CV-CUDA是图像处理加速库,用于检测、分割、分类,也就是说在用图片搜图片,AI识图等方面很有用。当然视频就是多张图片连起来。VPF是一个视频编码加速库,也就说能让视频处理速度增加,比如换背景啊、换滤镜啊、视频剪辑啊等等。
我们的视频都是要上传到云上,再编辑各种效果,再发出去让粉丝们来观看,如果视频处理速度慢,那么就会出现各种卡顿!有了这俩那速度就快多了!目前腾讯使用CV-CUDA和VPF每天处理30万个视频。
英伟达数据显示,以图像背景模糊算法为例,将用GPU计算的CV-CUDA替换用CPU计算的OpenCV作为图像预/后处理的后端,整个推理过程吞吐量能增加20 多倍。
除了以上这些,老黄还更新了包括:量子电路仿真的加速库cuQuantum,加速物流服务的cuOpt,用于基因工程的Parabricks等等加速库,不一而足……
这些加速库可以在物流分发,工程调度统筹,量子计算机纠错,基因工程模拟等等方面给予极大的算力支持,未来这些方面的科技效率将大大提高。
说白了,以老黄的眼光来看,在加速库盛行之前,很多工作是在用“蛮力”去算,调动更多的CPU工作,花费更多的电力和时间。打个不恰当的比喻,就是用几个博士在做大规模的四则运算工作。
GPU的并行计算可以让大量中学生去做四则运算,CPU当好自己的总指挥就行了!CPU适合复杂的计算,GPU才适合简单的大规模计算。更加合理的安排计算卡上的算力资源(CUDA核)和存储资源(显存),才是根本。
加速库的作用是,给大规模的小学生更加合理的安排优化统筹,哪些学生做加法,哪些学生做减法,男生做十以内的运算,女生做十以上的运算。更加优化的流程和分工,让效率更高一步!如此一来整体节省下来的效率,比几个博士去靠“蛮力”算,不知道高到哪里去了!
并且这些加速库都是基于英伟达的CUDA框架,跟特定领域的专业团队联合开发的。也就是说,英伟达的CUDA框架和与之协同的一系列加速库,构成了人类关于如何加速计算这些问题的封闭的知识库,现代的亚历山大图书馆。
现在我们做任何关于GPU功能的开发,已经无法离开CUDA框架,而这个垄断的局面显然会随着这一系列加速库的发展而被加强。
02
扔出硬件王炸,助力AI起飞
说了半天加速库,说到底老黄的基础逻辑就是,未来算力的重点在数据中心,而用加速库让GPU抢更多CPU的活,既可以提高算力,也可以节省能源,降低碳排放,岂不美哉。
但毕竟英伟达是一家做硬件芯片的公司,所以大家最关心的,还是英伟达扔出什么样的硬件芯片,是否有王炸产品。那老黄肯定不能让大家失望啦,于是他接下来就发布了四大硬件。
英伟达推出了4款全新GPU 推理芯片,分别是L4,L40,H100 NVL和Grace Hopper ,分别用于加速AI 视频、图像生成、大型语言模型部署和推荐系统。也就是对网络上用的最多的几种AI应用,有针对性的发布硬件去处理它们,又是一种针对AI的刀法。
60岁的老黄还是当年那个皮衣刀客,没有一点点改变!
L4和L40都是基于Ada Lovelace架构的张量核心GPU,需要注意的是Hopper架构和Ada Lovelace架构都是英伟达最新的GPU架构,分别面向数据中心和游戏显卡。H100就是Hopper架构,而最新的40系列显卡是Ada Lovelace架构。
L4主要针对的是AI视频工作优化,尤其是视频解码,转码,还有视频内容审核,感觉这东西对抖音B站这类视频网站简直是神器啊。相信有了这东西,我们在APP或者视频网站上传视频,剪辑视频等等,速度将大大提高。
因为之前这些工作往往在数据中心,部署在CPU完成。现在一台8-GPU的 L4服务器,将取代一百多台用于处理AI视频的双插槽CPU服务器,8个L4捆在一起就是一个核弹级服务器。
L40的功能也很厉害,主要针对的是图形渲染、文本转图像和文本转视频,L40的性能是目前最受欢迎的T4 GPU的10倍。这东西的作用主要是能通过AI,让所有人都轻松做视频特效,并且做到专业级别。
再加上30多种云端工具和加速库CV-CUDA的加持,让我看到了普通人做剪辑和特效也能达到专业水准的可能性。事实上好莱坞已经在电影中用到这个技术了。
简单几笔就能消除视频里的某个对象,以后如果哪个明星再翻车,在电视剧或晚会里把他擦去就太简单了!
视频换背景、做特效这种事儿,原来需要几小时的工作,现在几分钟就搞定了!
第三个核弹就是H100 NVL。
现在ChatGPT这么火,怎么能够没有针对ChatGPT的神器呢?
H100 NVL是已有 H100 系列的特殊加强版,专为大型语言模型 ( LLM ) 优化,是部署 ChatGPT 这类应用的理想平台。
由于ChatGPT是大模型训练,所以对显存需要特别大,所以这个H100GPU直接配上了94GB的HBM3 显存,H100 NVL 还可以双卡组成一个计算组,显存188GB,一个服务器四对H100,训练ChatGPT如虎添翼。
事实上基于Transformer 引擎加速的ChatGPT,之前唯一运行这个大模型的GPU就是A100,现在H100 NVL与上一代 A100 相比,在GPT-3 上的推理性能提高了多达10倍。
看了上面三个核武器,我隐约有种不祥的预感,你英伟达通过GPU和加速库,抢了这么多的CPU的工作,X86家族能接受吗?活儿都让你GPU干了,还要我干嘛?
没错,这正是老黄绝情之处。我管你配合不配合,老子自己出CPU,于是Grace CPU来了,完全没有把X86当人。
Grace是基于ARM架构的72核心CPU,并且老黄还掏出来一个两个核心连接在一起的,144核心超级核弹CPU——Grace Superchip,内部通过900GB/s的低功耗接口NVLink连接。
这东西还配备了1Tb的高度内存,而且竟然是被动风冷散热,简直惊掉下巴,老黄对自己的CPU功耗和性能真是太自信了。
当然这东西不是专门针对不同领域发布的四大核弹之一,最后一个大核弹是Grace Hopper 超级芯片,也是内部通过900GB/s的芯片到芯片接口NVLink-C2C连接。
不过这次连接的是一个Grace CPU+一个Hopper GPU,牛逼啊!
有了Grace Hopper,妈妈再也不用担心,大型数据集、大型AI大数据库的处理了!一个简单的技术原理是,AI往往处理的是非结构化数据,不是一定准确无误特别规则的文本!也许就是个聊天记录,或者产品的评论什么的。
而这些数据往往是向量数据库,就是说它本质上不是查询一个准确的结果,而是某一种风格,某一种个性。
而AI在后台的处理,就是对比一些不可描述的高维向量的形状,输出的就是最相似形状的结果。
所以像个性推荐这种事,以后就要靠这个核弹来解决了!
Grace Hopper可以充分利用大容量内存,让CPU查询巨型嵌入表,然后将结果传输到GPU进行推理,速度比PCIE快7倍。客户希望构建规模大几个数量级的AI数据库,Grace-Hopper是理想的引擎。
说了这么多,其实还都是老黄的刀法玩的好呀。针对不同的领域,不同的功能,不同的市场在做的各种布局!
说白了就是细分优化,多抢钱!
而真正的现代AI工厂,并不是上面这些,而是DGX超级计算机。
老黄所谓iPhone时刻已经到来,他说这话的底气,就是基于DGX超级计算机的数据中心。
老黄说的清楚,NVIDIA的一切加速计算始于DGX(AI超级计算机),之前就是他把首款DGX交给了OpenAI,才有了今天的ChatGPT。
现在DGX已经成为AI领域的标配!这东西里面有8个H100 GPU模组,这8颗H100 GPU也是用NVLink来连接,速度极快无阻塞,8个合在一起成为了一个超级GPU,然后更多个这样的模组,组成AI超级计算机,有点恐怖啊。
老黄给DGX H100超级计算机设计的目标,是为全球客户构建AI基础设施的蓝图。
是的,他想通吃!
他想给所有想做自己AI模型的公司,直接提供云服务,甭管你是初创公司还是老牌公司,你想弄自己的AI模型,又没有那么大的投入能力?
没事,花小钱办大事儿,直接用我的云服务,你也可以拥有自己的ChatGPT,我说的!
NVIDIA AI可以让客户定制自己的AI服务,通过一个浏览器,就可以将DGX AI超级算力接入你的公司,这就是NVIDIA DGX Cloud云服务。
这个云服务跟我们一般理解的云服务还不一样。
因为AI深度神经网络的训练过程,是一个黑箱,你一旦换了云服务就不知道能不能达成一样的训练效果了,也就是迁移成本极高,会有很强的依赖性。
基于云这块,老黄的野心可不小啊!
03
云服务
关于本次大会英伟达展示的云服务,有两个亮点让我印象深刻。
Picasso Service云服务和NVIDIA BioNeMo服务,他们都是基于云计算的生成式AI技术,当然老黄在演讲的最后也还是不出意外的吹了一波Omniverse。
云服务里面未来最有科技感的,我反而觉得是BioNeMo Service,这是一种用于早期药物发现生成AI的云服务,具有九种最先进的大型语言和扩散模型。
可通过Web界面或完全托管的API访问,并且可以在NVIDIA DGX Cloud上进一步训练和优化,生物学生成式AI的工作流程得到了优化和统包。
药物研发是价值2万亿美元的行业,不夸张的说,分子生物学是除了AI以外当今世界最前沿的科学领域!而随着AlphaFold等工具的出现,AI给分子生物学插上了翅膀,两者Buff一叠加,未来的潜力可想而知。
药物研发说一千道一万,最重要的流程就三个,找病因-设计药物-实验效果!目前,利用AI发现疾病的靶点,也就是病因,然后生成各种化合物或蛋白质类药物,再模拟药物对人体的效果,BioNeMo全链条支持,有点酷。
据老黄讲,目前已经有一些公司通过这个技术搞出来了新药,并且就要用于临床了。
BioNeMo服务具有九个AI生成模型,涵盖了开发AI药物发现管道的广泛应用:AlphaFold 2、ESMFold和OpenFold用于根据一级氨基酸序列预测3D蛋白质结构、用于蛋白质特性预测的ESM-1nv和ESM-2、用于蛋白质生成的ProtGPT2、MegaMolBART和MoFlow用于小分子生成、用于预测小分子与蛋白质结合结构的DiffDock等。
BioNeMo未来可以为药物研发,节省大量时间和资金成本。毫不夸张的说,也许在未来几年,会有现在的疑难杂症被AI解决。
云服务里面第二个令人印象深刻的就是Picasso Service云服务。说到底我最感兴趣的其实就是AI生产3D场景,这东西号称是用于构建和部署生成式AI驱动的图像、视频和3D应用程序,具有高级文本到图像、文本到视频和文本转3D功能,可通过简单云API提高创造力、设计和数字模拟的生产力。
说白了就是,ChatGPT可以为你生成文本,比如写诗、写文章、写代码。而到了ChatGPT最新版本的ChatGPT4,它已经可以为你生成图片和视频了,短时间内吊打了上一代。
那Picasso就是生成式AI中,另一种视觉创建内容方式,AI大规模生成3D场景。
现在做3D游戏VR应用最大的瓶颈就是3D内容生产成本太高,当图片、视频和3D场景都能生成到以假乱真的时候,什么元宇宙啊,数字孪生啊都不在话下。
当你跟电脑随便描述一段话,它就能给你生成你想要的任何视频或3D效果的时候,这种冲击力将是巨大的!这将会是AI的又一个里程碑,到时候建模的设计师们有可能会失业,而建筑、工业、电影、娱乐等等行业都会被彻底改变。
这个技术对于英伟达来说非常合适,毕竟他长期研究3D游戏,又有物理引擎,再加上AI的加持,未来可期。
04
对大会内容的一些理解
本次GTC开发者大会,英伟达总体是面向未来新技术的整体布局,从软件到硬件再到云服务。英伟达正朝着,以算力为基础的平台型公司发展。
算力是英伟达的杀手锏,通过GPU设计能力和CUDA开发框架垄断算力,推广到加速库、云、大数据、AI等等方面,再延展到各个高科技行业做整体布局。
回望过去,英伟达的发展历史给人一种一路开挂的错觉,从3D游戏到GPU,从挖矿到AI,一波接一波的算力需求浪潮,让英伟达每次都走在了时代的浪尖上,随之就是公司规模的扩大,并行计算算力的极速扩张。
但不要忘了,英伟达的起点也只是三个三十多岁的年轻人创立的小公司,在早期的图形加速卡竞争当中并不是Voodoo的对手,靠世嘉的提携才阴差阳错站稳脚跟,也曾因为错过了移动互联网革命而跌入低谷,但黄仁勋这个人身上确实一种强烈的科技企业家的特质,就如漆黑中的萤火虫一样让人过目不忘。
比如他也跟一般的商人一样喜欢吹牛逼、提新的概念,但他提新概念不是基于一时的市场趋势,而是基于技术前景+市场趋势的有机结合。
比如他一直说英伟达在1999年发明了GPU,但其实早期GPU跟图形加速卡并没有本质区别,只是因为他认为图形加速计算的发展潜力很大,外加3D游戏市场已经被打开,所以负责图形计算的那块卡应该被重新定义,应该拥有自己的姓名。
再比如他也会像一般的商人一样,企业做大了之后就会想横向多元化发展。但他的横向发展不是转进到房地产,而是基于对技术底层的充分理解,对于一项技术本质上是在解决什么问题的充分理解。
英伟达之所以在所有显卡厂商当中一骑绝尘,能够乘上后来的视频网站、区块链挖矿到AI的一波又一波的风口,关键的步骤是在2006年发布CUDA架构,把业务从3D游戏扩展到所有需要大规模并行计算的领域。
这背后是黄仁勋认识到,GPU这种芯片的潜力并不仅仅在于同时算几百万的三角形,世界上需要大规模并行计算的场景很多,GPU可以使这一切都得到加速。
中国也需要像黄仁勋这样的科技企业家,中国也需要英伟达。
酷玩实验室整理编辑
首发于微信公众号:酷玩实验室(ID:coollabs)
如需转载,请后台留言。
分享给朋友或朋友圈请随意
还木有评论哦,快来抢沙发吧~