做大模型时代的“卖铲人”:腾讯发布超强算力集群 国内首发搭载英伟达H800
配资实盘平台
2024-03-31 21:46:37
0

K图 00700_0

  国内大模型训练面临的算力困局有望得到纾缓。面向大模型训练,4月14日,腾讯云正式发布新一代HCC(High-Performance Computing Cluster)高性能计算集群。

  该集群采用腾讯云星星海自研服务器,国内首发搭载英伟达最新代次H800 GPU,服务器之间采用业界最高的3.2T超高互联带宽,为大模型训练、自动驾驶、科学计算等提供高性能、高带宽和低延迟的集群算力。

  ▍开启云上大模型训练模式

  当下,大模型训练如火如荼,且参数量级已进入万亿时代,单体服务器算力有限,随着算力需求的增长,因此需要将大量服务器通过高性能网络相连,打造大规模算力集群。

  集群的算力要求,意味着用于采购硬件的资金投入是指数级增长,这给不少企业带来了巨大的现金流压力。自己采购GPU,面临着成本和供应链问题,且峰谷问题较为明显。

  例如,本地的物理CPU/GPU资源配比是固定绑定在一起的,扩展性比较差。有时CPU跑满、GPU空闲(或相反)。造成效率低下和资源浪费。在云上,这些资源可以池化随取随用,按需按量取用。

  面对业务架构多样、用量无法准确预估、模型及环境部署难度大等问题,腾讯认为,云上算力能帮助企业完成随机突发的算力需求。

  ▍先进芯片≠先进算力

  目前大热的人工智能大模型,其训练需要海量数据和强大的算力来支撑训练和推理过程,其中数据主要由服务器和光模块存储、运输,算力支撑则依赖各类芯片。

  算力需求陡增,业界普遍认为,高性能芯片的短缺是限制国内大模型行业发展的重要因素。

  但在腾讯看来,用上了先进芯片并不代表就拥有了先进算力,原因在于高性能计算存在“木桶效应”,一旦计算、存储、网络任一环节出现瓶颈,就会导致运算速度严重下降。

  以算力对网络的要求为例:目前,GPU并行是大模型训练的必备技术,不同于传统并行以加快计算速度为目的,大模型的并行计算往往还要考虑怎样将庞大的参数有机地分布到多张GPU卡中,并保持不同GPU卡之间有效的通信,整体配合完成大模型的训练部署。

  即使是目前业界已有的GPU分布式训练方案,也严重受制于服务器之间的通信、拓扑、模型并行、流水并行等底层问题。如果只有分布式训练框架,甚至都无法正常启动训练过程。这也是为什么当时GPT-3已经发布一年,却只有少数企业可以复现GPT-3。

  换句话而言,先进算力的背后,是先进芯片、先进网络、先进存储等一系列的支撑,缺一不可。

  ▍首发搭载英伟达H800

  腾讯新一代HCC集群搭载了英伟达最新代的H800芯片,这是H800在国内首发。不过,腾讯暂未透露采购了多少H800。

  H800是英伟达新代次处理器,基于Hopper架构,对跑深度推荐系统、大型AI语言模型、基因组学、复杂数字孪生等任务的效率提升显著。

英伟达芯片参数对比

  网络层面,腾讯自研的星脉网络,为新一代集群带来了3.2T的超高通信带宽。实测结果显示,搭载同样的GPU卡,3.2T星脉网络相较前代网络,能让集群整体算力提升20%,使得超大算力集群仍然能保持优秀的通信开销比和吞吐性能。并提供单集群高达十万卡级别的组网规模,支持更大规模的大模型训练及推理。

  存储层面,腾讯云自研的文件存储、对象存储架构,具备TB级吞吐能力和千万级IOPS,充分满足大模型训练的大数据量存储要求。

  在自研芯片方面,腾讯已经量产了用于AI推理加速的紫霄芯片,并已在语音转写、OCR等业务场景使用,用于视频转码的沧海芯片,已经在云游戏、直点播等场景中规模落地。

相关内容

中东资本频频调研A股公司 ...
  今年以来,中东资本频频调研A股公司。世界石油巨头沙特阿美也表现...
2024-05-07 18:57:46
做大模型时代的“卖铲人”:...
  国内大模型训练面临的算力困局有望得到纾缓。面向大模型训练,4月...
2024-03-31 21:46:37

热门资讯

两会解读:关注新质生产力、开创...   坚持稳中求进、 以进促稳、 先立后破。今年发展主要预期目标是:国内生产总值增长5%左右;城镇新增...
东方财富财经早餐 3月8日周五   1、央视新闻:强化使命担当,深化改革创新,全面提升新兴领域战略能力。中共中央总书记、国家主席、中...
降息预期升温美元连跌三周 人民...   由于美国明年降息预期升温,美元指数连续第三周走弱,刺激现货黄金上周累计上涨近3.5%,并于本周一...
江苏悦达集团注册资本增至75亿...   天眼查App显示,近日,江苏悦达集团有限公司发生工商变更,注册资本由67亿元增至75亿元,增幅约...
九大要点!读懂巴菲特2023年... 5月6日晚,“股神”巴菲特与老搭档芒格出席了伯克希尔哈撒韦年度股东大会问答环节。思维观察总结要点如下...
俄联邦反垄断局:苹果公司已付清...   据央视新闻,根据俄罗斯联邦反垄断局1月22日公布的消息,苹果公司已于1月19日付清了12亿卢布反...
一年318亿元农产品和食品出口...   豆腐乳是中国传统民间美食。作为调味品,既可在喝粥、吃馒头时食用,也可用来烹调风味独特的菜肴。20...
证监会:今起全面暂停限售股出借...   1月28日下午,证监会公告称进一步优化融券机制,全面暂停限售股出借并对融券效率进行限制。多位业内...
宏利基金庄腾飞:在投资中做减法...   2022年初,入行近15年的宏利基金宏观策略投资部副总经理、首席策略师庄腾飞将自己的投资重新聚焦...
境内指数化投资驶入快车道 首批...   中证A50指数发布一周来,证监会官网显示,首批10只中证A50指数ETF产品已上报,新增资金入市...