打开水龙头前,我们不需要知道水是从哪条河里来的。同理,未来我们用各种AI应用时,也不会知道它调用了哪些基座模型,用到了哪种加速卡的算力。
在业内人士看来,这就是最好的AINative(AI原生)基础设施。
如何高效整合异构算力资源
在2024世界人工智能大会(WAIC)暨人工智能全球治理高级别会议上的一场AI基础设施论坛上,业内专家热议这种被称为AINative的概念。它是指将人工智能融入到各个产品、业务和服务中,从而实现更高效和智能化的运作方式。
“AINative我们也把它叫做AI原生,这就像是互联网原生的概念,但不同的是,互联网是由流量驱动的,AI是由算力驱动的。”无问芯穹联合创始人、清华大学电子工程系副研究员颜深根表示,“AI时代要求我们构建新的生态,以适应算力驱动的需求。”
颜深根表示,AI基础设施应该“向上对接应用,向下对接芯片设计与制造工艺”,从而让算力能够更为充分地发挥出来,提升算力的使用效率。
针对如何构建适应多模型与多芯片格局的AINative基础设施,无问芯穹联合创始人兼CEO夏立雪对第一财经记者表示:“我们需要提供高效整合异构算力资源的算力平台,以及支持软硬件联合优化与加速的中间件,让异构芯片真正转化为大算力。”
训练和推理是大模型生命周期中不可或缺的两个阶段,都需要强大的算力资源来支撑。然而,相比国际上模型层与芯片层呈现的“双头垄断”格局,中国的模型层与芯片层表现得“百花齐放”,尤其是在芯片层。
异构的芯片之间存在一种“生态竖井”,即硬件生态系统封闭且互不兼容。用了A卡的开发者,无法轻易迁移至B卡上展开工作,也难以同时使用A卡和B卡完成大模型训练或推理,这导致如果一个算力集群中存在两种或以上的芯片,算力使用方会面临一系列技术挑战。
在今年的WAIC大会上,无问芯穹发布了全球首个可进行单任务千卡规模异构芯片混合训练的平台,具备万卡扩展性,支持包括AMD、华为昇腾、天数智芯、沐曦、摩尔线程、英伟达六种异构芯片在内的大模型混合训练,千卡异构混合训练集群算力利用率最高达到97.6%。
算力分散且利用效率不高是目前制约国内人工智能技术发展的一个瓶颈。中科加禾创始人兼中科院计算技术研究所研究员崔慧敏表示:“我们必须承认,目前在国内,中间层的AI基础设施仍然落后于上层的应用以及下层的芯片。”她也认为,算力优化非常重要,原生时代来临,基础设施怎么建?也就是做到在不降低算法精度的情况下,提升算力的性能。
崔慧敏提出,通过构建基础的软件平台层,就能让底下的芯片层以及上面的模型层随意切换。这就像是提供了一个中间的编译平台,让模型、应用可以在不同的硬件平台之间自由移植,同时优化性能,从而补齐AI产业生态的缺位,降低上层应用在国产芯片平台上的落地门槛和成本,提升多种异构算力的利用和适配效率。
如何打造自主可控的AI生态
随着国内大模型的发展,构建AI产业生态成为业内高度关注的话题。上海算丰信息总经理顾萌指出:“在基础设施建设领域,英伟达生态不可攻破,存在压倒性的优势,这对于我们的AI基础设施如何服务于AI发展,以及AI发展如何反哺AI基础设施的建设提出挑战。”
科大讯飞董事长刘庆峰在大会上表示:“国产大模型的底座能力决定了企业在这条路上到底能走多远,我们要以长期主义来打造中国真正自主可控的AI产业生态。在国产化的底座下,能为行业带来更高的话语权与安全性。”
在提到AI基础设施建设时,刘庆峰对第一财经记者表示:“我们希望通过一些技术的创新方法,来提升算力的使用效率,从而弥补我们在算力上的某些不足。”
长期以来,云端大模型和基础设施一直是AI领域的投资重点。刘庆峰说道:“未来,云、边、端结合软硬一体化一定是大模型发展的一个趋势。”
颜深根认为,在互联网时代,平台占据强势地位,比如百度、阿里、美团这些大平台是流量的主要入口,而未来,随着人工智能的发展,端侧智能的能力会迅速增强,平台的收益将会向设备侧转移,这会给端侧带来更加丰厚的利润。
“我们也希望在端侧做一些优化,比如芯片的IP等,但在技术上要实现还面临一定的挑战,一方面是现在模型本身的规模还比较大,内存方面的问题没有解决,另一方面是要发展端侧,在芯片层面也还有欠缺,国内对大模型的支持还没有理想的解决方案。”他表示。
(本文来自第一财经)
版权声明
本文仅代表作者观点,不代表百度立场。
本文系作者授权百度百家发表,未经许可,不得转载。