随着AI的快速发展,云计算正迎来一场前所未有的革命。阿里云智能集团副总裁吴结生在近期的访谈中深入探讨了云上高性能计算(CloudHPC)的创新发展。他指出,云端高性能计算市场的增长速度预计将是本地服务器市场的两倍,到2027年市场规模将超过140亿美元。这表明,云计算正日益成为企业进行高性能计算的首选方案。
吴结生强调,传统的高性能计算(HPC)因架构复杂、运维困难而成本高昂,导致很多企业望而却步。然而,随着AI技术的兴起,高性能计算的需求不断增加,如何降低成本,提高可用性,成为行业必须解决的难题。CloudHPC通过弹性资源分配、兼容性强的计算架构和快速部署的能力,为企业提供了更优的解决方案。
在具体的应用场景中,吴结生以汽车研发为例,展示了CloudHPC的优势。在研发过程中,仿真计算产生大量数据,传统HPC常常面临数据挪动的难题。而CloudHPC通过弹性计算集群和并行文件存储系统,有效整合了分布在不同位置的数据,大大提升了研发效率,缩短了产品周期。
针对不同的业务场景,AG真人国际吴结生提到算力需求的多样化问题。现今企业面临的主要挑战是计算架构单一性与算力需求多样性之间的矛盾。为了应对这些挑战,企业需要通过创新的产品和技术方案满足不同负载对计算能力、存储性能及网络带宽的差异化需求。
他指出,根据业务场景的算力耦合度与数据密集度,企业可以选择不同的计算架构。在松耦合场景下,用户往往更强调性价比和资源的弹性调度,阿里云推出的E-HPC提供了适应这些需求的解决方案。相比传统HPC,E-HPC使得客户能够在更低的成本下获得高吞吐量的计算资源,显著提高药物研发等过程中的效率。
紧耦合场景则适合于计算任务规模大且计算时间紧张的业务。这种情况下,CloudHPC能够利用云资源的规模化效应和强大的并行计算能力,满足企业在高性能计算上的需求。阿里云的E-HPC平台允许用户同时提交AI与传统HPC作业,利用完善的资源管理早期有效地完成复杂的计算任务。
值得注意的是,在AI时代,面对日益增加的大模型训练需求,CloudHPC的角色愈发重要。吴结生认为,大模型的训练循环其实是对云上高性能计算能力的全面检验。为了支持稳定、高效的大规模高性能训练,阿里云推出了适用于高性能计算的CIPU架构,该架构通过有效减少虚拟化开销,提升I/O性能,使企业能够更好地利用其计算资源。
最后,吴结生强调,随着各行业越来越多地转向以数据为中心,AI的应用已成为转型的关键。未来,每一个企业都将不可避免地成为数据+AI的公司。这要求云计算服务商不断创新,提供多样化的产品组合,以便企业能够在多变的市场环境中,灵活应用AI技术,实现智能化的创新发展。通过云计算与高性能计算的结合,企业将在数据规模扩展的同时,迎接未来的挑战,赋予AI应用新的生命力。返回搜狐,查看更多