在AI领域的国际较量愈发激烈之时,我国AI企业DeepSeek传来令人振奋的消息。这家以大语言模型震撼全球的人工智能公司,近日宣布在硬件适配层面取得重大技术突破。DeepSeek成功绕过英伟达CUDA框架,直接利用GPU硬件指令语言PTX进行模型训练,为我国未来GPU适配铺平道路。这一创新举措,无疑为国产AI发展注入强大动力。
技术突破打破生态壁垒
DeepSeek研发团队在使用英伟达H800芯片训练模型时,摒弃了行业通用的CUDA编程框架,转而采用接近汇编层级的PTX(Parallel Thread Execution)语言。这一决策意味着工程师需要直面寄存器分配、线程调度等底层硬件操作,相较于CUDA这种"开发者友好型"高级编程语言,开发难度呈几何级数上升。
北京航空航天大学黄雷副教授指出,此举实质是穿透了英伟达构建的软件生态护城河。通过直接调用GPU驱动函数,DeepSeek实现了硬件层面的细粒度控制,这种"芯片级编程"能力不仅极大提升了算力利用效率,更构建起硬件适配的底层技术储备。
战略布局应对算力危机
行业观察人士发现,这种非常规技术路径的选择,恰与中国面临的"GPU短缺危机"形成战略呼应。在美国持续收紧AI芯片出口管制的背景下,DeepSeek的底层创新使其能够快速适配国产GPU架构。目前华为昇腾、壁仞科技等国产芯片厂商的硬件接口与英伟达存在显著差异,而掌握PTX编程能力的团队,只需解析新硬件的驱动函数接口,即可快速实现代码迁移。
韩国未来资产证券分析师李明浩认为:"这展现了中国AI企业惊人的工程化能力。当行业普遍依赖CUDA的便利性时,DeepSeek选择了一条艰难但更具战略纵深的道路,这种未雨绸缪的技术布局,正在重构全球AI算力竞争格局。"
产业变革暗流涌动
当前全球超过400万开发者构建的CUDA生态,始终是英伟达维持市场垄断的核心壁垒。DeepSeek的突破性实践,不仅验证了绕过CUDA框架的技术可行性,更揭示了AI算力基础设施的另一种可能——通过建立硬件抽象层,实现跨架构的算力资源调度。
据业内人士透露,包括腾讯、百度在内的多家中国科技巨头,都在加速推进"去CUDA化"技术储备。这种集体技术突围,或将催生新的开发范式:在保持算法创新的同时,通过底层硬件适配能力的提升,构建自主可控的AI算力体系。当全球AI竞赛进入深水区,这场围绕算力基础设施的暗战,正在悄然改写行业游戏规则。