2024云-AI-计算国际合作论坛要点小结
- 坚持开放、兼容与自主创新来应对技术封锁
- 推进算力国产化,2030年国产化算力占比要达到90%以上
- 互联网+ 正在转变为AI+
- 人工智能从单模态向多模态发展
- 系统软件是制约我国AI发展的关键因素,智算的10种核心基础软件
- 并行系统:DeepSpeed, Megatron-LM, FairScale
- 编程框架:PyTorch
- 通信库:NCCL
- AI编译器:tvm
- 算子库:cuBLAS, cuDNN
- 编程语言:CUDA, oneAPI
- 调度器
- 内存管理
- 容错系统
- 存储系统
- 构建国产万卡集群很重要也很难
- 异构卡、异地卡训练效果不好
- 与通算中心相比,智算中心功率密度更大,负载波动更大,交付时间更短
- 智算云计算架构包括智算基础设施、智算平台层和智算服务层,贯穿安全与稳定性保障
- 大模型训练中,电力费用占比65%,缺算到缺电
- 云计算从通用计算到混合计算再到异构计算,从CPU池化到GPU、NPU、TPU、DPU池化
- 大模型浪潮下,企业更需要私有化部署保护数据主权
- 企业落地AI的三大困境
- 资源困境:算力烧钱、投资风险
- 模型困境:模型难选、难用
- 应用困境:数据缺失、应用效果差
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 三木的技术博客!
评论