基于飞腾S5000C的AI智慧校园建设方案

  • Bootstrap 行业: 教育

  • Bootstrap 技术: AI

行业痛点:

2024年全国教育工作会议指出,要坚持教育服务高质量发展这个硬道理,以习近平新时代中国特色社会主义思想为指导,构建中国特色、世界水平、与中国式现代化相匹配的高质量教育体系,扎实推动教育强国建设重点任务落地见效。

近年来,互联网、大数据、云计算、人工智能、区块链等技术加速创新,日益融入经济社会发展各领域全过程,对教育创新和教育高质量发展是挑战,更是机遇,是助力教育强国建设的有力抓手。

数字化教育和人工智能赋能教育引起全球的关注,成为教育变革的潮流。2023年春,在北京召开的首届世界数字教育大会以数字变革与教育未来为主题;2024年春在上海召开的2024世界数字教育大会以数字教育:应用、共享、创新为主题;联合国在2022年教育变革峰会上将数字学习列为优先事项;联合国教科文组织成员国认识到数字学习的重要性,将319日设立为国际数字学习日并于2024年首次庆祝这一国际日。

教育部部长怀进鹏曾在十四届全国人大二次会议记者会上表示要实现教育高质量发展,发展数字教育就不是选修课,而是必修课’”“对教育系统来说,人工智能是把金钥匙。数字化和人工智能是教育部门以及每一所学校、每一位老师的必修课,是老师和学生跨入新时代、进入新空间的金钥匙,是全面赋能教育创新的抓手。

育信创涵盖教育领域基础设施、平台、终端和服务,比如体验中心、实验室、展示空间、智慧教室;教育相关网络、硬件、平台、系统和应用,支持教育数字孪生、人工智能赋能教育、各种教育应用服务等,如学生人工智能学伴、教师人工智能代理、校长人工智能助理等;各种学习平台和环境,如自主学习环境、沉浸式学习环境、真实性学习环境和协作式学习环境;各种支持过程性评价和个性化学习的综合人工智能系统;和各种保障数据正确、准确和安全的系统。

我国的教育创新应该导使用我国自主知识产权的教育信创产品,促进教育领域信息技术的自主可控,保障教育信息安全,形成下一代的成长良好科技环境。当然我国信息科技信创企业也应该主动积极投身教育强国建设进程,研发更多更强大的教育信创产品,在全面支持我国教育创新的同时,还要积极参与全球教育变革过程,提升我国教育信创产品的国际竞争力,扩大我国教育信创产品的国际影响力。


方案详情:

AI智慧平台建设方案,采用国内通用GPU组成集群服务器,GPU卡之间通过片上PCle接口及板载PCle交换芯片实现卡间互联,服务器间通过千兆以太交换机或IB交换机搭建基于超融合架构的底层硬件平台,从而为上层应用提供计算和存储服务,终端用户通过终端连接至集群内分配的资源进行实践操作,集群整体硬件架构图如图所示:

AI智慧校园是面向延安职业技术学院提供的 AI 平台,具备容器编排、虚拟机创建与管理,资源调度与监控、GPU算力池化等能力,提供颗粒度足够小的算力单元以提高算力利用率。面向用户提供可视化环境,用户可在 WebUl 界面快速发起任务,亦可基于 jupyterLab 开发环境进行开发、学习工作,有效提高开发和学习效率。

实训室AI开发平台支持多种操作系统(麒麟统信)和深度学习框架(PytorchTensorFlow/PaddlePaddle/Mindspore),结合平台提供数据集、模型上传和管理功能,快速发起在线任务;通过平台提供的标准镜像申请开发环境进行模型调试。本平台主要模块包含在线任务,开发环境,应用市场等三大功能:

1)在线任务相关:数据集管理、算法管理、任务管理主要用于在线模型训练及学习,通过可视化界面在训练过程中和完成后查看训练日志,查看训练结果和模型可视化展示(3D渲染和建模算法),根据结果在平台继续调优,亦可基于训练结果的模型通过编程进行推理任务;

2)开发环境相关:镜像管理、算力市场和开发环境为用户提供基于 SaaS 可视化界面的开发环境,在容器中集成了JupyterLabSSH等方式支持在线开发调试,具备算力池化能力,可对算力进行精细化切分。平台预置多种基础镜像,支持大规模并行训练多机多卡算力资源申请,支持虚拟机的创建与管理。

3)应用市场:为用户提供AIGC应用市场,通过提供相关AIGC 应用,可快速部署/体验 AIGC 应用。

本平台主要包含的主要模块为:数据集管理,算法管理,模型管理,任务管理,镜像管理,开发环境,算力市场,我的网盘,系统管理,工作台,应用市场,虚拟机管理等。

方案功能

平台集群方案支持对容器和虚拟机进行统一管理,用户既可以通过容器方式申请算力资源,也可以直接申请虚拟机,Paas 平台具备同时管理 Pod 和虚拟机的能力,通过 Rancher+K8S+Docker 方案进行容器部署和管理;使用开源软件 Harvester 进行虚拟机管理,二者通过 Rancher 实现 Pod 和虚拟机共同管理,Harvester 创建虚拟机与 OpenStack 创建的虚拟机具备相同的功能,Harvester 是由 rancher 中国提供的基于 k8s构建的超融合基础架构软件(HCI),支持在已创建的 k8s 集群上进行部署,通过 k8s 集群统一管理虚拟机和Pod.

集群数据监控

提供丰富的监控数据和展示界面,监控当前集群状态,各项指标的实时统计信息,和阶段性的数据分析,结合阶段性运维报告,用于评估服务器整体运行情况,并支撑运维过程中服务器资源协调和调度。通过看门狗监控&恢复工具,监控服务器异常情况,针对卡出现的异常情况,在不重启服务器的情况下恢复出现问题的GPU卡,恢复过程不影响其他卡上业务,使出现问题的卡重新回到资源池中,免除手动重启的困扰在多卡协同任务中能够很大程度提升工作效率。

集群用户资源监控

针对集群内用户资源占用情况进行监控,针对算力资源申请较多的用户进行 GPU 使用率等关键信息监控分析对应服务器的负载情况,从运维角度进行算力资源优化。

资源任务调度

集群中各 GPU 卡资源负载不同,本方案可通过高效的调度策略,使用户能够快速申请到算力资源,同时也针对服务器设置亲和性、污点和容忍等特性,保证用户申请到的都是匹配自身要求的资源。

邮件告警

针对系统设置超过阈值范围的情况进行邮件告警通知,方便管理员针对实际情况进行相应处理,可以设置的告警指标包括:GPU 温度、工作负载创建失败(Pod 或Job)等。

Paas 层提供了容器编排、资源调度和 GPU 虚拟化等服务,提供颗粒度足够小的算力单元以满足不同用户的算力要求,平台从用户使用角度,提供了高效便捷使用算力服务的能力。目前 Saas 平台主要包括数据管理、算法管理、模型管理、任务管理。镜像管理开发环境、算力市场和数据上传等功能。其中:数据集管理、算法管理、任务管理主要用于在线模型训练,可通过可视化界面在训练过程中和完成后查看训练日志,查看训练结果和模型可视化展示(3D 渲染和建模算法),根据结果在平台继续调优,或基于一个可接受的结果直接进行推理任务;镜像管理、算力市场和开发环境为用户提供基于 SaaS 可视化界面的开发环境,基于 Jupyter开发工具,开发镜像集成基础开发套件并安装模型依赖环境,可以快速进入开发状态。平台支持图形图像、语音语义、三维渲染和重建等多种模型,覆盖各应用领域,并针对行业需求构建多维度测评体系,广泛支持各类落地场景


方案实施效果:

虚拟化程度高,算力分配细

算力分配最小颗粒是1/100

内存分配最小颗粒是256M

图形界面

管理界面图形化交互

支持VM和容器登陆并统一管理

部署灵活

支持多种CPU系统

支持和NV服务器集群混合部署

安全性

自带看门狗监测系统异常并自动恢复

存储节点和用户隔离

兼容性强

兼容国内外主流生态,兼容主流GPU通用计算模型,提供支持主流GPU通用计算模型的等效组件、特性、API和算法,可助力用户便捷地实现系统或应用的无痛迁移


成功案例:


相关产品:

金舟远航U627 S5000C 双路服务器


支持CPU平台:

飞腾腾云S5000C


伙伴信息:

金舟远航(北京)信息产业有限公司

金舟远航(北京)信息产业有限公司成立于2022年5月,业务专注于中国信创整机及X86服务器两大市场,产品包括信创计算机终端、信创服务器和X86服务器三大类,是国内IT基础设施软硬一体产品及解决方案提供商。

作为深圳市同泰怡信息技术有限公司的全资子公司,金舟远航(北京)信息产业有限公司拥有一支具有20多年从业经验的专业团队,产业资源丰富,创新能力全面,深受行业伙伴的认可。

公司地址:北京市海淀区上地信息产业基地创业路6号4层