当前位置:首页 > 资讯 > 正文

深圳大学巧解AI算力资源难题,人工智能教学科研驶上快车道

北京2020年12月10日 /美通社/ -- 深圳大学计算机与软件学院(以下简称“深大计软学院”)借助浪潮人工智能资源平台AIStation巧妙地解决了AI算力资源调配和管理难题,将GPGPU资源利用率提升至60%以上,整体开发工作效率提升75%,AI科研和教学工作驶入快车道。

深圳大学是广东省高水平大学重点建设高校,培养了马化腾、张志东、史玉柱等杰出校友。依托国家战略、地缘优势和校友资源,深大计软学院于2012年率先开启AI科学研究与人才培养。在人工智能领域取得了多项科研成果,承担多个国家级自然科学基金项目。在芯片、算法、比赛以及论文等方面,也获得了令人瞩目的成绩。在全球院校计算机科学排行榜CSRankings 2017-2019区间中,深圳大学计算机图形学名列亚洲高校第一,进入世界领先水平。近年来,学院大力推进产学融合,积极开展人工智能教学探索与实践,与腾讯等领先AI企业合作制定了人工智能人才培养方案,在课程体系、资源衔接、师资培训、课程内容建设等方面进行了深度合作,成立了广东省首个人工智能学院。

为了支持人工智能教学科研工作,深大计软学院大力投入AI计算平台建设,然而随着AI应用场景的增加和使用人数的上升,AI算力资源调度管理问题逐渐凸显。

AI算力资源管理拖累教学科研进度

2018年以前,深大计软学院在AI计算资源获得方面主要由各研究所/研究团队自行解决。相关科研人员自行购买了大量的不同品牌的AI服务器,新旧不一、型号各异,性能表现参差不齐,操作系统版本繁多。这些服务器均托管于学院公用服务器机房内,但由各个团队自行进行维护,故障停机、维护停机是家常便饭,大多数AI服务器的MTBF(平均故障间隔时间)低于150小时。同时相关服务器仅在团队内部共享,利用率低,而对机房制冷量、供电等资源的消耗却很高。至2018年底,托管于学院公用服务器机房内的各型AI服务器已有近90台,机房业务负荷(三相交流电)供电总电流高峰时超过110A,服务器机房开通仅1年半即已超过接入线路设计最大供电能力的50%,而各研究团队的采购和托管申请仍纷至沓来,机房管理人员苦恼不堪。

2018年起,深大计软学院下决心建设统一的学院公共AI计算平台,同时收紧研究团队自行购买与托管AI服务器,以期通过提升资源利用率来解决科研人员对AI计算资源的需求与机房动力系统约束之间的矛盾。学院统一采购了16台8卡AI服务器组成服务器机群,安装虚拟化软件进行服务器虚拟化,分配给学院师生使用。同时在另外6台AI服务器上安装PBS系统,供研究各团队按需申请,用于长时间模型训练、调优等短期使用需求。然而,传统虚拟化软件对GPU资源的虚拟化支持较差,只能通过PCIe设备直通的方式手动分配给虚拟机使用,无法根据用户的计算需求对GPU资源进行动态调度。而PBS等传统并行计算机群管理系统,对GPU加速卡等异构计算资源的监控和调度能力也远远不能满足公共AI计算平台的需要,同时在多人共享使用时,运行环境、任务相互之间干扰较大。

“当时在建这套AI计算平台时,我们花了不少的精力,投入了很大的成本,但是却没有达到我们对提升人工智能科研和教学效率的预期,这让我们非常苦恼。”深大计软学院AI计算平台负责人提到。

巧解难题,AI教研驶上快车道

浪潮AIStation是面向企业级用户提供的一体化人工智能开发资源平台,可支持数据处理、AI算法开发、模型训练、模型管理、模型部署等AI全链条操作管理。浪潮AIStation可以支持大规模计算集群扩展,支持CPU、GPU、FPGA等多种系统架构,在业内首先可以达到“管资源”、“管人”、“管调度”三管齐下。深大的AI算力资源管理难题在部署了浪潮AIStation之后已经迎刃而解,目前深大计软学院AI计算平台的GPGPU资源利用率,在高峰时期已提升至60%以上,而开发效率也大幅度提升,人工智能教学科研步入快车道。

深圳大学巧解AI算力资源难题,人工智能教学科研驶上快车道  第2张

通过AIStation平台,集群管理员可以清晰地了解到每个使用者对资源使用和提交训练任务的状况,将闲置的计算资源进行有效的管理,并灵活配置用户的资源配额,防止资源过多占用和浪费。

深大师生通过AIStation可以自行按需申请资源,AIStation自动分配GPU资源给用户使用。其GPU共享策略可实现实现多人共用一台机器、多人共用一张GPU卡,开发环境相互隔离互不影响,大大缩短了以往的排队等待时间,大幅降低了因任务相互干扰而造成的故障停机和数据丢失的风险。

此外,AIStation还支持任务排队托管、定义任务优先级。深大师生们现在可以同时提交多个训练任务,资源不足时排队等待,一个任务训练结束后自动释放资源给排队等待的任务,从而可以更好地利用夜间、假期执行训练任务,同时可设置优先级,让重要任务优先执行。

AIStation还提供基于Web的用户界面,师生们无需安装任何插件,通过浏览器即可快速接入实验平台。疫情期间,借助AIstation进行远程教学和科研实验,深大计软学院迅速恢复了正常的教学和科研工作,更好地应对了疫情带来的挑战。

“在AIStation的帮助下,我们可以把精力更多地投入到教学与科研中去,不用再苦苦寻找计算资源了。”深大计软学院一名教师说,“同时,AIStation采用图形化界面,内置多种主流深度学习框架和开发组件,能够快速部署开发环境,大大降低了学生们的学习难度和使用门槛,提高了学生们的实验效率,也为AI开发和教学提供了极大的便利,将我们的开发工作效率整体提升了近一倍。”

深大计软学院借力浪潮AIStation摆脱了AI算力资源难题,将继续坚守“视野宽广、素质优良、注重实践、创新创业”的人才培养原则,加速推进AI科研创新与人才培养,打造人工智能教研标杆高校。