回到顶部

文勇刚教授:GPU数据中心大规模深度学习负载调度

2024年3月29日 9:00 ~ 2024年3月29日 10:00
线上活动 (活动行Live)

收起

活动票种
    付费活动,请选择票种
    展开活动详情

    活动内容收起

    第十三期 文勇刚教授:GPU数据中心大规模深度学习负载调度

     

     

    【引言】


    面对人工智能日益增长的问题解决能力和泛化能力的需求,现代深度学习模型变得越来越庞大而复杂,需要消耗大量计算资源和时间。利用大规模GPU数据中心进行模型训练和推理优化已成为常见做法。然而,由于深度学习任务的高计算需求和底层硬件的异构性,GPU数据中心管理和调度任务面临多重挑战。

     

    第十三期 IEEE TNSE 杰出讲座系列活动,我们有幸邀请到南洋理工大学的文勇刚教授介绍GPU数据中心大规模深度学习负载调度,并分享他在这个领域内的相关研究成果与有趣发现。

     

     

    执行主席

    Executive Chair

     

    ​ 

    黄建伟

    香港中文大学(深圳)校长讲座教授、协理副校长

    AIRS 副院长兼群体智能中心主任

    IEEE TNSE主编

    IEEE Fellow

    AAIA Fellow

     

     

    报告嘉宾

    Speaker

     

     

    文勇刚

    南洋理工大学计算机科学与工程学院校长讲席教授、研究生院院长

    新加坡工程院院士

    IEEE TMM主编

    IEEE Fellow

     

    文勇刚,南洋理工大学计算机科学与工程学院校长讲席教授,于2008年在美国剑桥的麻省理工学院获得电子工程和计算机科学博士学位(辅修西方文学),目前担任新加坡南洋理工大学副教务长(研究生教育)和研究生院院长。此前,他曾担任新加坡南洋理工大学校长办公室协理副校长(能力建设)(2023年)、工程学院副院长(研究)(2018-2023年)、南洋科技创业中心代理主任(2017-2019年)和计算机科学与工程学院助理主席(创新)(2016-2018年)。文教授在顶级期刊和著名会议上发表了300多篇论文。他的系统研究获得了全球认可,他在多屏云社交电视方面的工作曾受到全球媒体的关注(来自29个国家的1600多篇新闻文章),并获得2013年东盟ICT奖(金奖)。他在数据中心认知数字孪生方面的工作,获得了2015年数据中心动力学奖- APAC(数据中心行业的“奥斯卡”奖)、2016年东盟ICT奖(金奖)、2020IEEE TCCPS工业技术卓越奖、2021W.Media APAC云与数据中心技术领袖奖,以及2022年新加坡计算机学会数字成就技术领袖奖。他是2019年南洋研究奖获得者和2016年南洋创新创业奖唯一获得者,这两个奖项都是南洋理工大学的最高荣誉。他曾获得多个最佳论文奖,包括2019IEEE TCSVT2015IEEE Multimedia的最佳论文奖,以及多个国际会议的最佳论文奖,包括2023ASPLOS2016IEEE Globecom2016IEEE Infocom MuSIC Workshop2015EAI Chinacom2014IEEE WCSP2013IEEE Globecom2012IEEE EUC。他是IEEE Transactions on Multimedia TMM)的主编,担任或曾担任多个IEEEACM Transactions的编辑委员会成员,并当选为IEEE ComSoc多媒体通信技术委员会主席(2014-2016)。文教授的主要研究方向为云计算、绿色数据中心、大数据分析、多媒体网络和移动计算。他是IEEE会士、新加坡工程院院士,也是ACM的杰出成员。



    报告介绍

    Topic & Abstract

     

    Title:

    Scheduling Deep Learning Workloads at Scale in GPU Data Centers

     

    Abstract:

    To meet the ever-growing demand of problem-solving capability and generalizability via artificial intelligence, modern deep learning models are becoming larger and more sophisticated, while at the cost of huge amounts of computing resources (e.g., GPU) and prolonged training time. it has become a common practice to leverage large-scale GPU data centers (i.e., AI data centers) to optimize and accelerate model training and inference. However, the management and scheduling of these deep learning workloads in the GPU data centers present numerous challenges, due to their high computational requirements, distinct and diverse runtime characteristics, and heterogeneous nature of the underlying hardware.

     

    In this talk, we will investigate deep learning workload scheduling accelerating, training execution over GPU datacenters, with a multifold objective of improving resource utilization, enhancing users’ experience, and easing operators’ management. Specifically, we will introduce novel and practical methodologies and system designs to achieve those goals. These solutions are highly integrated to tackle different challenges, paving the way for optimal utilization of GPU resources and accelerated progress in deep learning applications.

     

     

     

    活动时间

     

    2024329 (周五)9:00-10:00

     

    参与方式

    本次活动设多个直播渠道,观众可通过以下任一渠道观看直播。

    AIRS-TNSE 联合杰出讲座系列

    AIRS-TNSE Joint Distinguished Seminar Series


    IEEE Transactions on Network Science and Engineering
    (简称 IEEE TNSE)是位于 JCR 1 区的网络科学领域顶级期刊,致力于探讨网络科学的理论和应用,以及构成网络系统中各元素之间的相互联系。IEEE TNSE SCIE 数据库收录,位于 JCR 1 区,2023年影响因子为6.6

     

    AIRS-TNSE 联合杰出讲座系列由 IEEE TNSE 期刊和深圳市人工智能与机器人研究院(AIRS)联合主办,香港中文大学(深圳)、网络通信与经济学实验室(NCEL)、IEEE 联合支持。该系列活动旨在汇聚网络科学与工程领域的国际顶级专家学者分享前沿科技成果。

     

    *特别鸣谢成锦提供相关内容

     

     



    举报活动

    活动标签

    最近参与

    • 微信用户
      报名

      (29天前)

    • sycconan
      报名

      (29天前)

    • 微信用户
      报名

      (1个月前)

    • Shihao Shen
      报名

      (1个月前)

    • AIRS研究院
      报名

      (1个月前)

    • 124067***
      报名

      (1个月前)

    您还可能感兴趣

    您有任何问题,在这里提问!

    为营造良好网络环境,评价信息将在审核通过后显示,请规范用语。

    全部讨论

    还木有人评论,赶快抢个沙发!

    活动主办方更多

    微信扫一扫

    分享此活动到朋友圈

    活动日历   04月
    1 2 3 4 5 6 7
    8 9 10 11 12 13 14
    15 16 17 18 19 20 21
    22 23 24 25 26 27 28
    29 30 1 2 3 4 5

    免费发布