智能感知
张瑞茂 副教授
副教授、博士生导师
研究方向:计算机视觉、机器人视觉、具身智能、智能多媒体
Email: zhangrm27@mail.sysu.edu.cn ruimao.zhang@ieee.org
个人简介:
张瑞茂,中山大学电子与通信工程学院副教授,博士生导师,深圳市海外高层次人才。主要研究方向集中于计算机视觉、机器人视觉、多模态大模型等领域。近年来的核心研究目标是研发“能够在动态环境中与人进行有效交互的具身智能体”。迄今为止在人工智能领域期刊和会议发表论文60余篇,其中包括ESI高被引论文2篇,Google Scholar 引用超过6000次,授权中国/美国发明专利10余项。作为核心成员参加2017年Google Youtube 8M视频分析挑战赛并获得金牌。参加2020年 AIM可学习图像处理挑战赛并获得冠军。先后主持/参与多项国家自然科学基金、科技部重点研发、广东省自然科学基金、深圳市自然科学基金项目,并与华为、腾讯、商汤、蔚来等知名企业保持着长期合作关系。
长期担任领域内众多顶级期刊和会议的审稿人,2021年获评机器学习顶级会议NeurIPS杰出审稿人。长期担任视觉与学习研讨会(VALSE)执行领域主席。担任多媒体领域知名期刊ACM ToMM编委,担任信号处理领域顶级国际会议ICASSP2022中国区分会会议主席。曾在计算机视觉顶级国际会议ICCV2019,CVPR2020组织讨论班、在医学影像分析领域顶级国际会议MICCAI2022组织挑战赛、连续4年在国内知名学术研讨会VALSE上组织讨论班。曾指导的多位学生在斯坦福大学、伊利诺伊大学厄巴纳-香槟分校、佐治亚大学、香港大学、香港中文大学、复旦大学等高校攻读硕士、博士学位。
研究领域:
- 场景内容的理解分析与推理:现阶段主要侧重面向于机器人场景下的3D视觉内容表达、解析与重建,以及相关的上下文内容推理、决策分析。
- 以人为中心的视觉建模与表达:现阶段侧重人体内容的2D、3D识别、解析与分析;基于跨模态联合学习的人体视觉内容生成与应用;人与智能体的交互理解与生成。
- 基于跨模态大模型的规划与决策:跨模态大模型在各类具身智能场景下的框架设计与具体应用;结合大模型与强化学习的结构化智能决策系统。
教育背景:
2011/09至2016/12:中山大学,计算机应用技术,博士学位
2007/09至2011/07:中山大学,软件工程,学士学位
工作经历:
2024/12至今:中山大学电子与通信工程学院,副教授、博士生导师
2021/02至2024/09:香港中文大学(深圳)数据科学学院,副研究员
2019/07至2021/01:商汤科技有限公司研究院,高级研究员
2017/05至2019/06:香港中文大学电子工程系,博士后研究员
2013/08至2014/02:香港理工大学电子计算学系,研究助理
近五年代表性论文(*代表论文的通讯作者):
- Jie Yang(指导博士生), Wang Zeng, Sheng Jin, Lumin Xu, Wentao Liu, Chen Qian, Ruimao Zhang* "KptLLM: Unveiling the Power of Large Language Model for Keypoint Comprehension”, Proc. of Conference on Neural Information Processing Systems ( NeurIPS ), 2024
- Shunlin Lu(指导博士生), Ling-Hao Chen, Ailing Zeng, Jing Lin, Ruimao Zhang* , Lei Zhang, Heung-Yeung Shum*, "HumanTOMATO: Text-aligned Whole-body Motion Generation”, Proc. of International Conference on Machine Learning ( ICML ), 2024
- Yuzhou Huang (指导硕士生), Liangbin Xie, Xintao Wang*, Ziyang Yuan, Xiaodong Cun, Yixiao Ge, Jiantao Zhou, Chao Dong, Rui Huang, Ruimao Zhang*, Ying Shan, "SmartEdit: Exploring Complex Instruction-based Image Editing with Multimodal Large Language Models”, Proc. of IEEE International Conference on Computer Vision and Pattern Recognition ( CVPR ), 2024 ( Highlight)
- Jie Yang (指导博士生), Bingliang Li (指导硕士生), Ailing Zeng, Lei Zhang, Ruimao Zhang*, "Open-World Human-Object Interaction Detection via Multi-modal Prompts”, Proc. of IEEE International Conference on Computer Vision and Pattern Recognition ( CVPR ), 2024
- Yiran Qin (指导博士生), Chaoqun Wang(指导博士生), Zijian Kang, Ningning Ma, Zhen Li, Ruimao Zhang*, "SupFusion: Supervised LiDAR-Camera Fusion for 3D Object Detection”, Proc. of IEEE International Conference on Computer Vision ( ICCV ), 2023
- Enze Xie, Wenhai Wang, Mingyu Ding, Ruimao Zhang, Ping Luo, "PolarMask++: Enhanced Polar Representation for Single-Shot Instance Segmentation and Beyond“, IEEE Transactions on Pattern Analysis and Machine Intelligence ( T-PAMI ), 44(9):5385-5400, 2022
- Ping Luo, Ruimao Zhang*, Jiamin Ren, Zhanglin Peng, Jingyu Li, "Switchable Normalization for Learning-to-Normalize Deep Representation", IEEE Transactions on Pattern Analysis and Machine Intelligence ( T-PAMI ), 43(2):712-728, 2021
- Ruimao Zhang, Zhanglin Peng, Lingyun Wu, Zhen Li, Ping Luo, "Exemplar Normalization for Learning Deep Representation", Proc. of IEEE International Conference on Computer Vision and Pattern Recognition ( CVPR ), 2020
- Ruimao Zhang, Liang Lin, Guangrun Wang, Meng Wang, Wangmeng Zuo, “Hierarchical Scene Parsing by Weakly Supervised Learning with Image Descriptions”, IEEE Transactions on Pattern Analysis and Machine Intelligence ( T-PAMI ), 41(3):596 - 610, 2019
- Ruimao Zhang, Jingyu Li, Hongbin Sun, Yuying Ge, Ping Luo, Xiaogang Wang, Liang Lin, “SCAN: Self-and-Collaborative Attention Network for Video Person Re-identification”, IEEE Transactions on Image Processing ( T-IP ), 28(10):4870-4882, 2019