张瑞茂副教授

副教授、博士生导师

研究方向：计算机视觉、机器人视觉、具身智能、智能多媒体

Email: zhangrm27@mail.sysu.edu.cn ruimao.zhang@ieee.org

个人简介：

张瑞茂，中山大学电子与通信工程学院副教授，博士生导师，深圳市海外高层次人才。主要研究方向集中于计算机视觉、机器人视觉、多模态大模型等领域。近年来的核心研究目标是研发“能够在动态环境中与人进行有效交互的具身智能体”。迄今为止在人工智能领域期刊和会议发表论文60余篇，其中包括ESI高被引论文2篇，Google Scholar 引用超过6000次，授权中国/美国发明专利10余项。作为核心成员参加2017年Google Youtube 8M视频分析挑战赛并获得金牌。参加2020年 AIM可学习图像处理挑战赛并获得冠军。先后主持/参与多项国家自然科学基金、科技部重点研发、广东省自然科学基金、深圳市自然科学基金项目，并与华为、腾讯、商汤、蔚来等知名企业保持着长期合作关系。

长期担任领域内众多顶级期刊和会议的审稿人，2021年获评机器学习顶级会议NeurIPS杰出审稿人。长期担任视觉与学习研讨会（VALSE）执行领域主席。担任多媒体领域知名期刊ACM ToMM编委，担任信号处理领域顶级国际会议ICASSP2022中国区分会会议主席。曾在计算机视觉顶级国际会议ICCV2019，CVPR2020组织讨论班、在医学影像分析领域顶级国际会议MICCAI2022组织挑战赛、连续4年在国内知名学术研讨会VALSE上组织讨论班。曾指导的多位学生在斯坦福大学、伊利诺伊大学厄巴纳-香槟分校、佐治亚大学、香港大学、香港中文大学、复旦大学等高校攻读硕士、博士学位。

研究领域：

场景内容的理解分析与推理：现阶段主要侧重面向于机器人场景下的3D视觉内容表达、解析与重建，以及相关的上下文内容推理、决策分析。
以人为中心的视觉建模与表达：现阶段侧重人体内容的2D、3D识别、解析与分析；基于跨模态联合学习的人体视觉内容生成与应用；人与智能体的交互理解与生成。
基于跨模态大模型的规划与决策：跨模态大模型在各类具身智能场景下的框架设计与具体应用；结合大模型与强化学习的结构化智能决策系统。

教育背景：

2011/09至2016/12：中山大学，计算机应用技术，博士学位

2007/09至2011/07：中山大学，软件工程，学士学位

工作经历：

2024/12至今：中山大学电子与通信工程学院，副教授、博士生导师

2021/02至2024/09：香港中文大学（深圳）数据科学学院，副研究员

2019/07至2021/01：商汤科技有限公司研究院，高级研究员

2017/05至2019/06：香港中文大学电子工程系，博士后研究员

2013/08至2014/02：香港理工大学电子计算学系，研究助理

近五年代表性论文（*代表论文的通讯作者）：

Jie Yang（指导博士生）, Wang Zeng, Sheng Jin, Lumin Xu, Wentao Liu, Chen Qian, Ruimao Zhang* "KptLLM: Unveiling the Power of Large Language Model for Keypoint Comprehension”, Proc. of Conference on Neural Information Processing Systems ( NeurIPS ), 2024
Shunlin Lu（指导博士生）, Ling-Hao Chen, Ailing Zeng, Jing Lin, Ruimao Zhang* , Lei Zhang, Heung-Yeung Shum*, "HumanTOMATO: Text-aligned Whole-body Motion Generation”, Proc. of International Conference on Machine Learning ( ICML ), 2024
Yuzhou Huang （指导硕士生）, Liangbin Xie, Xintao Wang*, Ziyang Yuan, Xiaodong Cun, Yixiao Ge, Jiantao Zhou, Chao Dong, Rui Huang, Ruimao Zhang*, Ying Shan, "SmartEdit: Exploring Complex Instruction-based Image Editing with Multimodal Large Language Models”, Proc. of IEEE International Conference on Computer Vision and Pattern Recognition ( CVPR ), 2024 ( Highlight)
Jie Yang （指导博士生）, Bingliang Li （指导硕士生）, Ailing Zeng, Lei Zhang, Ruimao Zhang*, "Open-World Human-Object Interaction Detection via Multi-modal Prompts”, Proc. of IEEE International Conference on Computer Vision and Pattern Recognition ( CVPR ), 2024
Yiran Qin （指导博士生）, Chaoqun Wang（指导博士生）, Zijian Kang, Ningning Ma, Zhen Li, Ruimao Zhang*, "SupFusion: Supervised LiDAR-Camera Fusion for 3D Object Detection”, Proc. of IEEE International Conference on Computer Vision ( ICCV ), 2023
Enze Xie, Wenhai Wang, Mingyu Ding, Ruimao Zhang, Ping Luo, "PolarMask++: Enhanced Polar Representation for Single-Shot Instance Segmentation and Beyond“, IEEE Transactions on Pattern Analysis and Machine Intelligence ( T-PAMI ), 44(9):5385-5400, 2022
Ping Luo, Ruimao Zhang*, Jiamin Ren, Zhanglin Peng, Jingyu Li, "Switchable Normalization for Learning-to-Normalize Deep Representation", IEEE Transactions on Pattern Analysis and Machine Intelligence ( T-PAMI ), 43(2):712-728, 2021
Ruimao Zhang, Zhanglin Peng, Lingyun Wu, Zhen Li, Ping Luo, "Exemplar Normalization for Learning Deep Representation", Proc. of IEEE International Conference on Computer Vision and Pattern Recognition ( CVPR ), 2020
Ruimao Zhang, Liang Lin, Guangrun Wang, Meng Wang, Wangmeng Zuo, “Hierarchical Scene Parsing by Weakly Supervised Learning with Image Descriptions”, IEEE Transactions on Pattern Analysis and Machine Intelligence ( T-PAMI ), 41(3):596 - 610, 2019
Ruimao Zhang, Jingyu Li, Hongbin Sun, Yuying Ge, Ping Luo, Xiaogang Wang, Liang Lin, “SCAN: Self-and-Collaborative Attention Network for Video Person Re-identification”, IEEE Transactions on Image Processing ( T-IP ), 28(10):4870-4882, 2019

张瑞茂 副教授

张瑞茂副教授