🔥 研究兴趣

我的研究兴趣包括强化学习、多智能体系统和数据挖掘与分析。目前关注以下研究方向：

多智能体协作
多智能体强化学习
量化金融
大语言模型智能体

其他兴趣爱好：

吉他
滑雪

📖 教育与工作经历

2025.08 - 至今 理想汽车智能体强化学习组负责人，理想汽车与清华大学联合在职博士后
2020.09 - 2025.06 博士，中国科学院自动化研究所，中国科学院
导师：范国梁教授
2016.09 - 2020.06 工学学士，北京工业大学信息学部
专业：电子工程

🎖 竞赛与荣誉

第1名 (1/1122)，2021，DataFountain绿色未来大赛，风电异常数据识别赛道
第1名 (1/620)，2021，DataFountain绿色未来大赛，光伏异常数据识别赛道
第3名 (3/172)，2021，全球开放数据应用创新大赛，风场降尺度赛道
第2名 (2/423)，2021，全球开放数据应用创新大赛，道路检测赛道
特等奖 (1/158)，2021，金风杯，清华大学
第3名 (3/1511)，2021，DCIC数字中国创新大赛
第3名 (3/739)，2021，科大讯飞AI广告图片素材分类算法挑战赛
第3名，2021，NeurIPS workshop MineRL intro
第1名 (1/4337)，2021，天池全球AI创新大赛
全国二等奖，2021，全国研究生数学建模竞赛
第1名 (1/2800)，2019，China Datathon
一等奖，2019，”挑战杯”首都大学生竞赛
第1名 (1/475)，2019，全国大学生交通科技大赛
银牌，2019，Microsoft恶意软件预测，Kaggle
全球二等奖，2019，国际自主运行智能机器人大赛
一等奖，2018，中国机器人大赛，中国自动化学会（全国）

研究生及本科期间所获部分荣誉：

CCF中国计算机协会优秀导师奖（Outstanding Mentors），CCF
2021年度优秀学生，中国科学院大学
2020年北京市优秀毕业生
2020年北京工业大学十佳毕业生
2020年北京工业大学校长奖学金（全校仅十名）
2019年技术创新与实践奖学金

💻 实习经历

2023年，华为，中国
2024年，微软亚洲研究院（MSRA），中国

📝 代表性论文

会议论文：

Beyond Local Views: Global State Inference with Diffusion Models for Cooperative Multi-Agent Reinforcement Learning
Reinforcement Learning Conference(RLC), 2026.
Zhiwei Xu, Hangyu Mao, Nianmin Zhang, Shengtao Zhang, Xin Xin, Pengjie Ren, Dapeng Li, Bin Zhang, Guoliang Fan, Zhumin Chen, Changwei Wang, and Jiangjin Yin
From Traits to Roles: Consensus-Guided Composition of Orthogonal Experts for Cooperative MARL
International Joint Conference on Artificial Intelligence(IJCAI), 2026.
Yewei Zhou, Bin Zhang, Ying Zhou, Xuri Ge, Dapeng Li, Hangyu Mao, Pengjie Ren, and Zhiwei Xu
QSIM: Mitigating Overestimation in Multi-Agent Reinforcement Learning via Action Similarity Weighted Q-Learning
International Conference on Automated Planning and Scheduling(ICAPS), 2026.
Yuanjun Li, Bin Zhang, Hao Chen, Zhouyang Jiang, Dapeng Li, and Zhiwei Xu
Peak-Return Greedy Slicing: Subtrajectory Selection for Transformer-based Offline RL
The Fourteenth International Conference on Learning Representations(ICLR), 2026.
Zhiwei Xu, Miduo Cui, Dapeng Li, Zhihao Liu, Haifeng Zhang, Hangyu Mao, Guoliang Fan, and Bin Zhang
Balancing Rewards in Text Summarization: Multi-Objective Reinforcement Learning via HyperVolume Optimization
IEEE International Conference on Acoustics, Speech and Signal Processing(ICASSP), 2026.
Junjie Song^*, Yiwen Liu^*, Dapeng Li^*, Yin Sun, Shukun Fu, Siqi Chen, and Yuji Cao
^*Equal contribution
Efficient Communication in Multi-Agent Reinforcement Learning with Implicit Consensus Generation
The 39th Annual AAAI Conference on Artificial Intelligence(AAAI), Philadelphia, Pennsylvania, USA, 2025. (Oral)
Dapeng Li, Na Lou, Zhiwei Xu, Bin Zhang, and Guoliang Fan
Sequential asynchronous action coordination in multi-agent systems: A stackelberg decision transformer approach
The Forty-first International Conference on Machine Learning(ICML), 2024.
Bin Zhang, Hangyu Mao, Lijuan Li, Zhiwei Xu, Dapeng Li, Rui Zhao, Guoliang Fan
Reidentify: Context-Aware Identity Generation for Contextual Multi-Agent Reinforcement Learning
Forty-second International Conference on Machine Learning(ICML), Vancouver, Canada, 2025.
Zhiwei Xu, Kun Hu, Xin Xin, Weiliang Meng, Yiwei Shi, Hangyu Mao, Bin Zhang, Dapeng Li, and Jiangjin Yin
From Explicit Communication to Tacit Cooperation: A Novel Paradigm for Cooperative MARL
International Conference on Autonomous Agents and Multi-Agent Systems(AAMAS), Auckland, New Zealand, 2024. (Extended Abstract)
Dapeng Li, Zhiwei Xu, Bin Zhang, and Guoliang Fan
Adaptive Parameter Sharing for Multi-Agent Reinforcement Learning
IEEE International Conference on Acoustics, Speech and Signal Processing(ICASSP), Seoul, Korea, 2024.
Dapeng Li, Na Lou, Bin Zhang, Zhiwei Xu, and Guoliang Fan
SEA: A Spatially Explicit Architecture for Multi-Agent Reinforcement Learning
International Joint Conference on Neural Networks(IJCNN), Queensland, Australia, 2023.
Dapeng Li, Zhiwei Xu, Bin Zhang, and Guoliang Fan
Dual Self-Awareness Value Decomposition Framework without Individual Global Max for Cooperative MARL
Thirty-seventh Conference on Neural Information Processing Systems(NeurIPS), New Orleans, USA, 2023.
Zhiwei Xu, Bin Zhang, Dapeng Li, Guangchong Zhou, Zeren Zhang, and Guoliang Fan
Inducing Stackelberg Equilibrium through Spatio-Temporal Sequential Decision-Making in Multi-Agent Reinforcement Learning
32nd International Joint Conference on Artificial Intelligence(IJCAI), Macao, S.A.R, China, 2023.
Bin Zhang, Lijuan Li, Zhiwei Xu, Dapeng Li, and Guoliang Fan
Unveiling Decision Intention for Cooperative Multi-Agent Reinforcement Learning
International Conference on Autonomous Agents and Multi-Agent Systems(AAMAS), Detroit, Michigan, USA, 2025.
Zeren Zhang, Zhiwei Xu, Guangchong Zhou, Dapeng Li, Bin Zhang, and Guoliang Fan
Decentralized Extension for Centralized Multi-Agent Reinforcement Learning via Online Distillation
International Conference on Neural Information Processing(ICONIP), Auckland, New Zealand, 2024.
Zeren Zhang, Bin Zhang, Guangchong Zhou, Dapeng Li, Zhiwei Xu, and Guoliang Fan
Consensus Learning for Cooperative Multi-Agent Reinforcement Learning
Thirty-Seventh AAAI Conference on Artificial Intelligence(AAAI), Washington, DC, USA, 2023. (Oral)
Zhiwei Xu, Bin Zhang, Dapeng Li, Zeren Zhang, Guangchong Zhou, and Guoliang Fan
HAVEN: Hierarchical Cooperative Multi-Agent Reinforcement Learning with Dual Coordination Mechanism
Thirty-Seventh AAAI Conference on Artificial Intelligence(AAAI), Washington, DC, USA, 2023. (Oral)
Zhiwei Xu, Yunpeng Bai, Bin Zhang, Dapeng Li, and Guoliang Fan
Mingling Foresight with Imagination: Model-Based Cooperative Multi-Agent Reinforcement Learning
Thirty-sixth Conference on Neural Information Processing Systems(NeurIPS), New Orleans, USA, 2022. (Spotlight)
Zhiwei Xu, Dapeng Li, Bin Zhang, Yuan Zhan, Yunpeng Bai, and Guoliang Fan
Multi-Agent Hyper-Attention Policy Optimization
International Conference on Neural Information Processing(ICONIP), New Delhi, India, 2022.
Bin Zhang, Zhiwei Xu, Yiqun Chen, Dapeng Li, Yunpeng Bai, Guoliang Fan, and Lijuan Li
Efficient Policy Generation in Multi-Agent Systems via Hypergraph Neural Network
International Conference on Neural Information Processing(ICONIP), New Delhi, India, 2022.
Bin Zhang, Yunpeng Bai, Zhiwei Xu, Dapeng Li, and Guoliang Fan
MMD-MIX: Value Function Factorisation with Maximum Mean Discrepancy for Cooperative Multi-Agent Reinforcement Learning
International Joint Conference on Neural Networks(IJCNN), Shenzhen, China, 2021. (Poster)
Zhiwei Xu, Dapeng Li, Yunpeng Bai, and Guoliang Fan
SIDE: State Inference for Partially Observable Cooperative Multi-Agent Reinforcement Learning
International Conference on Autonomous Agents and Multi-Agent Systems(AAMAS), Auckland, New Zealand, 2022. (Oral)
Zhiwei Xu, Yunpeng Bai, Dapeng Li, Bin Zhang, and Guoliang Fan
Learning to Coordinate via Multiple Graph Neural Networks
International Conference on Neural Information Processing(ICONIP), BALI, Indonesia, 2021.
Zhiwei Xu, Bin Zhang, Yunpeng Bai, Dapeng Li, and Guoliang Fan

预印本：

Constructing Informative Subtask Representations for Multi-Agent Coordination
Guangchong Zhou, Zhiwei Xu, Bin Zhang, Dapeng Li, Zeren Zhang, Guoliang Fan
Style Miner: Find Significant and Stable Explanatory Factors in Time Series with Constrained Reinforcement Learning
Dapeng Li, Feiyang Pan, Jia He, Zhiwei Xu, Dandan Tu, and Guoliang Fan

💻 学术服务

程序委员会成员 / 审稿人：

神经信息处理系统大会（NeurIPS）
国际学习表征大会（ICLR）
国际机器学习大会（ICML）
AAAI人工智能大会（AAAI）