Publications

Preprints

• Jing-Cheng Pang, Liang Lu, Xian Tang, Kun Jiang, Sijie Wu, Kai Zhang and Xubin Li. Reinforcement Learning with Promising Tokens for Large Language Models. CoRR abs/2602.03195, 2026.

• Jing-Cheng Pang, Liu Sun, Chang Zhou, Xian Tang, Haichuan Ma, Kun Jiang, Jianlong Wang, Kai Zhang, Sijie Wu, Haoran Cai, Chenwei Wu, Xubin Li and Xin Chen. EDCO: Dynamic Curriculum Orchestration for Domain-specific Large Language Model Fine-tuning. CoRR abs/2601.03725, 2026.

• Nan Tang, Jing-Cheng Pang, Guanlin Li, Chao Qian and Yang Yu. ReLAM: Learning Anticipation Model for Rewarding Visual Robotic Manipulation. CoRR abs/2509.22402, 2025.

• Jing-Cheng Pang, Kaiyuan Li, Yidi Wang, Si-Hang Yang, Shengyi Jiang and Yang Yu. ImagineBench: Evaluating Reinforcement Learning with Large Language Model Rollouts. CoRR abs/2505.10010, 2025.

• Yuting Tang, Xin-Qiang Cai, Jing-Cheng Pang, Qiyu Wu, Yao-Xiang Ding and Masashi Sugiyama. Beyond Simple Sum of Delayed Rewards: Non-Markovian Reward Modeling for Reinforcement Learning. CoRR abs/2410.20176, 2024.

• Rong-Jun Qin, Jing-Cheng Pang and Yang Yu. Improving Fictitious Play Reinforcement Learning with Expanding Models. CoRR abs/1907.01077, 2019.

Conference/Journal Papers

• Zhilong Zhang, Ruifeng Chen, Junyin Ye, Yihao Sun, Haoxiang Ren, Xinghao Du, Pengyuan Wang, Jing-Cheng Pang, Kaiyuan Li, Tianshuo Liu, Haoxin Lin, Yang Yu and Zhi-Hua Zhou. WHALE: Towards Generalizable and Scalable World Models for Embodied Decision-making. NeurIPS 2025 Workshop EWM.

• Jing-Cheng Pang, Heng-Bo Fan, Peng-Yuan Wang, Jia-Hao Xiao, Nan Tang, Si-Hang Yang, Chengxing Jia, Ming-Kun Xie, Xiang Chen, Sheng-Jun Huang and Yang Yu. Interactive Large Language Models for Reliable Answering under Incomplete Context. Transactions on Machine Learning Research (TMLR), to appear.

• Jing-Cheng Pang, Tian Xu, Shengyi Jiang, Yu-Ren Liu and Yang Yu. Reinforcement Learning With Sparse-Executing Actions via Sparsity Regularization. IEEE Transactions on Neural Networks and Learning Systems (TNNLS), to appear.

• Jing-Cheng Pang, Nan Tang, Kaiyuan Li, Yuting Tang, Xin-Qiang Cai, Zhen-Yu Zhang, Gang Niu, Masashi Sugiyama and Yang Yu. Learning View-invariant World Models for Visual Robotic Manipulation. ICLR 2025.

• Peng-Yuan Wang, Jing-Cheng Pang, Chen-Yang Wang, Xu-Hui Liu, Tian-Shuo Liu, Si-Hang Yang, Hong Qian and Yang Yu. InCLET: In-context Learning from Language Models can Improve Embodied Instruction-following. AAMAS 2025 (Oral).

• Jing-Cheng Pang, Si-Hang Yang, Kaiyuan Li, Jiaji Zhang, Xiong-Hui Chen, Nan Tang and Yang Yu. KALM: Knowledgeable Agents by Offline Reinforcement Learning from Large Language Model Rollouts. NeurIPS 2024.

• Jing-Cheng Pang, Peng-Yuan Wang, Kaiyuan Li, Xiong-Hui Chen, Jiacheng Xu, Zongzhang Zhang and Yang Yu. Language Model Self-improvement by Reinforcement Learning Contemplation. ICLR 2024.

• Jing-Cheng Pang, Pengyuan Wang, Nan Tang, Kaiyuan Li, Xionghui Chen, Jiacheng Xu, Zongzhang Zhang and Yang Yu. Language Model Self-improvement by Reinforcement Learning Contemplation. In: DAI (Poster Paper Track), 2023.

• Chengxing Jia, Fuxiang Zhang, Tian Xu, Jing-Cheng Pang, Zongzhang Zhang and Yang Yu. Model Gradient: Unified Model and Policy Learning in Model-based Reinforcement Learning. Frontiers of Computer Science (FCS), 2024.

• Jing-Cheng Pang, Xinyu Yang, Si-Hang Yang, Xiong-Hui Chen and Yang Yu. Natural Language Instruction-following with Task-related Language Development and Translation. NeurIPS 2023.

• Jing-Cheng Pang, Si-Hang Yang, Xiong-Hui Chen, Xinyu Yang, Yang Yu, Mas Ma, Ziqi Guo, Howard Yang and Bill Huang. Object-Oriented Option Framework for Robotics Manipulation in Clutter. In: IROS (Oral), 2023.

• Xu-Hui Liu, Zhenghai Xue, Jing-Cheng Pang, Shengyi Jiang, Feng Xu and Yang Yu. Regret Minimization Experience Replay in Off-Policy Reinforcement Learning. In: NeurIPS, 2021.

• Shengyi Jiang, Jing-Cheng Pang and Yang Yu. Offline imitation learning with a misspecified simulator. In: NeurIPS, 2020.

Manuscripts

• Jing-Cheng Pang, Kaiyuan Li, Peng-Yuan Wang, Xiong-Hui Chen, Jiacheng Xu, Zongzhang Zhang and Yang Yu. Language Model Self-improvement by Reinforcement Learning Contemplation without External Supervision. Submitted to Journal of Artificial Intelligence Research (JAIR).

[Back to top]