Tengyang Xie

Cited by

	All	Since 2019
Citations	1150	1149
h-index	12	12
i10-index	12	12

440

220

110

330

20192020202120222023202410 57 157 246 422 255

Public access

View all

8 articles

0 articles

available

not available

Based on funding mandates

Co-authors

Nan JiangAssistant Professor of Computer Science, UIUCVerified email at illinois.edu
Ching-An ChengMicrosoft ResearchVerified email at microsoft.com
Yu BaiResearch Scientist, Salesforce ResearchVerified email at salesforce.com
Paul MineiroMicrosoftVerified email at mineiro.com
Alekh AgarwalGoogleVerified email at google.com
Yu-Xiang WangAssociate Professor of Computer Science, UC Santa BarbaraVerified email at cs.ucsb.edu
Yifei MaApplied Scientist, Amazon.ComVerified email at amazon.com
Dylan J. FosterPrincipal Researcher, Microsoft ResearchVerified email at microsoft.com
Caiming XiongSalesforce ResearchVerified email at salesforce.com
Huan WangSalesforce ResearchVerified email at yale.edu
Wen SunAssistant Professor, Cornell UniversityVerified email at cornell.edu
Nathan KallusCornell UniversityVerified email at cornell.edu
Masatoshi UeharaGenentechVerified email at gene.com
Masaaki ImaizumiThe University of TokyoVerified email at g.ecc.u-tokyo.ac.jp
Philip AmortilaUniversity of Illinois, Urbana-ChampaignVerified email at illinois.edu
Mohak BhardwajUniversity of WashingtonVerified email at cs.washington.edu
John LangfordMicrosoft Research New YorkVerified email at hunch.net
Sham M KakadeHarvard UniversityVerified email at seas.harvard.edu
Yinlam ChowResearch Scientist, Google ResearchVerified email at google.com
Bo LiuAAAI SM, IEEE SMVerified email at cs.umass.edu

Tengyang Xie

University of Wisconsin-Madison, Microsoft Research

Verified email at cs.wisc.edu - Homepage

Reinforcement Learning Machine Learning Artificial Intelligence


Title Sort by citations Sort by year Sort by title	Cited by Cited by	Year
Bellman-consistent pessimism for offline reinforcement learning T Xie, CA Cheng, N Jiang, P Mineiro, A Agarwal Advances in neural information processing systems 34, 6683-6694, 2021	234	2021
Towards Optimal Off-Policy Evaluation for Reinforcement Learning with Marginalized Importance Sampling T Xie, Y Ma, YX Wang Advances in Neural Information Processing Systems, 9665-9675, 2019	169	2019
Policy finetuning: Bridging sample-efficient offline and online reinforcement learning T Xie, N Jiang, H Wang, C Xiong, Y Bai Advances in neural information processing systems 34, 27395-27407, 2021	142	2021
Batch value-function approximation with only realizability T Xie, N Jiang International Conference on Machine Learning, 11404-11413, 2021	109	2021
Adversarially trained actor critic for offline reinforcement learning CA Cheng, T Xie, N Jiang, A Agarwal International Conference on Machine Learning, 3852-3878, 2022	99	2022
Provably efficient q-learning with low switching cost Y Bai, T Xie, N Jiang, YX Wang Advances in Neural Information Processing Systems, 8004-8013, 2019	98	2019
Q* Approximation Schemes for Batch Reinforcement Learning: A Theoretical Comparison T Xie, N Jiang Proceedings of the 36th Conference on Uncertainty in Artificial Intelligence …, 2020	95	2020
Finite sample analysis of minimax offline reinforcement learning: Completeness, fast rates and first-order efficiency M Uehara, M Imaizumi, N Jiang, N Kallus, W Sun, T Xie arXiv preprint arXiv:2102.02981, 2021	61	2021
The role of coverage in online reinforcement learning T Xie, DJ Foster, Y Bai, N Jiang, SM Kakade arXiv preprint arXiv:2210.04157, 2022	44	2022
A Block Coordinate Ascent Algorithm for Mean-Variance Optimization T Xie, B Liu, Y Xu, M Ghavamzadeh, Y Chow, D Lyu, D Yoon Advances in Neural Information Processing Systems, 1073-1083, 2018	35	2018
A variant of the wang-foster-kakade lower bound for the discounted setting P Amortila, N Jiang, T Xie arXiv preprint arXiv:2011.01075, 2020	22	2020
Adversarial model for offline reinforcement learning M Bhardwaj, T Xie, B Boots, N Jiang, CA Cheng Advances in Neural Information Processing Systems 36, 2024	14	2024
Armor: A model-based framework for improving arbitrary baseline policies with offline data T Xie, M Bhardwaj, N Jiang, CA Cheng arXiv preprint arXiv:2211.04538, 2022	7	2022
Interaction-Grounded Learning T Xie, J Langford, P Mineiro, I Momennejad International Conference on Machine Learning, 11414-11423, 2021	7	2021
Interaction-grounded learning with action-inclusive feedback T Xie, A Saran, DJ Foster, L Molu, I Momennejad, N Jiang, P Mineiro, ... Advances in Neural Information Processing Systems 35, 12529-12541, 2022	4	2022
Privacy preserving off-policy evaluation T Xie, PS Thomas, G Miklau arXiv preprint arXiv:1902.00174, 2019	4	2019
Harnessing density ratios for online reinforcement learning P Amortila, DJ Foster, N Jiang, A Sekhari, T Xie arXiv preprint arXiv:2401.09681, 2024	3	2024
Marginalized Off-Policy Evaluation for Reinforcement Learning T Xie, YX Wang, Y Ma NeurIPS 2018 Workshop on Causal Learning, 2018	3	2018
Preference Fine-Tuning of LLMs Should Leverage Suboptimal, On-Policy Data F Tajwar, A Singh, A Sharma, R Rafailov, J Schneider, T Xie, S Ermon, ... arXiv preprint arXiv:2404.14367, 2024		2024
Direct Nash Optimization: Teaching Language Models to Self-Improve with General Preferences C Rosset, CA Cheng, A Mitra, M Santacroce, A Awadallah, T Xie arXiv preprint arXiv:2404.03715, 2024		2024

The system can't perform the operation now. Try again later.

Articles 1–20

Citations per year

Duplicate citations

Merged citations

Add co-authorsCo-authors

Follow

Cited by

Co-authors