Publications

Investigating Affective Use and Emotional Well-being on ChatGPT

[Paper] - Abstract
Citation: Jason Phang, Michael Lampe, Lama Ahmad, Sandhini Agarwal, Cathy Mengying Fang, Auren R. Liu, Valdemar Danry, Eunhae Lee, Samantha W.T Chan, Pat Pataranutaporn, Pattie Maes Investigating Affective Use and Emotional Well-being on ChatGPT. Preprint, 2025

How AI and Human Behaviors Shape Psychosocial Effects of Chatbot Use: A Longitudinal Controlled Study

[Paper] - Abstract
Citation: Cathy Mengying Fang, Auren R. Liu, Valdemar Danry, Eunhae Lee, Samantha W.T Chan, Pat Pataranutaporn, Pattie Maes, Jason Phang, Michael Lampe, Lama Ahmad, and Sandhini Agarwal. How AI and Human Behaviors Shape Psychosocial Effects of Chatbot Use: A Longitudinal Controlled Study. Preprint, 2025

GPT-4o System Card

[Paper] - Abstract
Citation: OpenAI (Including Jason Phang) GPT-4o System Card. Preprint, 2024.

Large Language Models as Misleading Assistants in Conversation

[Paper] - Abstract
Citation: Betty Li Hou, Kejian Shi, Jason Phang, James Aung, Steven Adler, Rosie Campbell Large Language Models as Misleading Assistants in Conversation. Preprint, 2024.

Lessons from the Trenches on Reproducible Evaluation of Language Models

[Paper] - Abstract
Citation: Stella Biderman, Hailey Schoelkopf, Lintang Sutawika, Leo Gao, Jonathan Tow, Baber Abbasi, Alham Fikri Aji, Pawan Sasanka Ammanamanchi, Sidney Black, Jordan Clive, Anthony DiPofi, Julen Etxaniz, Benjamin Fattori, Jessica Zosa Forde, Charles Foster, Jeffrey Hsu, Mimansa Jaiswal, Wilson Y. Lee, Haonan Li, Charles Lovering, Niklas Muennighoff, Ellie Pavlick, Jason Phang, Aviya Skowron, Samson Tan, Xiangru Tang, Kevin A. Wang, Genta Indra Winata, François Yvon, Andy Zou Lessons from the Trenches on Reproducible Evaluation of Language Models. Preprint, 2024.

Investigating the Effectiveness of HyperTuning via Gisting

[Paper] - Abstract
Citation: Jason Phang Investigating the Effectiveness of HyperTuning via Gisting. Preprint, 2024.

Struc-Bench: Are Large Language Models Good at Generating Complex Structured Tabular Data?

[Paper] - Abstract
Citation: Xiangru Tang, Yiming Zong, Jason Phang, Yilun Zhao, Wangchunshu Zhou, Arman Cohan, Mark Gerstein Struc-Bench: Are Large Language Models Good at Generating Complex Structured Tabular Data?. NAACL 2024.

Two Failures of Self-Consistency in the Multi-Step Reasoning of LLMs

[Paper] - Abstract
Citation: Angelica Chen, Jason Phang, Alicia Parrish, Vishakh Padmakumar, Chen Zhao, Samuel R. Bowman, Kyunghyun Cho Two Failures of Self-Consistency in the Multi-Step Reasoning of LLMs. TMLR 2024.

Tool Learning with Foundation Models

[Paper] - Abstract
Citation: Yujia Qin, Shengding Hu, Yankai Lin, Weize Chen, Ning Ding, Ganqu Cui, Zheni Zeng, Yufei Huang, Chaojun Xiao, Chi Han, Yi Ren Fung, Yusheng Su, Huadong Wang, Cheng Qian, Runchu Tian, Kunlun Zhu, Shihao Liang, Xingyu Shen, Bokai Xu, Zhen Zhang, Yining Ye, Bowen Li, Ziwei Tang, Jing Yi, Yuzhang Zhu, Zhenning Dai, Lan Yan, Xin Cong, Yaxi Lu, Weilin Zhao, Yuxiang Huang, Junxi Yan, Xu Han, Xian Sun, Dahai Li, Jason Phang, Cheng Yang, Tongshuang Wu, Heng Ji, Zhiyuan Liu, Maosong Sun Tool Learning with Foundation Models. Preprint, 2023.

Pretraining Language Models with Human Preferences

[Paper] - Abstract
Citation: Tomasz Korbak, Kejian Shi, Angelica Chen, Rasika Bhalerao, Christopher L. Buckley, Jason Phang, Samuel R. Bowman, Ethan Perez Pretraining Language Models with Human Preferences. ICML 2023.

HyperTuning: Toward Adapting Large Language Models without Back-propagation

[Paper] - Abstract
Citation: Jason Phang, Yi Mao, Pengcheng He, Weizhu Chen HyperTuning: Toward Adapting Large Language Models without Back-propagation. ICML 2023.

BLOOM: A 176B-Parameter Open-Access Multilingual Language Model

[Paper] - Abstract
Citation: BLOOM Authors (incl. Jason Phang) BLOOM: A 176B-Parameter Open-Access Multilingual Language Model. Preprint.

What Language Model to Train if You Have One Million GPU Hours?

[Paper] - Abstract
Citation: Teven Le Scao, Thomas Wang, Daniel Hesslow, Lucile Saulnier, Stas Bekman, M Saiful Bari, Stella Biderman, Hady Elsahar, Niklas Muennighoff, Jason Phang, Ofir Press, Colin Raffel, Victor Sanh, Sheng Shen, Lintang Sutawika, Jaesung Tae, Zheng Xin Yong, Julien Launay, Iz Beltagy What Language Model to Train if You Have One Million GPU Hours?. Findings of EMNLP 2022.

Two-Turn Debate Doesn’t Help Humans Answer Hard Reading Comprehension Questions

[Paper] - Abstract
Citation: Alicia Parrish, Harsh Trivedi, Nikita Nangia, Vishakh Padmakumar, Jason Phang, Amanpreet Singh Saimbhi, Samuel R. Bowman Two-Turn Debate Doesn't Help Humans Answer Hard Reading Comprehension Questions. Workshop on Machine Learning Safety, NeurIPS 2022.

EleutherAI: Going Beyond “Open Science” to “Science in the Open”

[Paper] - Abstract
Citation: Jason Phang, Herbie Bradley, Leo Gao, Louis Castricato, Stella Biderman EleutherAI: Going Beyond "Open Science" to "Science in the Open". Workshop on Broadening Research Collaborations in ML, NeurIPS 2022.

What Do NLP Researchers Believe? Results of the NLP Community Metasurvey

[Paper] - Abstract
Citation: Julian Michael, Ari Holtzman, Alicia Parrish, Aaron Mueller, Alex Wang, Angelica Chen, Divyam Madaan, Nikita Nangia, Richard Yuanzhe Pang, Jason Phang, Samuel R. Bowman What Do NLP Researchers Believe? Results of the NLP Community Metasurvey. Preprint, 2022.

Investigating Efficiently Extending Transformers for Long Input Summarization

[Paper] - Abstract
Citation: Jason Phang, Yao Zhao, Peter J. Liu Investigating Efficiently Extending Transformers for Long Input Summarization. Preprint, 2022.

Beyond the Imitation Game: Quantifying and extrapolating the capabilities of language models

[Paper] - Abstract
Citation: Big Bench Collaboration (incl. Jason Phang) Beyond the Imitation Game: Quantifying and extrapolating the capabilities of language models. Preprint, 2022.

SQuALITY: Building a Long-Document Summarization Dataset the Hard Way

[Paper] - Abstract
Citation: Alex Wang, Richard Yuanzhe Pang, Angelica Chen, Jason Phang, Samuel R. Bowman SQuALITY: Building a Long-Document Summarization Dataset the Hard Way. EMNLP 2022.

GPT-NeoX-20B: An Open-Source Autoregressive Language Model

[Paper] - Abstract
Citation: Sidney Black, Stella Biderman, Eric Hallahan, Quentin Anthony, Leo Gao, Laurence Golding, Horace He, Connor Leahy, Kyle McDonell, Jason Phang, Michael Pieler, Usvsn Sai Prashanth, Shivanshu Purohit, Laria Reynolds, Jonathan Tow, Ben Wang, Samuel Weinbach GPT-NeoX-20B: An Open-Source Autoregressive Language Model. Preprint.

Single-Turn Debate Does Not Help Humans Answer Hard Reading-Comprehension Questions

[Paper] - Abstract
Citation: Alicia Parrish, Harsh Trivedi, Ethan Perez, Angelica Chen, Nikita Nangia, Jason Phang, Samuel Bowman Single-Turn Debate Does Not Help Humans Answer Hard Reading-Comprehension Questions. Proceedings of the First Workshop on Learning with Natural Language Supervision.

QuALITY: Question Answering with Long Input Texts, Yes!

[Paper] - Abstract
Citation: Richard Yuanzhe Pang, Alicia Parrish, Nitish Joshi, Nikita Nangia, Jason Phang, Angelica Chen, Vishakh Padmakumar, Johnny Ma, Jana Thompson, He He, Samuel R. Bowman QuALITY: Question Answering with Long Input Texts, Yes!. Proceedings of NAACL, 2022.

Adversarially Constructed Evaluation Sets Are More Challenging, but May Not Be Fair

[Paper] - Abstract
Citation: Jason Phang, Angelica Chen, William Huang, Samuel R. Bowman Adversarially Constructed Evaluation Sets Are More Challenging, but May Not Be Fair. Preprint, 2021.

Fine-Tuned Transformers Show Clusters of Similar Representations Across Layers

[Paper] - Abstract
Citation: Jason Phang, Haokun Liu, Samuel R. Bowman. Fine-Tuned Transformers Show Clusters of Similar Representations Across Layers. Blackbox NLP, 2021.

Comparing Test Sets with Item Response Theory

[Paper] - Abstract
Citation: Clara Vania, Phu Mon Htut, William Huang, Dhara Mungra, Richard Yuanzhe Pang, Jason Phang, Haokun Liu, Kyunghyun Cho, Samuel R. Bowman. Comparing Test Sets with Item Response Theory. Preprint, 2021.

The Pile: An 800GB Dataset of Diverse Text for Language Modeling

[Paper] [Website] - Abstract
Citation: Leo Gao, Stella Biderman, Sid Black, Laurence Golding, Travis Hoppe, Charles Foster, Jason Phang, Horace He, Anish Thite, Noa Nabeshima, Shawn Presser, Connor Leahy. The Pile: An 800GB Dataset of Diverse Text for Language Modeling. Preprint, 2021.

An interpretable classifier for high-resolution breast cancer screening images utilizing weakly supervised localization

[Paper] [Code] - Abstract
Citation: Yiqiu Shen, Nan Wu, Jason Phang, Jungkyu Park, Yiqiu Shen, Kangning Liu, Sudarshini Tyagi, Laura Heacock, S. Gene Kim, Linda Moy, Kyunghyun Cho, Krzysztof J. Geras. An interpretable classifier for high-resolution breast cancer screening images utilizing weakly supervised localization. Medical Image Analysis, Vol. 68, 2021

Investigating and Simplifying Masking-based Saliency Methods for Model Interpretability

[Paper] [Code]- Abstract
Citation: Jason Phang, Jungkyu Park, Krzysztof J. Geras. Investigating and Simplifying Masking-based Saliency Methods for Model Interpretability. Preprint, 2020.

Reducing false-positive biopsies with deep neural networks that utilize local and global information in screening mammograms

[Paper] - Abstract
Citation: Nan Wu, Zhe Huang, Yiqiu Shen, Jungkyu Park, Jason Phang, Taro Makino, S. Gene Kim, Kyunghyun Cho, Laura Heacock, Linda Moy, Krzysztof J. Geras. Reducing false-positive biopsies with deep neural networks that utilize local and global information in screening mammograms. Preprint, 2020.

English Intermediate-Task Training Improves Zero-Shot Cross-Lingual Transfer Too

[Paper] - Abstract
Citation: Jason Phang, Iacer Calixto, Phu Mon Htut, Yada Pruksachatkun, Haokun Liu, Clara Vania, Katharina Kann, Samuel R. Bowman. English Intermediate-Task Training Improves Zero-Shot Cross-Lingual Transfer Too. Proceedings of AACL, 2020.

Intermediate-Task Transfer Learning with Pretrained Language Models: When and Why Does It Work?

[Paper] - Abstract
Citation: Yada Pruksachatkun, Jason Phang, Haokun Liu, Phu Mon Htut, Xiaoyi Zhang, Richard Yuanzhe Pang, Clara Vania, Katharina Kann, Samuel R. Bowman. Intermediate-Task Transfer Learning with Pretrained Language Models: When and Why Does It Work?. Proceedings of ACL, 2020.

jiant: A Software Toolkit for Research on General-Purpose Text Understanding Models

[Paper] [Code] - Abstract
Citation: Yada Pruksachatkun, Phil Yeres, Haokun Liu, Jason Phang, Phu Mon Htut, Alex Wang, Ian Tenney, Samuel R. Bowman. jiant: A Software Toolkit for Research on General-Purpose Text Understanding Models. Proceedings of ACL (demonstration track), 2020.

Deep Neural Networks Improve Radiologists’ Performance in Breast Cancer Screening

[Paper] [arXiv] [Code] [Data Report] [Medium Post] - Abstract
Citation: Nan Wu, Jason Phang, Jungkyu Park, Yiqiu Shen, Zhe Huang, Masha Zorin, Stanisław Jastrzębski, Thibault Févry, Joe Katsnelson, Eric Kim, Stacey Wolfson, Ujas Parikh, Sushma Gaddam, Leng Leng Young Lin, Kara Ho, Joshua D. Weinstein, Beatriu Reig, Yiming Gao, Hildegard Toth, Kristine Pysarenko, Alana Lewin, Jiyon Lee, Krystal Airola, Eralda Mema, Stephanie Chung, Esther Hwang, Naziya Samreen, S. Gene Kim, Laura Heacock, Linda Moy, Kyunghyun Cho, Krzysztof J. Geras. Deep Neural Networks Improve Radiologists' Performance in Breast Cancer Screening. IEEE Transactions on Medical Imaging, 2019.

Investigating BERT’s Knowledge of Language: Five Analysis Methods with NPIs

[Paper] [Code] - Abstract
Citation: Alex Warstadt, Yu Cao, Ioana Grosu, Wei Peng, Hagen Blix, Yining Nie, Anna Alsop, Shikha Bordia, Haokun Liu, Alicia Parrish, Sheng-Fu Wang, Jason Phang, Anhad Mohananey, Phu Mon Htut, Paloma Jeretič, Samuel R. Bowman. Investigating BERT's Knowledge of Language: Five Analysis Methods with NPIs. Proceedings of EMNLP, 2019.