Publications

Arxiv - Benchmarking Correctness and Security in Multi-Turn Code Generation.
Ruchit Rawal, Jeffrey Yang Fan Chiang, Chihao Shen, Jeffery Siyuan Tian, Aastha Mahajan, Tom Goldstein, and Yizheng Chen.

LLM4Code'26 - SecRepoBench: Benchmarking Code Agents for Secure Code Completion in Real-World Repositories. 2026 IEEE/ACM International Workshop on Large Language Models for Code (LLM4Code).
Chihao Shen, Connor Dilgren, Purva Chiniya, Luke Griffith, Yu Ding, and Yizheng Chen.

ICSE'26 - Locus: Agentic Predicate Synthesis for Directed Fuzzing. Proceedings of the IEEE/ACM 48th International Conference on Software Engineering.
Jie Zhu, Chihao Shen, Ziyang Li, Jiahao Yu, Yizheng Chen, and Kexin Pei.

NeurIPS'25 D&B - Towards Evaluating Proactive Risk Awareness of Multimodal Language Models. Advances in Neural Information Processing Systems 38.
Youliang Yuan, Wenxiang Jiao, Yuejin Xie, Chihao Shen, Menghan Tian, Wenxuan Wang, Jen-tse Huang, and Pinjia He.

LREC-COLING'24 - Does ChatGPT Know that It Does Not Know? Evaluating the Black-Box Calibration of ChatGPT. Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation.Oral Presentation
Youliang Yuan, Wenxuan Wang, Qingshuo Guo, Yiming Xiong, Chihao Shen, and Pinjia He.