FVL Lab | Publications

Publications

IROS 2026

Ask-to-Clarify: Resolving Instruction Ambiguity through Multi-turn Dialogue.

Xingyao Lin, Xinghao Zhu, Tianyi Lu, Guojin Zhong, Sicheng Xie, Hui Zhang, Xipeng Qiu, Zuxuan Wu, Yu-Gang Jiang

IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), Pittsburgh, USA, Oct., 2026.

📄PDF

ECCV 2026

Seeing Touch from Motion: A Unified Modality-Aware Visuo-Tactile Policy with Tactile Motion Correlation.

Shengqi Xu, Guojin Zhong, Yang Liu, Fanjie Wang, Hu Luo, Hanyu Zhou, Weiyao Zhang, Ziyi Ye, Zuxuan Wu, Yu-Gang Jiang

The 19th European Conference on Computer Vision (ECCV), Malmö, Sweden, 2026.

📄PDF

Code

ECCV 2026

WeEdit: A Dataset, Benchmark and Glyph-Guided Framework for Text-centric Image Editing.

Hui Zhang, Juntao Liu, Zongkai Liu, Liqiang Niu, Fandong Meng, Zuxuan Wu, Yu-Gang Jiang

The 19th European Conference on Computer Vision (ECCV), Malmö, Sweden, 2026.

📄PDF 📦Dataset

Code

ECCV 2026

SegDiff: Segmented Trajectory Diffusion for Consistent and Adaptive Robot Manipulation.

Haidong Cao, Wenjun Cao, Quanhao Li, Sicheng Xie, Zhiying Du, Jiaqi Leng, Zuxuan Wu, Yu-Gang Jiang

The 19th European Conference on Computer Vision (ECCV), Malmö, Sweden, 2026.

📄PDF

ECCV 2026

HAD: Combining Hierarchical Diffusion with Metric-Decoupled RL for End-to-End Driving.

Wenhao Yao, Xinglong Sun, Zhenxin Li, Shiyi Lan, Zi Wang, Jose M. Alvarez, Zuxuan Wu

The 19th European Conference on Computer Vision (ECCV), Malmö, Sweden, 2026.

📄PDF

ECCV 2026

Learning Accurate Segmentation Purely from Self-Supervision.

Zuyao You, Zuxuan Wu, Yu-Gang Jiang

The 19th European Conference on Computer Vision (ECCV), Malmö, Sweden, 2026.

📄PDF

ICML 2026

Just Ask: Curious Code Agents Reveal System Prompts in Frontier LLMs.

Xiang Zheng, Yutao Wu, Hanxun Huang, Yige Li, Xingjun Ma, Bo Li, Yu-Gang Jiang, Cong Wang

International Conference on Machine Learning (ICML), Seoul, South Korea, July, 2026.

📄PDF

Code

ICML 2026

DLEBench: Evaluating Small-scale Object Editing Ability for Instruction-based Image Editing Model.

Shibo Hong, Boxian Ai, Jun Kuang, Wei Wang, FengJiao Chen, Zhongyuan Peng, Chenhao Huang, Yixin Cao

International Conference on Machine Learning (ICML), Seoul, South Korea, July, 2026.

📄PDF

ICML 2026

VideoLoom: A Video Large Language Model for Joint Spatial-Temporal Understanding.

Jiapeng Shi, Junke Wang, Zuyao You, Bo He, Zuxuan Wu

International Conference on Machine Learning (ICML), Seoul, South Korea, July, 2026.

📄PDF

Code

ICML 2026

AudioMosaic: Contrastive Masked Audio Representation Learning.

Hanxun Huang, Qizhou Wang, Xingjun Ma, Cihang Xie, Christopher Leckie, Sarah Erfani

International Conference on Machine Learning (ICML), Seoul, South Korea, July, 2026.

📄PDF

Code

ICML 2026

EchoingPixels: Aliasing-Resistant Joint Token Reduction for Audio-Visual LLMs.

Chao Gong, Depeng Wang, Zhipeng Wei, Ya Guo, Huijia Zhu, Jingjing Chen

International Conference on Machine Learning (ICML), Seoul, South Korea, July, 2026.

📄PDF

Code

ICML 2026

Predicting Future Utility: Global Combinatorial Optimization for Task-Agnostic KV Cache Eviction.

Ziyao Tang, Pengkun Jiao, Xinhang Chen, Wei Liu, Shiyong Li, Jingjing Chen

International Conference on Machine Learning (ICML), Seoul, South Korea, July, 2026.

📄PDF

Code

ICML 2026

Do LLMs Signal When They're Right? Evidence from Neuron Agreement.

Kang Chen, Yaoning Wang, Kai Xiong, Zhuoka Feng, Yu Minshen, Wenhe Sun, Haotian Chen, Yixin Cao

International Conference on Machine Learning (ICML), Seoul, South Korea, July, 2026.

📄PDF

ICML 2026

CameraNoise: Enabling Faithful Camera Control in Video Diffusion through Geometry-Flow-Guided Noise Warping.

Haoyu Zhao, Jiaxi Gu, Haoran Chen, Qingping Zheng, Yeying Jin, Hongyi Yang, Junqi Cheng, Yuang Zhang, Zenghui Lu, Huan Yu, Jie Jiang, Peng Shu, Zuxuan Wu, Yu-Gang Jiang

International Conference on Machine Learning (ICML), Seoul, South Korea, July, 2026.

📄PDF

Code

ICML 2026

MESA: Improving MoE Safety Alignment via Decentralized Expertise.

Yitong Sun, Yao Huang, Teng Li, Ranjie Duan, Yichi Zhang, Xingjun Ma, Hui Xue, Xingxing Wei

International Conference on Machine Learning (ICML), Seoul, South Korea, July, 2026.

📄PDF

ICML 2026

FakeWorld 1.0: An Omni modal Benchmark for Fake Media and Content.

Yifeng Gao, Yifan Ding, Li Wang, Feida Huang, Ye Sun, Yixu Wang, Xin Wang, Yutao Wu, Hanxun Huang, Yunhao Feng, Yingshui Tan, Xingjun Ma, Yu-Gang Jiang

International Conference on Machine Learning (ICML), Seoul, South Korea, July, 2026.

📄PDF

ICML 2026

Towards Context-Invariant Safety Alignment for Large Language Models.

Yixu Wang, Yang Yao, Xin Wang, Yifeng Gao, Yan Teng, Xingjun Ma, Yingchun Wang

International Conference on Machine Learning (ICML), Seoul, South Korea, July, 2026.

📄PDF

ICML 2026

RA-Det: Towards Universal Detection of AI-Generated Images via Robustness Asymmetry.

Xinchang Wang, Yunhao Chen, Yuechen Zhang, Congcong Bian, Zihao Guo, Xingjun Ma, Hui Li

International Conference on Machine Learning (ICML), Seoul, South Korea, July, 2026.

📄PDF

ICML 2026

SciAgentGym: Benchmarking Multi-Step Scientific Tool-use in LLM Agents.

Yujiong Shen, Yajie Yang, Zhiheng Xi, Binze Hu, Huayu Sha, Jiazheng Zhang, Qiyuan Peng, Junlin Shang, Jixuan Huang, Yutao Fan, Jingqi Tong, Shihan Dou, Ming Zhang, Lei Bai, Zhenfei Yin, Tao Gui, Xingjun Ma, Qi Zhang, Xuanjing Huang, Yu-Gang Jiang

International Conference on Machine Learning (ICML), Seoul, South Korea, July, 2026.

📄PDF

ICML 2026

How do Humans Process AI-generated Hallucination Contents: a Neuroimaging Study.

Shuqi Zhu, Yi Zhong, Ziyi Ye, Bangde Du, Yujia Zhou, Qingyao Ai, Yiqun Liu

International Conference on Machine Learning (ICML), Seoul, South Korea, July, 2026.

📄PDF

ACL 2026

CriticLean: Critic-Guided Reinforcement Learning for Mathematical Formalization.

Zhongyuan Peng, Yifan Yao, Kaijing Ma, Shuyue Guo, Yizhe Li, Yichi Zhang, Chenchen Zhang, Yifan Zhang, Zhouliang Yu, Luming Li, Minghao Liu, Yihang Xia, Jiawei Shen, Yuchen Wu, Yixin Cao, Zhaoxiang Zhang, Wenhao Huang, Jiaheng Liu, Ge Zhang

Proceedings of the 64th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 3049-3088, San Diego, California, United States.

📄PDF

ACL 2026

SCALER:Synthetic Scalable Adaptive Learning Environment for Reasoning.

Caijun Xu, Changyi Xiao, Zhongyuan Peng, Xinrun Wang, Yixin Cao

Findings of the Association for Computational Linguistics: ACL 2026, pages 31905-31923, San Diego, California, United States.

📄PDF

ACL 2026

BackdoorAgent: A Unified Framework for Backdoor Attacks on LLM-based Agents.

Yunhao Feng, Yige Li, Yutao Wu, Yingshui Tan, Yanming Guo, Yifan Ding, Kun Zhai, Xingjun Ma, Yu-Gang Jiang

Findings of the Association for Computational Linguistics: ACL 2026, pages 16115–16127, San Diego, California, United States.

📄PDF

ACL 2026

AgenticEval: Toward Agentic and Self-Evolving Safety Evaluation of Large Language Models.

Yixu Wang, Xin Wang, Yang Yao, Xinyuan Li, Xibang Yang, Yan Teng, Xingjun Ma, Yingchun Wang

Findings of the Association for Computational Linguistics: ACL 2026, pages 14789–14808, San Diego, California, United States.

📄PDF

SIGIR 2026

Individual Turing Test: A Case Study of LLM-based Simulation Using Longitudinal Personal Data.

Minghao Guo, Ziyi Ye, Wujiang Xu, Xi Zhu, Wenyue Hua, Dimitris N. Metaxas

ACM SIGIR Conference on Research & Development in Information Retrieval, Melbourne, Australia, 2026.

📄PDF

CVPR 2026

GenBreak: Red Teaming Text-to-Image Generators Using Large Language Models.

Zilong Wang, Xiang Zheng, Xiaosen Wang, Bo Wang, Xingjun Ma, Yu-Gang Jiang

IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Denver, CO, USA, 2026.

📄PDF

CVPR 2026

OmniLottie: Generating Vector Animations via Parameterized Lottie Tokens.

Yiying Yang, Wei Cheng, Sijin Chen, Honghao Fu, Xianfang Zeng, Yujun Cai, Gang Yu, Xingjun Ma

IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Denver, CO, USA, 2026.

📄PDF

Code

CVPR 2026

FluxMem: Adaptive Hierarchical Memory for Streaming Video Understanding.

Yiweng Xie, Bo He, Junke Wang, Xiangyu Zheng, Ziyi Ye, Zuxuan Wu

IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Denver, CO, USA, 2026.

📄PDF

Code

CVPR 2026

HandWorld: Hand-Centric Unified Video Action Generation.

Zhihao Sun, Zhiying Du, Xitong Yang, Zuxuan Wu

IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Denver, CO, USA, 2026.

📄PDF

CVPR 2026

What Is Wrong with Synthetic Data for Scene Text Recognition? A Strong Synthetic Engine with Diverse Simulations and Self-Evolution.

Xingsong Ye, Yongkun Du, JiaXin Zhang, Chen Li, Jing Lyu, Zhineng Chen

IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Denver, CO, USA, 2026.

📄PDF

Code

CVPR 2026

CaTok: Taming Mean Flows for One-Dimensional Causal Image Tokenization.

Yitong Chen, Zuxuan Wu, Xipeng Qiu, Yu-Gang Jiang

IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Denver, CO, USA, 2026.

📄PDF

Code

CVPR 2026

FlashMotion: Few-Step Controllable Video Generation with Trajectory Guidance.

Quanhao Li, Zhen Xing, Rui Wang, Haidong Cao, Qi Dai, Daoguo Dong, Zuxuan Wu

IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Denver, CO, USA, 2026.

📄PDF

Code

TPAMI 2026

Enhancing Adversarial Transferability With Cost-Efficient Landscape Flattening.

Zhipeng Wei, Jingjing Chen, Feng Han, Yue Yu, Yu-Gang Jiang

IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 48, no. 6, pp. 7050-7061, June 2026, doi: 10.1109/TPAMI.2026.3664421.

📄PDF

TPAMI 2026

LRANet++: Low-Rank Approximation Network for Accurate and Efficient Text Spotting.

Yuchen Su, Zhineng Chen, Yongkun Du, Zuxuan Wu, Hongtao Xie, Yu-Gang Jiang

IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 48, no. 5, pp. 5620-5638, May 2026, doi: 10.1109/TPAMI.2026.3650769.

📄PDF

TPAMI 2026

NAP-Tuning: Neural Augmented Prompt Tuning for Adversarially Robust Vision-Language Models.

Jiaming Zhang, Xin Wang, Xingjun Ma, Lingyu Qiu, Yu-Gang Jiang, Jitao Sang

IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 48, no. 6, pp. 6615-6627, June 2026, doi: 10.1109/TPAMI.2026.3659598.

📄PDF

IJCV 2026

Brain3D: Generating 3D Objects from fMRI.

Yuankun Yang, Li Zhang, Ziyang Xie, Zhiyuan Yuan, Jianfeng Feng, Xiatian Zhu, Yu-Gang Jiang

Int J Comput Vis 134, 58 (2026).

📄PDF

IJCV 2026

GREx: Generalized Referring Expression Segmentation, Comprehension, and Generation.

Henghui Ding, Chang Liu, Shuting He, Xudong Jiang, Yu-Gang Jiang

Int J Comput Vis 134, 79 (2026).

📄PDF

TDSC 2026

Shortcuts Everywhere and Nowhere: Exploring Multi-Trigger Backdoor Attacks.

Yige Li, Jiabo He, Hanxun Huang, Jun Sun, Xingjun Ma, Yu-Gang Jiang

IEEE Transactions on Dependable and Secure Computing, vol. 23, no. 1, pp. 343-355, Jan.-Feb. 2026, doi: 10.1109/TDSC.2025.3605597.

📄PDF

ICLR 2026

RoboOmni: Proactive Robot Manipulation in Omni-modal Context.

Siyin Wang, Jinlan Fu, Feihong Liu, Xinzhe He, Huangxuan Wu, Junhao Shi, Kexin Huang, Zhaoye Fei, Jingjing Gong, Zuxuan Wu, Yu-Gang Jiang, See-Kiong Ng, Tat-Seng Chua, Xipeng Qiu

International Conference on Learning Representations (ICLR), Rio de Janeiro, Brazil, 2026.

📄PDF

Code

ICLR 2026

Efficient-LVSM: Faster, Cheaper, and Better Large View Synthesis Model via Decoupled Co-Refinement Attention.

Xiaosong Jia, Yihang Sun, Junqi You, Songbur Wong, Zichen Zou, Junchi Yan, Zuxuan Wu, Yu-Gang Jiang

International Conference on Learning Representations (ICLR), Rio de Janeiro, Brazil, 2026.

📄PDF

Code

ICLR 2026

UniHand: A Unified Model for Diverse Controlled 4D Hand Motion Modeling.

Zhihao Sun, Tong Wu, Ruirui Tu, Daoguo Dong, Zuxuan Wu

International Conference on Learning Representations (ICLR), Rio de Janeiro, Brazil, 2026.

📄PDF

ICLR 2026

TrajTok: What makes for a good trajectory tokenizer in behavior generation?

Zhiyuan Zhang, Xiaosong Jia, Guanyu Chen, Qifeng Li, Zuxuan Wu, Yu-Gang Jiang, Junchi Yan

International Conference on Learning Representations (ICLR), Rio de Janeiro, Brazil, 2026.

📄PDF

ICLR 2026

CreatiDesign: A Unified Multi-Conditional Diffusion Transformer for Creative Graphic Design.

Hui Zhang, Dexiang Hong, Maoke Yang, Yutao Cheng, Zhao Zhang, Weidong Chen, Jie Shao, Xinglong Wu, Zuxuan Wu, Yu-Gang Jiang

International Conference on Learning Representations (ICLR), Rio de Janeiro, Brazil, 2026.

📄PDF

Code

ICLR 2026

WithAnyone: Towards Controllable and ID Consistent Image Generation.

Hengyuan Xu, Wei Cheng, Peng Xing, Yixiao Fang, Shuhan Wu, Rui Wang, Xianfang Zeng, Daxin Jiang, Gang Yu, Xingjun Ma, Yu-Gang Jiang

International Conference on Learning Representations (ICLR), Rio de Janeiro, Brazil, 2026.

📄PDF

Code

ICLR 2026

AgentGym-RL: An Open-Source Framework to Train LLM Agents for Long-Horizon Decision Making via Multi-Turn RL.

Zhiheng Xi, Jixuan Huang, Chenyang Liao, Baodai Huang, Jiaqi Liu, Honglin Guo, yajie yang, Rui Zheng, Junjie Ye, Jiazheng Zhang, Wenxiang Chen, Wei He, Yiwen Ding, Guanyu Li, Zehui Chen, Zhengyin Du, Xuesong Yao, Yufei Xu, Jiecao Chen, Tao Gui, Zuxuan Wu, Qi Zhang, Xuanjing Huang, Yu-Gang Jiang

International Conference on Learning Representations (ICLR), Rio de Janeiro, Brazil, 2026.

📄PDF

Code

ICLR 2026

Visual Multi-Agent System: Mitigating Hallucination Snowballing via Visual Flow.

Xinlei Yu, Chengming Xu, Guibin Zhang, Yongbo He, Zhangquan Chen, Zhucun Xue, Jiangning Zhang, Yue Liao, Xiaobin Hu, Yu-Gang Jiang, Shuicheng Yan

International Conference on Learning Representations (ICLR), Rio de Janeiro, Brazil, 2026.

📄PDF

Code

ICLR 2026

Toward Universal and Transferable Jailbreak Attacks on Vision-Language Models.

Kaiyuan Cui, Yige Li, Yutao Wu, Xingjun Ma, Sarah M. Erfani, Christopher Leckie, Hanxun Huang

International Conference on Learning Representations (ICLR), Rio de Janeiro, Brazil, 2026.

📄PDF

Code

ICLR 2026

FRABench and UFEval: Unified Fine-grained Evaluation with Task and Aspect Generalization.

Shibo Hong, Jiahao Ying, Haiyuan Liang, Mengdi Zhang, Jun Kuang, Jiazheng Zhang, Yixin Cao

International Conference on Learning Representations (ICLR), Rio de Janeiro, Brazil, 2026.

📄PDF

Code

ICLR 2026

EgoNight: Towards Egocentric Vision Understanding at Night with a Challenging Benchmark.

Deheng Zhang, Yuqian Fu, Runyi Yang, Yang Miao, Tianwen Qian, Xu Zheng, Guolei Sun, Ajad Chhatkuli, Xuanjing Huang, Yu-Gang Jiang, Luc Van Gool, Danda Pani Paudel

International Conference on Learning Representations (ICLR), Rio de Janeiro, Brazil, 2026.

📄PDF

AAAI 2026

Actor-Critic for Continuous Action Chunks: A Reinforcement Learning Framework for Long-Horizon Robotic Manipulation with Sparse Reward.

Jiarui Yang, Bin Zhu, Jingjing Chen, Yu-Gang Jiang

The 40th AAAI Conference on Artificial Intelligence (AAAI), Singapore, 2026.

📄PDF

AAAI 2026

DriveSuprim: Towards Precise Trajectory Selection for End-to-End Planning.

Wenhao Yao, Zhenxin Li, Shiyi Lan, Zi Wang, Xinglong Sun, José M. Álvarez, Zuxuan Wu

The 40th AAAI Conference on Artificial Intelligence (AAAI), Singapore, 2026.

📄PDF

AAAI 2026

Human2Robot: Learning Robot Actions from Paired Human-Robot Videos.

Sicheng Xie, Haidong Cao, Zejia Weng, Zhen Xing, Haoran Chen, Shiwei Shen, Jiaqi Leng, Zuxuan Wu, Yu-Gang Jiang

The 40th AAAI Conference on Artificial Intelligence (AAAI), Singapore, 2026.

📄PDF

AAAI 2026

Identity-Aware Vision-Language Model for Explainable Face Forgery Detection.

Junhao Xu, Jingjing Chen, Yang Jiao, Jiacheng Zhang, Zhiyu Tan, Hao Li, Yu-Gang Jiang

The 40th AAAI Conference on Artificial Intelligence (AAAI), Singapore, 2026.

📄PDF

AAAI 2026

MDiff4STR: Mask Diffusion Model for Scene Text Recognition.

Yongkun Du, Miaomiao Zhao, Songlin Fan, Zhineng Chen, Caiyan Jia, Yu-Gang Jiang

The 40th AAAI Conference on Artificial Intelligence (AAAI), Singapore, 2026.

📄PDF

TMM 2026

LSTD: Long Short-Term Temporal Diffusion for Video Generation.

Haoyu Zhao, Jiaxi Gu, Shicong Wang, Tianyi Lu, Xing Zhang, Zuxuan Wu, Hang Xu, Yu-Gang Jiang

IEEE Transactions on Multimedia, vol. 28, pp. 2460-2473, 2026, doi: 10.1109/TMM.2026.3651052.

📄PDF

Autom 2026

Distributed prescribed-time algorithms of multi-agent systems for time-varying optimization problems with inequality constraints.

Ben Niu, Yu-Gang Jiang, Xing-xing Ju, Ying-ying Liu, Xiao-mei Wang

Automatica, Volume 189, 2026, 112982, ISSN 0005-1098, https://doi.org/10.1016/j.automatica.2026.112982.

📄PDF

TPAMI 2025

Context Perception Parallel Decoder for Scene Text Recognition.

Yongkun Du, Zhineng Chen, Caiyan Jia, Xiaoting Yin, Chenxia Li, Yuning Du, Yu-Gang Jiang

IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 47, no. 6, pp. 4668-4683, June 2025, doi: 10.1109/TPAMI.2025.3545453.

📄PDF

TPAMI 2025

DiffusionAD: Norm-Guided One-Step Denoising Diffusion for Anomaly Detection.

Hui Zhang, Zheng Wang, Dan Zeng, Zuxuan Wu, Yu-Gang Jiang

IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 47, no. 8, pp. 7140-7152, Aug. 2025, doi: 10.1109/TPAMI.2025.3570494.

📄PDF

TPAMI 2025

Dynamic Routing and Knowledge Re-Learning for Data-Free Black-Box Attack.

Xuelin Qian, Wenxuan Wang, Yu-Gang Jiang, Xiangyang Xue, Yanwei Fu

IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 47, no. 1, pp. 486-501, Jan. 2025, doi: 10.1109/TPAMI.2024.3469952.

📄PDF

TPAMI 2025

Instruction-Guided Scene Text Recognition.

Yongkun Du, Zhineng Chen, Yuchen Su, Caiyan Jia, Yu-Gang Jiang

IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 47, no. 4, pp. 2723-2738, April 2025, doi: 10.1109/TPAMI.2025.3525526.

📄PDF

TPAMI 2025

MeViS: A Multi-Modal Dataset for Referring Motion Expression Video Segmentation.

Henghui Ding, Chang Liu, Shuting He, Kaining Ying, Xudong Jiang, Chen Change Loy, Yu-Gang Jiang

IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 47, no. 12, pp. 11400-11416, Dec. 2025, doi: 10.1109/TPAMI.2025.3600507.

📄PDF

TPAMI 2025

OmniTracker: Unifying Visual Object Tracking by Tracking-With-Detection.

Junke Wang, Zuxuan Wu, Dongdong Chen, Chong Luo, Xiyang Dai, Lu Yuan, Yu-Gang Jiang

IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 47, no. 4, pp. 3159-3174, April 2025, doi: 10.1109/TPAMI.2025.3529926.

📄PDF

IJCV 2025

What Do Visual Models Look At? Dilated Attention for Targeted Transferable Attacks.

Zhipeng Wei, Jingjing Chen, Yu-Gang Jiang

Targeted Transferable Attacks. Int J Comput Vis 133, 8041-8058 (2025).

📄PDF

WACV 2025

Retrieval Augmented Recipe Generation.

Guoshan Liu, Hailong Yin, Bin Zhu, Jingjing Chen, Chong-Wah Ngo, Yu-Gang Jiang

Winter Conference on Applications of Computer Vision (WACV), Tucson, AZ, USA, 2025.

📄PDF

CVPR 2025

BlockDance: Reuse Structurally Similar Spatio-Temporal Features to Accelerate Diffusion Transformers.

Hui Zhang, Tingwei Gao, Jie Shao, Zuxuan Wu

IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Nashville, TN, USA, 2025.

📄PDF

CVPR 2025

EDEN: Enhanced Diffusion for High-quality Large-motion Video Frame Interpolation.

Zihao Zhang, Haoran Chen, Haoyu Zhao, Guansong Lu, Yanwei Fu, Hang Xu, Zuxuan Wu

IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Nashville, TN, USA, 2025.

📄PDF

CVPR 2025

StableAnimator: High-Quality Identity-Preserving Human Image Animation.

Shuyuan Tu, Zhen Xing, Xintong Han, Zhi-Qi Cheng, Qi Dai, Chong Luo, Zuxuan Wu

IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Nashville, TN, USA, 2025.

📄PDF

CVPR 2025

UniToken: Harmonizing Multimodal Understanding and Generation through Unified Visual Encoding.

Yang Jiao, Haibo Qiu, Zequn Jie, Shaoxiang Chen, Jingjing Chen, Lin Ma, Yu-Gang Jiang

IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) Workshops, Nashville, TN, USA, 2025, pp. 3639-3649.

📄PDF

NeurIPS 2025

INST-IT: Boosting Multimodal Instance Understanding via Explicit Visual Prompt Instruction Tuning.

Wujian Peng, Lingchen Meng, Yitong Chen, Yiweng Xie, Yang Liu, Tao Gui, Hang Xu, Xipeng Qiu, Zuxuan Wu, Yu-Gang Jiang