This platform requires JavaScript for full functionality. Please enable JavaScript in your browser settings.

Dhruba Ghosh, Yuhui Zhang, Ludwig Schmidt

Articles by Dhruba Ghosh, Yuhui Zhang, Ludwig Schmidt

Academic · 1 min

Understanding the Fine-Grained Knowledge Capabilities of Vision-Language Models

arXiv:2602.17871v1 Announce Type: cross Abstract: Vision-language models (VLMs) have made substantial progress across a wide range of visual question answering benchmarks, spanning visual reasoning, document …

6 views Feb 24

Something extraordinary is coming.

Dhruba Ghosh, Yuhui Zhang, Ludwig Schmidt

Articles by Dhruba Ghosh, Yuhui Zhang, Ludwig Schmidt

Understanding the Fine-Grained Knowledge Capabilities of Vision-Language Models

JCG, PC

HSOLLC Co., Ltd.