vqa

Star

Here are 340 public repositories matching this topic...

facebookresearch / mmf

Star

A modular framework for vision & language multimodal research from Facebook AI Research (FAIR)

deep-learning dialog pytorch vqa pretrained-models captioning multimodal multi-tasking textvqa hateful-memes

Updated Jan 12, 2026
Python

open-compass / VLMEvalKit

Star

Open-source evaluation toolkit of large multi-modality models (LMMs), support 220+ LMMs, 80+ benchmarks

computer-vision evaluation pytorch gemini openai vqa vit gpt multi-modal clip claude openai-api gpt4 large-language-models llm chatgpt llava qwen gpt-4v

Updated Mar 11, 2026
Python

InternGPT (iGPT) is an open source demo platform where you can easily showcase your AI models. Now it supports DragGAN, ChatGPT, ImageBind, multimodal chat like GPT-4, SAM, interactive image editing, etc. Try it at igpt.opengvlab.com (支持DragGAN、ChatGPT、ImageBind、SAM的在线Demo系统)

Updated Aug 20, 2024
Python

roboflow / maestro

Star

streamline the fine-tuning process for multimodal models: PaliGemma 2, Florence-2, and Qwen2.5-VL

transformers vqa objectdetection captioning fine-tuning multimodal vision-and-language phi-3-vision paligemma florence-2 qwen2-vl

Updated Mar 9, 2026
Python

BDBC-KG-NLP / QA-Survey-CN

Star

北京航空航天大学大数据高精尖中心自然语言处理研究团队开展了智能问答的研究与应用总结。包括基于知识图谱的问答（KBQA），基于文本的问答系统（TextQA），基于表格的问答系统（TableQA）、基于视觉的问答系统（VisualQA）和机器阅读理解（MRC）等，每类任务分别对学术界和工业界进行了相关总结。

nlp qa survey vqa question-answering cqa kbqa qa-survey tqa

Updated Apr 6, 2023

peteanderson80 / bottom-up-attention

Star

Bottom-up attention model for image captioning and VQA, based on Faster R-CNN and Visual Genome

caffe vqa faster-rcnn image-captioning captioning-images mscoco mscoco-dataset visual-question-answering

Updated Feb 3, 2023
Jupyter Notebook

NVlabs / prismer

Star

The implementation of "Prismer: A Vision-Language Model with Multi-Task Experts".

vqa image-captioning language-model multi-task-learning vision-and-language multi-modal-learning vision-language-model

Updated Jan 17, 2024
Python

microsoft / Oscar

Star

Oscar and VinVL

vqa image-captioning oscar vision-and-language pre-training image-text-search vinvl

Updated Aug 28, 2023
Python

hila-chefer / Transformer-MM-Explainability

Star

[ICCV 2021- Oral] Official PyTorch implementation for Generic Attention-model Explainability for Interpreting Bi-Modal and Encoder-Decoder Transformers, a novel method to visualize any Transformer-based network. Including examples for DETR, VQA.

visualization transformers transformer vqa clip interpretability explainable-ai explainability detr lxmert visualbert

Updated Aug 24, 2023
Jupyter Notebook

hengyuan-hu / bottom-up-attention-vqa

Star

An efficient PyTorch implementation of the winning entry of the 2017 VQA Challenge.

pytorch vqa bottom-up-attention

Updated Mar 10, 2024
Python

Cadene / vqa.pytorch

Star

Visual Question Answering in Pytorch

deep-learning torch pytorch vqa coco resnet skipthoughts clevr vgenome

Updated Dec 11, 2019
Python

jayleicn / ClipBERT

Star

[CVPR 2021 Best Student Paper Honorable Mention, Oral] Official PyTorch code for ClipBERT, an efficient framework for end-to-end learning on image-text and video-text tasks.

pytorch vqa vision-and-language video-retrieval video-question-answering cvpr2021

Updated Aug 8, 2023
Python

jokieleung / awesome-visual-question-answering

Star

A curated list of Visual Question Answering(VQA)(Image/Video Question Answering),Visual Question Generation ,Visual Dialog ,Visual Commonsense Reasoning and related area.

vqa awesome-list multi-modal multi-modal-learning attention-networks

Updated Jul 6, 2023

XiaomiMiMo / MiMo-VL

Star

MiMo-VL

vqa vlm vision-language-model

Updated Aug 21, 2025

OpenGVLab / Multi-Modality-Arena

Star

Chatbot Arena meets multi-modality! Multi-Modality Arena allows you to benchmark vision-language models side-by-side while providing images as inputs. Supports MiniGPT-4, LLaMA-Adapter V2, LLaVA, BLIP-2, and many more!

chat chatbot vqa gradio multi-modality large-language-models llms chatgpt vision-language-model