jiasenlu / bottom-up-attentionLinks

Bottom-up attention model for image captioning and VQA, based on Faster R-CNN and Visual Genome

☆23

Alternatives and similar repositories for bottom-up-attention

Users that are interested in bottom-up-attention are comparing it to the libraries listed below

Sorting:

shubhamagarwal92 / visdial_conv
This repository contains code used in our ACL'20 paper History for Visual Dialog: Do we really need it?
☆34Updated 2 years ago
yuleiniu / cfvqa
[CVPR 2021] Counterfactual VQA: A Cause-Effect Look at Language Bias
☆126Updated 3 years ago
yanxinzju / CSS-VQA
Counterfactual Samples Synthesizing for Robust VQA
☆79Updated 2 years ago
HLR / Cross_Modality_Relevance
The source code of ACL 2020 paper: "Cross-Modality Relevance for Reasoning on Language and Vision"
☆27Updated 4 years ago
CrossmodalGroup / SSL-VQA
Code for our IJCAI2020 paper: Overcoming Language Priors with Self-supervised Learning for Visual Question Answering
☆52Updated 5 years ago
e-bug / volta
[TACL 2021] Code and data for the framework in "Multimodal Pretraining Unmasked: A Meta-Analysis and a Unified Framework of Vision-and-La…
☆114Updated 3 years ago
ChenRocks / BUTD-UNITER-NLVR2
Support extracting BUTD features for NLVR2 images.
☆18Updated 5 years ago
CCYChongyanChen / VQA_AlgorithmDatasets
☆38Updated 2 years ago
Zhiquan-Wen / D-VQA
PyTorch implementation of "Debiased Visual Question Answering from Feature and Sample Perspectives" (NeurIPS 2021)
☆26Updated 3 years ago
chrisc36 / bottom-up-attention-vqa
BottomUpTopDown VQA model with question-type debiasing
☆22Updated 6 years ago
JXZe / DualVD
☆77Updated 2 years ago
simpleshinobu / visdial-principles
Implementation for CVPR 2020 Paper "Two Causal Principles for Improving Visual Dialog"
☆31Updated 2 years ago
linjieli222 / VQA_ReGAT
Research Code for ICCV 2019 paper "Relation-aware Graph Attention Network for Visual Question Answering"
☆187Updated 4 years ago
qinzzz / Multimodal-Alignment-Framework
Implementation for MAF: Multimodal Alignment Framework
☆46Updated 4 years ago
vmurahari3 / visdial-bert
Implementation for "Large-scale Pretraining for Visual Dialog" https://arxiv.org/abs/1912.02379
☆97Updated 5 years ago
shilrley6 / Faster-R-CNN-with-model-pretrained-on-Visual-Genome
Faster RCNN model in Pytorch version, pretrained on the Visual Genome with ResNet 101
☆239Updated 3 years ago
facebookresearch / grid-feats-vqa
Grid features pre-training code for visual question answering
☆269Updated 4 years ago
zhegan27 / VILLA
Research Code for NeurIPS 2020 Spotlight paper "Large-Scale Adversarial Training for Vision-and-Language Representation Learning": UNITER…
☆119Updated 4 years ago
AndersonStra / MuKEA
MuKEA: Multimodal Knowledge Extraction and Accumulation for Knowledge-based Visual Question Answering
☆99Updated 2 years ago
PhoebusSi / SAR
Code for our ACL2021 paper: "Check It Again: Progressive Visual Question Answering via Visual Entailment"
☆31Updated 3 years ago
MILVLG / bottom-up-attention.pytorch
A PyTorch reimplementation of bottom-up-attention models
☆304Updated 3 years ago
cdancette / vqa-cp-leaderboard
A collections of papers about VQA-CP datasets and their results
☆40Updated 3 years ago
zyang-ur / onestage_grounding
A Fast and Accurate One-Stage Approach to Visual Grounding, ICCV 2019 (Oral)
☆149Updated 5 years ago
danielpreotiuc / text-image-relationship
Text-Image Relationships (ACL 2019)
☆21Updated 2 years ago
daqingliu / NMTree
Code release for Learning to Assemble Neural Module Tree Networks for Visual Grounding (ICCV 2019)
☆39Updated 5 years ago
HKUST-KnowComp / Visual_PCR
Dataset and Source code for EMNLP 2019 paper "What You See is What You Get: Visual Pronoun Coreference Resolution in Dialogues"
☆26Updated 4 years ago
CCIIPLab / DPT
The code of IJCAI2022 paper, Declaration-based Prompt Tuning for Visual Question Answering
☆20Updated 3 years ago
necla-ml / SNLI-VE
Dataset and starting code for visual entailment dataset
☆117Updated 3 years ago
ThalesGroup / ConceptBERT
Implementation of ConceptBert: Concept-Aware Representation for Visual Question Answering
☆31Updated last year
microsoft / M3P
Multitask Multilingual Multimodal Pre-training
☆71Updated 2 years ago