davidnvq / visdialLinks

Visual Dialog: Light-weight Transformer for Many Inputs (ECCV 2020)

☆29

Alternatives and similar repositories for visdial

Users that are interested in visdial are comparing it to the libraries listed below

Sorting:

noagarcia / knowit-rock
ROCK model for Knowledge-Based VQA in Videos
☆31Updated 5 years ago
linjieli222 / VQA_ReGAT
Research Code for ICCV 2019 paper "Relation-aware Graph Attention Network for Visual Question Answering"
☆186Updated 4 years ago
thaolmk54 / hcrn-videoqa
Implementation for the paper "Hierarchical Conditional Relation Networks for Video Question Answering" (Le et al., CVPR 2020, Oral)
☆133Updated last year
wh0330 / CAG_VisDial
☆15Updated 5 years ago
jayleicn / TVQAplus
[ACL 2020] PyTorch code for TVQA+: Spatio-Temporal Grounding for Video Question Answering
☆129Updated 2 years ago
yanxinzju / CSS-VQA
Counterfactual Samples Synthesizing for Robust VQA
☆79Updated 2 years ago
shubhamagarwal92 / visdial_conv
This repository contains code used in our ACL'20 paper History for Visual Dialog: Do we really need it?
☆34Updated 2 years ago
vmurahari3 / visdial-bert
Implementation for "Large-scale Pretraining for Visual Dialog" https://arxiv.org/abs/1912.02379
☆97Updated 5 years ago
YiwuZhong / Sub-GC
[ECCV 2020] Official code for "Comprehensive Image Captioning via Scene Graph Decomposition"
☆98Updated last year
gicheonkang / dan-visdial
✨ Official PyTorch Implementation for EMNLP'19 Paper, "Dual Attention Networks for Visual Reference Resolution in Visual Dialog"
☆45Updated 2 years ago
jayleicn / recurrent-transformer
[ACL 2020] PyTorch code for MART: Memory-Augmented Recurrent Transformer for Coherent Video Paragraph Captioning
☆171Updated 4 years ago
HLR / Cross_Modality_Relevance
The source code of ACL 2020 paper: "Cross-Modality Relevance for Reasoning on Language and Vision"
☆27Updated 4 years ago
TheShadow29 / vognet-pytorch
[CVPR20] Video Object Grounding using Semantic Roles in Language Description (https://arxiv.org/abs/2003.10606)
☆69Updated 5 years ago
facebookresearch / grid-feats-vqa
Grid features pre-training code for visual question answering
☆269Updated 4 years ago
ronilp / mac-network-pytorch-gqa
Memory, Attention and Composition (MAC) Network for CLEVR/GQA implemented in PyTorch
☆27Updated last year
shilrley6 / Faster-R-CNN-with-model-pretrained-on-Visual-Genome
Faster RCNN model in Pytorch version, pretrained on the Visual Genome with ResNet 101
☆239Updated 2 years ago
yuleiniu / rva
Code for CVPR'19 "Recursive Visual Attention in Visual Dialog"
☆64Updated 2 years ago
aioz-ai / ICCV19_VQA-CTI
Compact Trilinear Interaction for Visual Question Answering (ICCV 2019)
☆38Updated 2 years ago
jialinwu17 / self_critical_vqa
Code for NeurIPS 2019 paper ``Self-Critical Reasoning for Robust Visual Question Answering''
☆41Updated 6 years ago
salesforce / BiST
Code for the paper BiST: Bi-directional Spatio-Temporal Reasoning for Video-Grounded Dialogues (EMNLP20)
☆11Updated 4 months ago
ronghanghu / lcgn
Code release for Hu et al., Language-Conditioned Graph Networks for Relational Reasoning. in ICCV, 2019
☆92Updated 6 years ago
idansc / mrr-ndcg
☆18Updated last year
CrossmodalGroup / SSL-VQA
Code for our IJCAI2020 paper: Overcoming Language Priors with Self-supervised Learning for Visual Question Answering
☆52Updated 5 years ago
fanchenyou / HME-VideoQA
Heterogeneous Memory Enhanced Multimodal Attention Model for VideoQA
☆54Updated 4 years ago
shijx12 / XNM-Net
Pytorch implementation of "Explainable and Explicit Visual Reasoning over Scene Graphs "
☆93Updated 6 years ago
yangxuntu / SGAE
☆219Updated 3 years ago
yuleiniu / cfvqa
[CVPR 2021] Counterfactual VQA: A Cause-Effect Look at Language Bias
☆125Updated 3 years ago
qinzzz / Multimodal-Alignment-Framework
Implementation for MAF: Multimodal Alignment Framework
☆46Updated 4 years ago
jacobswan1 / Video2Commonsense
Video captioning baseline models on Video2Commonsense Dataset.
☆57Updated 4 years ago
daqingliu / NMTree
Code release for Learning to Assemble Neural Module Tree Networks for Visual Grounding (ICCV 2019)
☆39Updated 5 years ago