A2Zadeh / Social-IQ

☆38

Related projects: ⓘ

jayleicn / VideoLanguageFuturePred
[EMNLP 2020] What is More Likely to Happen Next? Video-and-Language Future Event Prediction
☆47Updated 2 years ago
yuweijiang / HGL-pytorch
Code for the model "Heterogeneous Graph Learning for Visual Commonsense Reasoning (NeurlPS 2019)"
☆46Updated 4 years ago
ceyzaguirre4 / NSM
Neural State Machine implemented in PyTorch
☆70Updated 4 years ago
idansc / simple-avsd
Code for ''A Simple Baseline for Audio-Visual Scene-Aware Dialog``
☆25Updated 4 years ago
salesforce / VD-BERT
☆45Updated last year
satwikkottur / clevr-dialog
Repository to generate CLEVR-Dialog: A diagnostic dataset for Visual Dialog
☆44Updated 4 years ago
idansc / fga
☆29Updated 2 years ago
jamespark3922 / visual-comet
VisualCOMET: Reasoning about the Dynamic Context of a Still Image
☆85Updated last year
sunlightsgy / MEmoR
Code and dataset of "MEmoR: A Dataset for Multimodal Emotion Reasoning in Videos" in MM'20.
☆50Updated last year
pliang279 / factorized
[ICLR 2019] Learning Factorized Multimodal Representations
☆65Updated 4 years ago
maximek3 / e-ViL
☆40Updated last year
cdancette / rubi.bootstrap.pytorch
NeurIPS 2019 Paper: RUBi : Reducing Unimodal Biases for Visual Question Answering
☆59Updated 3 years ago
A2Zadeh / Factorized-Multimodal-Transformer
☆40Updated this week
BigRedT / vico
Multi-sense word embeddings from visual co-occurrences
☆25Updated 5 years ago
Deanplayerljx / tab-vcr
Pytorch implementation for our NeurIPS 2019 paper "TAB-VCR: Tags and Attributes based VCR Baselines" https://arxiv.org/abs/1910.14671
☆19Updated 3 years ago
TheShadow29 / VidSitu
[CVPR21] Visual Semantic Role Labeling for Video Understanding (https://arxiv.org/abs/2104.00990)
☆57Updated 3 years ago
erobic / negative_analysis_of_grounding
Shows visual grounding methods can be right for the wrong reasons! (ACL 2020)
☆23Updated 4 years ago
LuoweiZhou / YouCook2-Leaderboard
A one-stop shop for YouCook2 info such as leaderboard and recent advances on (cooking) video retrieval and captioning.
☆37Updated 2 years ago
davidnvq / visdial
Visual Dialog: Light-weight Transformer for Many Inputs (ECCV 2020)
☆30Updated 3 years ago
jamespark3922 / lsmdc-baseline
☆15Updated 5 years ago
wenhuchen / Meta-Module-Network
Code for WACV 2021 Paper "Meta Module Network for Compositional Visual Reasoning"
☆43Updated 3 years ago
vmurahari3 / visdial-bert
Implementation for "Large-scale Pretraining for Visual Dialog" https://arxiv.org/abs/1912.02379
☆95Updated 4 years ago
VALUE-Leaderboard / DataRelease
Data Release for VALUE Benchmark
☆32Updated 2 years ago
zinengtang / VidLanKD
Pytorch version of VidLanKD: Improving Language Understanding viaVideo-Distilled Knowledge Transfer (NeurIPS 2021))
☆56Updated last year
zhegan27 / LXMERT-AdvTrain
Research Code for NeurIPS 2020 Spotlight paper "Large-Scale Adversarial Training for Vision-and-Language Representation Learning": LXMERT…
☆21Updated 3 years ago
itaigat / removing-bias-in-multi-modal-classifiers
☆29Updated 3 years ago
cdancette / detect-shortcuts
Repo for ICCV 2021 paper: Beyond Question-Based Biases: Assessing Multimodal Shortcut Learning in Visual Question Answering
☆24Updated 2 months ago
AmingWu / CCN
Connective Cognition Network for Directional Visual Commonsense Reasoning
☆15Updated 3 years ago
dialogtekgeek / DSTC8-AVSD_official
DSTC8-AVSD: Sentence generation task for Audio Visual Scene-aware Dialog
☆14Updated 3 years ago
visinf / cos-cvae
Diverse Image Captioning with Context-Object Split Latent Spaces (NeurIPS 2020)
☆37Updated 2 years ago