UMass-Foundation-Model / genome

☆15

Alternatives and similar repositories for genome:

Users that are interested in genome are comparing it to the libraries listed below

Lizw14 / Super-CLEVR
Code for paper "Super-CLEVR: A Virtual Benchmark to Diagnose Domain Robustness in Visual Reasoning"
☆29Updated last year
NVlabs / RelViT
[ICLR 2022] RelViT: Concept-guided Vision Transformer for Visual Relational Reasoning
☆64Updated 2 years ago
evelinehong / PTR
Official Repository of NeurIPS2021 paper: PTR
☆33Updated 3 years ago
lupantech / IconQA
Data and code for NeurIPS 2021 Paper "IconQA: A New Benchmark for Abstract Diagram Understanding and Visual Language Reasoning".
☆51Updated last year
belindal / LaMPP
Code for LaMPP: Language Models as Probabilistic Priors for Perception and Action
☆35Updated last year
zfchenUnique / compositional_physics_learner
☆38Updated 2 years ago
gistvision / moca
Code and models of MOCA (Modular Object-Centric Approach) proposed in "Factorizing Perception and Policy for Interactive Instruction Foll…
☆37Updated 7 months ago
clova-tool / CLOVA-tool
☆27Updated 7 months ago
Letian2003 / C-VQA
Counterfactual Reasoning VQA Dataset
☆24Updated last year
wllmzhu / G-VUE
General-purpose Visual Understanding Evaluation
☆20Updated last year
limanling / KnowledgeVL-Reading
☆67Updated last year
Jielin-Qiu / MM_Robustness
[DMLR 2024] Benchmarking Robustness of Multimodal Image-Text Models under Distribution Shift
☆34Updated last year
Maitreyapatel / CRIPP-VQA
CRIPP-VQA Benchmark -- EMNLP, 2022
☆9Updated 2 years ago
ChenYi99 / EgoPlan
☆65Updated 2 months ago
para-lost / RVP
Recursive Visual Programming (ECCV 2024)
☆17Updated 2 months ago
RAIVNLab / sugar-crepe
[NeurIPS 2023] A faithful benchmark for vision-language compositionality
☆76Updated last year
salesforce / paprika
Code for CVPR 2023 paper "Procedure-Aware Pretraining for Instructional Video Understanding"
☆48Updated 2 weeks ago
allenai / unified-io-2.pytorch
☆68Updated 7 months ago
cambridgeltl / visual-spatial-reasoning
[TACL'23] VSR: A probing benchmark for spatial undersranding of vision-language models.
☆112Updated last year
ajd12342 / why-winoground-hard
Code for 'Why is Winoground Hard? Investigating Failures in Visuolinguistic Compositionality', EMNLP 2022
☆30Updated last year
kkahatapitiya / LangRepo
Language Repository for Long Video Understanding
☆31Updated 7 months ago
MikeWangWZHL / Paxion
Repo for paper: "Paxion: Patching Action Knowledge in Video-Language Foundation Models" Neurips 23 Spotlight
☆37Updated last year
joyhsu0504 / LEFT
☆42Updated 9 months ago
xvjiarui / IMProv
IMProv: Inpainting-based Multimodal Prompting for Computer Vision Tasks
☆59Updated 4 months ago
eric-ai-lab / MMWorld
Official repo of the ICLR 2025 paper "MMWorld: Towards Multi-discipline Multi-faceted World Model Evaluation in Videos"
☆24Updated 4 months ago
singhgautam / sysbinder
Official Code for Neural Systematic Binder
☆30Updated last year
facebookresearch / ego4d-goalstep
Ego4D Goal-Step: Toward Hierarchical Understanding of Procedural Activities (NeurIPS 2023)
☆39Updated 10 months ago
princetonvisualai / pointingqa
Code for paper "Point and Ask: Incorporating Pointing into Visual Question Answering"
☆18Updated 2 years ago
alexpashevich / E.T.
Episodic Transformer (E.T.) is a novel attention-based architecture for vision-and-language navigation. E.T. is based on a multimodal tra…
☆90Updated last year
microsoft / DFOL-VQA
Differentiable First-Order Logic Reasoning for Visual Question Answering
☆39Updated 3 years ago