siddsriv / Image-captioningLinks

Using a CNN-LSTM hybrid network to generate captions for images

☆17

Alternatives and similar repositories for Image-captioning

Users that are interested in Image-captioning are comparing it to the libraries listed below

Sorting:

gchhablani / multilingual-vqa
Repository for Multilingual-VQA task created during HuggingFace JAX/Flax community week.
☆34Updated 3 years ago
ntusteeian / VQA_CNN-LSTM
Pytorch implementation of VQA: Visual Question Answering (https://arxiv.org/pdf/1505.00468.pdf) using VQA v2.0 dataset for open-ended ta…
☆20Updated 4 years ago
tanishqgautam / Image-Captioning
Implemented 3 different architectures to tackle the Image Caption problem, i.e, Merged Encoder-Decoder - Bahdanau Attention - Transformer…
☆40Updated 4 years ago
zarzouram / image_captioning_with_transformers
Pytorch implementation of image captioning using transformer-based model.
☆66Updated 2 years ago
kapoorparul / Towards-Automatic-Speech-to-SL
☆17Updated 3 years ago
oncescuandreea / QuerYD_downloader
☆22Updated last year
tezansahu / VQA-With-Multimodal-Transformers
Exploring multimodal fusion-type transformer models for visual question answering (on DAQUAR dataset)
☆35Updated 3 years ago
Merterm / Modeling-Intensification-for-SLG
Public repo for the paper: "Modeling Intensification for Sign Language Generation: A Computational Approach" by Mert Inan*, Yang Zhong*, …
☆13Updated 3 years ago
pmorerio / video-gesture-autism
Code for the paper 'Video Gesture Analysis for Autism Spectrum Disorder Detection', ICPR 2018
☆20Updated 6 years ago
Dantekk / Image-Captioning
Image Captioning using CNN and Transformer.
☆53Updated 3 years ago
ajamjoom / Image-Captions
BERT + Image Captioning
☆133Updated 4 years ago
matakshay / Neural_Image_Caption_Generator
Deep Learning model which uses Computer Vision and NLP to generate captions for images
☆14Updated 4 years ago
omidmnezami / Face-Cap
Face-Cap: Image Captioning using Facial Expression Analysis
☆16Updated 5 years ago
MichiganNLP / In-the-wild-QA
In-the-wild Question Answering
☆15Updated 2 years ago
azadyasar / NeuralMachineTranslation
PyTorch implementation of NMT models along with custom tokenizers, models, and datasets
☆20Updated 2 years ago
gokulkarthik / hateclipper
Hate-CLIPper: Multimodal Hateful Meme Classification with Explicit Cross-modal Interaction of CLIP features - Accepted at EMNLP 2022 Work…
☆52Updated 2 months ago
gchhablani / multilingual-image-captioning
☆44Updated 3 years ago
frankaging / Multimodal-Transformer
Attention Based Multi-modal Emotion Recognition; Stanford Emotional Narratives Dataset
☆18Updated 5 years ago
AaronCCWong / Show-Attend-and-Tell
A PyTorch implementation of the paper Show, Attend and Tell: Neural Image Caption Generation with Visual Attention
☆85Updated 5 years ago
prashantg445 / Image-Captioning
Used LSTM on Flickr dataset
☆12Updated 7 years ago
abachaa / VQA-Med-2019
Visual Question Answering in the Medical Domain VQA-Med 2019
☆87Updated last year
avijit9 / CleanAdapt
Code for our Source-free Unsupervised Video Domain Adaptation Paper
☆9Updated 5 months ago
sayandebroy-csmi / cleanadapt
Reproduced code for Overcoming Label Noise for Source-free Unsupervised Video Domain Adaptation, ICVGIP'22
☆22Updated last year
joydeb28 / NLP-Notebooks
Natural Language Processing
☆28Updated last year
pritamqu / CrissCross
[AAAI 2023 (Oral)] CrissCross: Self-Supervised Audio-Visual Representation Learning with Relaxed Cross-Modal Synchronicity
☆25Updated last year
bharathichezhiyan / Multimodal-Meme-Classification-Identifying-Offensive-Content-in-Image-and-Text
Multimodal Meme Classification: Identifying Offensive Content in Image and Text
☆70Updated 2 years ago
RoyalSkye / Image-Caption
Using LSTM or Transformer to solve Image Captioning in Pytorch
☆78Updated 3 years ago
artelab / Image-and-Text-fusion-for-UPMC-Food-101-using-BERT-and-CNNs
☆60Updated 4 years ago
samuelyu2002 / PACS
Code and dataset release for "PACS: A Dataset for Physical Audiovisual CommonSense Reasoning" (ECCV 2022)
☆14Updated 2 years ago
jylins / videoxum
[TMM 2023] VideoXum: Cross-modal Visual and Textural Summarization of Videos
☆45Updated last year