yangjianxin1 / ClipCap-ChineseLinks

基于ClipCap的看图说话Image Caption模型

☆319

Alternatives and similar repositories for ClipCap-Chinese

Users that are interested in ClipCap-Chinese are comparing it to the libraries listed below

Sorting:

yangjianxin1 / CLIP-Chinese
中文CLIP预训练模型
☆419Updated 2 years ago
BAAI-WuDao / BriVL
Bridging Vision and Language Model
☆285Updated 2 years ago
yangjianxin1 / OFA-Chinese
transformers结构的中文OFA模型
☆136Updated 2 years ago
li-xirong / coco-cn
Enriching MS-COCO with Chinese sentences and tags for cross-lingual multimedia tasks
☆208Updated 9 months ago
iflytek / VLE
VLE: Vision-Language Encoder (VLE: 视觉-语言多模态预训练模型)
☆194Updated 2 years ago
LinkSoul-AI / Chinese-LLaVA
支持中英文双语视觉-文本对话的开源可商用多模态模型。
☆376Updated 2 years ago
billjie1 / Chinese-CLIP
Chinese version of CLIP which achieves Chinese cross-modal retrieval and representation generation.
☆169Updated 3 years ago
yuxie11 / R2D2
☆168Updated 2 years ago
wanng-ide / VQA_to_multimodal_survey
Update 2020
☆76Updated 3 years ago
sjy0727 / CLIP-Text-Image-Retrieval
该项目旨在通过输入文本描述来检索与之相匹配的图片。
☆42Updated 2 years ago
MUGE-2021 / image-retrieval-baseline
☆59Updated 3 years ago
li-xirong / cross-lingual-cap
Cross-lingual image captioning
☆90Updated 3 years ago
Kamino666 / Video-Captioning-Transformer
这是一个基于Pytorch平台、Transformer框架实现的视频描述生成 (Video Captioning) 深度学习模型。视频描述生成任务指的是：输入一个视频，输出一句描述整个视频内容的文字（前提是视频较短且可以用一句话来描述）。本repo主要目的是帮助视力障碍…
☆96Updated 3 years ago
MILVLG / prophet
Implementation of CVPR 2023 paper "Prompting Large Language Models with Answer Heuristics for Knowledge-based Visual Question Answering".
☆277Updated 5 months ago
Macielyoung / Chinese-Image-Caption
Train a model for Image Caption from ViT and GPT pretrained model
☆19Updated 2 years ago
ArrowLuo / CLIP4Clip
An official implementation for "CLIP4Clip: An Empirical Study of CLIP for End to End Video Clip Retrieval"
☆1,004Updated last year
alipay / Ant-Multi-Modal-Framework
Research Code for Multimodal-Cognition Team in Ant Group
☆169Updated last month
weiji-Feng / Image2Poem
A project that can generate ancient poems based on pictures, including CLIP, T5, GPT2 models
☆22Updated 9 months ago
X-PLUG / Youku-mPLUG
Youku-mPLUG: A 10 Million Large-scale Chinese Video-Language Pre-training Dataset and Benchmarks
☆299Updated last year
ksOAn6g5 / TaiSu
TaiSu（太素）--a large-scale Chinese multimodal dataset（亿级大规模中文视觉语言预训练数据集）
☆190Updated 2 years ago
zengyan-97 / X-VLM
X-VLM: Multi-Grained Vision Language Pre-Training (ICML 2022)
☆487Updated 3 years ago
haofanwang / natural-language-joint-query-search
Search photos on Unsplash based on OpenAI's CLIP model, support search with joint image+text queries and attention visualization.
☆223Updated 4 years ago
foamliu / Image-Captioning-PyTorch
图像中文描述+视觉注意力
☆191Updated 5 years ago
Paranioar / SGRAF
[AAAI2021] The code of “Similarity Reasoning and Filtration for Image-Text Matching”
☆220Updated last year
CryhanFang / CLIP2Video
☆256Updated 2 years ago
Paranioar / Awesome_Matching_Pretraining_Transfering
The Paper List of Large Multi-Modality Model (Perception, Generation, Unification), Parameter-Efficient Finetuning, Vision-Language Pretr…
☆434Updated last month
airaria / Visual-Chinese-LLaMA-Alpaca
多模态中文LLaMA&Alpaca大语言模型（VisualCLA）
☆457Updated 2 years ago
chuhaojin / BriVL-BUA-applications
Bling's Object detection tool
☆56Updated 2 years ago
wangxiao5791509 / MultiModal_BigModels_Survey
[MIR-2023-Survey] A continuously updated paper list for multi-modal pre-trained big models
☆288Updated 4 months ago
MUGE-2021 / image-caption-baseline
☆66Updated last year