sugarandgugu / Text2Image-Retrieval
计算机视觉课程设计-基于Chinese-CLIP的图文检索系统
☆47Updated last year
Related projects ⓘ
Alternatives and complementary repositories for Text2Image-Retrieval
- 中文CLIP:自定义数据集,可根据文图提取向量,实现文图匹配。☆21Updated 2 years ago
- 该项目旨在通过输入文本描述来检索与之相匹配的图片。☆26Updated last year
- 基于多模态检索的互联网图文匹配☆10Updated 8 months ago
- 商品图像检索、多模态、深度学习☆29Updated 3 years ago
- 中文CLIP预训练模型☆396Updated last year
- 基于ClipCap的看图说话Image Caption模型☆285Updated 2 years ago
- transformers结构的中文OFA模型☆123Updated last year
- DIP & NLP期末大作业 — 课程设计☆18Updated last year
- VLE: Vision-Language Encoder (VLE: 视觉-语言多模态预训练模型)☆184Updated last year
- 使用pytorch完成的一个多模态分类任务,文本和图像部分分别使用了bert和resnet提取特征(在config里可以组合多种模型),在我的小规模数据集上取得了良好的性能(验证集acc96%)☆68Updated last year
- Building a VLM model starts from the basic module.☆10Updated 7 months ago
- 这是一个clip-pytorch的模型,可以训练自己的数据集。☆181Updated last year
- 本项目使用LLaVA 1.6多模态模型实现以文搜图和以图搜图功能。☆17Updated 8 months ago
- 一些大语言模型和多模态模型的应用,主要包括Rag,小模型,Agent,跨模态搜索,OCR等等☆124Updated 2 weeks ago
- 多模态视频分类模型☆14Updated 2 years ago
- 八戒-Chat是利用《西游记》剧本中所有关于猪八戒的台词和语句,以及Chat-GPT-3.5生成的相关问题结果,基于Internlm进行QLoRA微调得到的模仿猪八戒语气的聊天语言模型。☆23Updated 3 months ago
- 多模态 MM +Chat 合集☆209Updated 2 weeks ago
- ☆55Updated 10 months ago
- ☆77Updated 3 months ago
- 基于yoloV5进行多类别+关键检测,关键点检测主要是计算车辆航向角☆12Updated 2 years ago
- 基于qwenvl微调一个多模态Xray识别的大模型☆10Updated last month
- LLM+RAG for QA☆20Updated 10 months ago
- 多轮共情对话模型PICA☆86Updated last year
- 通义千问的DPO训练☆27Updated 2 months ago
- ☆156Updated 8 months ago
- Implementation of our paper, 'Unifying Two-Stream Encoders with Transformers for Cross-Modal Retrieval.'☆20Updated 11 months ago
- a super easy clip model with mnist dataset for study☆76Updated 8 months ago
- A Multi-modal RAG Project with Dataset from Honor of Kings, one of the most popular smart phone games in China☆51Updated 2 months ago
- 一个多模态内容理解算法框架,其中包含数据处理、预训练模型、常见模型以及模型加速等模块。☆307Updated 3 years ago
- 细粒度图像分类之十二猫分类,对比ResNet和ViT两者模型性能。☆33Updated 2 years ago