SxJyJay / UniTokenLinks

[CVPRW 2025] UniToken is an auto-regressive generation model that combines discrete and continuous representations to process visual inputs, making it easy to integrate both visual understanding and image generation tasks seamlessly.

☆86

Alternatives and similar repositories for UniToken

Users that are interested in UniToken are comparing it to the libraries listed below

Sorting:

PKU-YuanGroup / WISE
WISE: A World Knowledge-Informed Semantic Evaluation for Text-to-Image Generation
☆136Updated last month
wusize / Harmon
[ICCV2025]Code Release of Harmonizing Visual Representations for Unified Multimodal Understanding and Generation
☆145Updated 2 months ago
ByteFlow-AI / TokenFlow
[CVPR 2025] 🔥 Official impl. of "TokenFlow: Unified Image Tokenizer for Multimodal Understanding and Generation".
☆364Updated last week
PhoenixZ810 / RISEBench
Official Repository of paper: Envisioning Beyond the Pixels: Benchmarking Reasoning-Informed Visual Editing
☆79Updated 2 weeks ago
gogoduan / GoT-R1
GoT-R1: Unleashing Reasoning Capability of MLLM for Visual Generation with Reinforcement Learning
☆94Updated 2 months ago
TencentARC / TokLIP
TokLIP: Marry Visual Tokens to CLIP for Multimodal Comprehension and Generation
☆103Updated last month
wusize / OpenUni
☆144Updated last month
TencentARC / MindOmni
☆93Updated last month
daixiangzi / VAR-CLIP
Implements VAR+CLIP for text-to-image (T2I) generation
☆145Updated 6 months ago
rongyaofang / GoT
Official repository of "GoT: Unleashing Reasoning Capability of Multimodal Large Language Model for Visual Generation and Editing"
☆272Updated 3 months ago
rongyaofang / PUMA
Empowering Unified MLLM with Multi-granular Visual Generation
☆127Updated 6 months ago
PKU-YuanGroup / ImgEdit
ImgEdit: A Unified Image Editing Dataset and Benchmark
☆155Updated last week
CodeGoat24 / UnifiedReward
Official implementation of UnifiedReward & UnifiedReward-Think
☆493Updated this week
Franklin-Zhang0 / ReasonGen-R1
Official respository for ReasonGen-R1
☆56Updated last month
Cooperx521 / ScaleCap
Official repository of 'ScaleCap: Inference-Time Scalable Image Captioning via Dual-Modality Debiasing’
☆52Updated last month
rese1f / aurora
[ICLR 2025] AuroraCap: Efficient, Performant Video Detailed Captioning and a New Benchmark
☆119Updated 2 months ago
zhangguiwei610 / V2Flow
☆26Updated 4 months ago
DCDmllm / AnyEdit
【CVPR 2025 Oral】Official Repo for Paper "AnyEdit: Mastering Unified High-Quality Image Editing for Any Idea"
☆172Updated 3 months ago
KwaiVGI / Uniaa
Unified Multi-modal IAA Baseline and Benchmark
☆82Updated 10 months ago
baaivision / DIVA
[ICLR 2025] Diffusion Feedback Helps CLIP See Better
☆283Updated 6 months ago
MME-Benchmarks / MME-Unify
MME-Unify: A Comprehensive Benchmark for Unified Multimodal Understanding and Generation Models
☆41Updated 3 months ago
wdrink / SimpleAR
Pytorch implementation for the paper titled "SimpleAR: Pushing the Frontier of Autoregressive Visual Generation"
☆390Updated last month
yu-rp / VisualPerceptionToken
☆93Updated 4 months ago
Tencent / HaploVLM
ICML2025
☆51Updated 2 months ago
ziqipang / RandAR
[CVPR 2025 (Oral)] Open implementation of "RandAR"
☆182Updated 3 weeks ago
AMAP-ML / USP
USP: Unified Self-Supervised Pretraining for Image Generation and Understanding
☆83Updated last month
Purshow / Awesome-Unified-Multimodal
📖 This is a repository for organizing papers, codes, and other resources related to unified multimodal models.
☆263Updated last week
baaivision / DenseFusion
DenseFusion-1M: Merging Vision Experts for Comprehensive Multimodal Perception
☆150Updated 7 months ago
X-Omni-Team / X-Omni
Official inference code and LongText-Bench benchmark for our paper X-Omni (https://arxiv.org/pdf/2507.22058).
☆170Updated this week
CodeGoat24 / LiFT
Official implementation of LiFT: Leveraging Human Feedback for Text-to-Video Model Alignment.
☆79Updated 3 months ago