XZPKU / SA-HOILinks

☆9

Alternatives and similar repositories for SA-HOI

Users that are interested in SA-HOI are comparing it to the libraries listed below

Sorting:

WangWenhao0716 / TIP-I2V
TIP-I2V: A Million-Scale Real Text and Image Prompt Dataset for Image-to-Video Generation
☆31Updated 8 months ago
Mingxiao-Li / Animate-Your-Motion
☆25Updated 8 months ago
renwang435 / video-ttt-release
Test-Time Training on Video Streams
☆64Updated 2 years ago
feizc / Vespa
Video Diffusion State Space Models
☆19Updated last year
HumanCentricModels / Awesome-Human-Centric-Foundation-Models
Repo for "Human-Centric Foundation Models: Perception, Generation and Agentic Modeling" (https://arxiv.org/abs/2502.08556)
☆51Updated 5 months ago
neu-vi / Diag-HOI
☆27Updated last year
TencentARC / Divot
Diffusion Powers Video Tokenizer for Comprehension and Generation (CVPR 2025)
☆74Updated 5 months ago
humansensinglab / ITI-GEN
[ICCV 2023 Oral, Best Paper Finalist] ITI-GEN: Inclusive Text-to-Image Generation
☆67Updated last year
weixi-feng / TC-Bench
☆24Updated last year
aim-uofa / GenDeF
☆39Updated last year
WarranWeng / ART.V
☆43Updated last year
princetonvisualai / merv
Unifying Specialized Visual Encoders for Video Language Models
☆21Updated 3 weeks ago
facebookresearch / EgoObjects
[ICCV2023] EgoObjects: A Large-Scale Egocentric Dataset for Fine-Grained Object Understanding
☆76Updated last year
NVlabs / QLIP
[arXiv: 2502.05178] QLIP: Text-Aligned Visual Tokenization Unifies Auto-Regressive Multimodal Understanding and Generation
☆76Updated 5 months ago
neu-vi / FleVRS
FleVRS: Towards Flexible Visual Relationship Segmentation, NeurIPS 2024
☆21Updated 8 months ago
IDEA-Research / DiffHOI
Official implementation of the paper "Boosting Human-Object Interaction Detection with Text-to-Image Diffusion Model"
☆63Updated 2 years ago
yisuanwang / DanceTog
DanceTogether! Identity-Preserving Multi-Person Interactive Video Generation
☆33Updated last week
j-min / IterInpaint
Code for IterInpaint model, presented in Diagnostic Benchmark and Iterative Inpainting for Layout-Guided Image Generation (CVPR 2024 work…
☆25Updated last year
Yui010206 / VEGGIE-VidEdit
[ICCV2025] VEGGIE: Instructional Editing and Reasoning Video Concepts with Grounded Generation
☆21Updated last month
hu-zijing / B2-DiffuRL
[CVPR 25] A framework named B^2-DiffuRL for RL-based diffusion model fine-tuning.
☆34Updated 4 months ago
kodenii / ORES
ORES: Open-vocabulary Responsible Visual Synthesis
☆13Updated last year
aspirinone / CATR.github.io
☆31Updated last year
fanglaosi / Skeleton-in-Context
[CVPR2024] Official implementation of the paper: Skeleton-in-Context: Unified Skeleton Sequence Modeling with In-Context Learning
☆41Updated last year
showlab / FQGAN
FQGAN: Factorized Visual Tokenization and Generation
☆52Updated 4 months ago
ethanhe42 / dds
DDS: Delta Denoising Score PyTorch implementation
☆19Updated last year
google-deepmind / wyd-benchmark
☆27Updated 5 months ago
shim0114 / SSM-Meets-Video-Diffusion-Models
☆48Updated 4 months ago
Jiawei-Yang / DeTok
Official PyTorch Implementation of "Latent Denoising Makes Good Visual Tokenizers"
☆113Updated 2 weeks ago
jialuli-luka / Video-MSG
Training-free Guidance in Text-to-Video Generation via Multimodal Planning and Structured Noise Initialization
☆21Updated 3 months ago
IDEA-Research / TOSS
[ICLR 2024] Official implementation of the paper "Toss: High-quality text-guided novel view synthesis from a single image"
☆22Updated last year