yzxing87 / Seeing-and-HearingLinks

[CVPR 2024] Seeing and Hearing: Open-domain Visual-Audio Generation with Diffusion Latent Aligners

☆148

Alternatives and similar repositories for Seeing-and-Hearing

Users that are interested in Seeing-and-Hearing are comparing it to the libraries listed below

Sorting:

lzhangbj / ASVA
[ECCV 2024 Oral] Audio-Synchronized Visual Animation
☆53Updated 10 months ago
BurakCanBiner / SonicDiffusion
☆34Updated 9 months ago
luosiallen / Diff-Foley
Diff-Foley: Synchronized Video-to-Audio Synthesis with Latent Diffusion Models
☆192Updated last year
litwellchi / MMTrail
[Arxiv 2024] Official code for MMTrail: A Multimodal Trailer Video Dataset with Language and Music Descriptions
☆30Updated 6 months ago
ZeyueT / VidMuse
☆86Updated 2 months ago
klingfoley / Kling-Foley
Kling-Foley: Multimodal Diffusion Transformer for High-Quality Video-to-Audio Generation
☆56Updated last month
schowdhury671 / melfusion
☆55Updated 10 months ago
ku-vai / TPoS
This repository is for The Power of Sound(TPoS): Audio Reactive Video Generation with Stable Diffusion (ICCV2023)
☆23Updated last year
ariesssxu / vta-ldm
☆60Updated last month
Minglu58 / TA2V
☆16Updated 7 months ago
X-LANCE / VQTalker
[AAAI 2025] VQTalker: Towards Multilingual Talking Avatars through Facial Motion Tokenization
☆50Updated 7 months ago
npurson / fid-metrics
A toolkit for computing Fréchet Inception Distance (FID) & Fréchet Video Distance (FVD) metrics.
☆34Updated 2 months ago
TIGER-AI-Lab / ConsistI2V
ConsistI2V: Enhancing Visual Consistency for Image-to-Video Generation [TMLR 2024]
☆252Updated last year
researchmm / MM-Diffusion
[CVPR'23] MM-Diffusion: Learning Multi-Modal Diffusion Models for Joint Audio and Video Generation
☆438Updated last year
XYPB / CondFoleyGen
Official PyTorch implementation of "Conditional Generation of Audio from Video via Foley Analogies".
☆88Updated last year
AILab-CVC / CV-VAE
[NeurIPS 2024] CV-VAE: A Compatible Video VAE for Latent Generative Video Models
☆277Updated 8 months ago
JingyuanYY / EmoGen
This is the official implementation of 2024 CVPR paper "EmoGen: Emotional Image Content Generation with Text-to-Image Diffusion Models".
☆86Updated 6 months ago
jacklishufan / OmniFlows
The official implementation of OmniFlow: Any-to-Any Generation with Multi-Modal Rectified Flows
☆82Updated last month
kaist-ami / Sound2Scene
☆35Updated 3 months ago
guyyariv / AudioToken
This repo contains the official PyTorch implementation of AudioToken: Adaptation of Text-Conditioned Diffusion Models for Audio-to-Image …
☆85Updated last year
JavisDiT / JavisDiT
Official implementation of "JavisDiT: Joint Audio-Video Diffusion Transformer with Hierarchical Spatio-Temporal Prior Synchronization"
☆79Updated 2 weeks ago
zh460045050 / VQGAN-LC
☆132Updated last year
jacklishufan / InstructAny2Pix
PyTorch implementation of InstructAny2Pix: Flexible Visual Editing via Multimodal Instruction Following
☆30Updated 6 months ago
Ground-A-Video / Ground-A-Video
Ground-A-Video: Zero-shot Grounded Video Editing using Text-to-image Diffusion Models (ICLR 2024)
☆139Updated last year
guyyariv / TempoTokens
This repo contains the official PyTorch implementation of: Diverse and Aligned Audio-to-Video Generation via Text-to-Video Model Adaptati…
☆124Updated 5 months ago
ali-vilab / FACM
FACM: Flow-Anchored Consistency Models
☆102Updated this week
YuqingWang1029 / TokenBridge
[ICCV2025] TokenBridge: Bridging Continuous and Discrete Tokens for Autoregressive Visual Generation. https://yuqingwang1029.github.io/To…
☆133Updated 2 weeks ago
causalfusion / causalfusion
☆177Updated 7 months ago
luping-liu / LongAlign
The official PyTorch implementation for Improving Long-Text Alignment for Text-to-Image Diffusion Models (LongAlign)
☆76Updated 3 months ago
JianhongBai / UniEdit
UniEdit: A Unified Tuning-Free Framework for Video Motion and Appearance Editing
☆110Updated 3 months ago