microsoft / microxcalingLinks

PyTorch emulation library for Microscaling (MX)-compatible data formats

☆262

Alternatives and similar repositories for microxcaling

Users that are interested in microxcaling are comparing it to the libraries listed below

Sorting:

Qualcomm-AI-research / FP8-quantization
☆153Updated 2 years ago
IntelLabs / FP8-Emulation-Toolkit
PyTorch extension for emulating FP8 data formats on standard FP32 Xeon/GPU hardware.
☆110Updated 8 months ago
Guangxuan-Xiao / torch-int
This repository contains integer operators on GPUs for PyTorch.
☆208Updated last year
sunlex0717 / DissectingTensorCores
☆106Updated last year
UDC-GAC / venom
A Vectorized N:M Format for Unleashing the Power of Sparse Tensor Cores
☆52Updated last year
microsoft / SparTA
☆150Updated last year
ColfaxResearch / cutlass-kernels
☆227Updated last year
clevercool / ANT-Quantization
☆107Updated last year
microsoft / triton-shared
Shared Middle-Layer for Triton Compilation
☆260Updated this week
KnowingNothing / MatmulTutorial
A Easy-to-understand TensorOp Matmul Tutorial
☆369Updated 10 months ago
naver-aics / lut-gemm
☆64Updated last year
pku-liang / AMOS
Automatic Mapping Generation, Verification, and Exploration for ISA-based Spatial Accelerators
☆114Updated 2 years ago
pku-liang / FlexTensor
Automatic Schedule Exploration and Optimization Framework for Tensor Computations
☆177Updated 3 years ago
usyd-fsalab / fp6_llm
An efficient GPU support for LLM inference with x-bit quantization (e.g. FP6,FP5).
☆260Updated 2 weeks ago
microsoft / BitBLAS
BitBLAS is a library to support mixed-precision matrix multiplications, especially for quantized LLM deployment.
☆654Updated 3 weeks ago
PrincetonUniversity / LLMCompass
☆172Updated last year
uwsampl / SparseTIR
SparseTIR: Sparse Tensor Compiler for Deep Learning
☆137Updated 2 years ago
Dao-AILab / fast-hadamard-transform
Fast Hadamard transform in CUDA, with a PyTorch interface
☆213Updated last year
yifuwang / symm-mem-recipes
☆101Updated 7 months ago
ColfaxResearch / cfx-article-src
☆127Updated 2 months ago
sjfeng1999 / gpu-arch-microbenchmark
Dissecting NVIDIA GPU Architecture
☆103Updated 3 years ago
wangsiping97 / FastGEMV
High-speed GEMV kernels, at most 2.7x speedup compared to pytorch baseline.
☆113Updated last year
ChengZhang-98 / llm-mixed-q
Official implementation of EMNLP'23 paper "Revisiting Block-based Quantisation: What is Important for Sub-8-bit LLM Inference?"
☆23Updated last year
ParCIS / Magicube
Magicube is a high-performance library for quantized sparse matrix operations (SpMM and SDDMM) of deep learning on Tensor Cores.
☆89Updated 2 years ago
NVIDIA / TensorRT-Incubator
Experimental projects related to TensorRT
☆108Updated this week
DD-DuDa / Cute-Learning
Examples of CUDA implementations by Cutlass CuTe
☆214Updated last month
UDC-GAC / openCNN
A Winograd Minimal Filter Implementation in CUDA
☆25Updated 3 years ago
aojunzz / NM-sparsity
☆236Updated 2 years ago
daadaada / turingas
Assembler for NVIDIA Volta and Turing GPUs
☆226Updated 3 years ago
leimao / CUDA-GEMM-Optimization
CUDA Matrix Multiplication Optimization
☆213Updated last year