Agora-Lab-AI / BitNet-a4.8

BitNet a4.8 Implementation in one file of pytorch

☆13

Alternatives and similar repositories for BitNet-a4.8:

Users that are interested in BitNet-a4.8 are comparing it to the libraries listed below

GATECH-EIC / ShiftAddLLM
ShiftAddLLM: Accelerating Pretrained LLMs via Post-Training Multiplication-Less Reparameterization
☆105Updated 5 months ago
rejunity / tiny-asic-1_58bit-matrix-mul
Tiny ASIC implementation for "The Era of 1-bit LLMs All Large Language Models are in 1.58 Bits" matrix multiplication unit
☆130Updated 11 months ago
Aaronhuang-778 / BiLLM
[ICML 2024] BiLLM: Pushing the Limit of Post-Training Quantization for LLMs
☆212Updated 2 months ago
astramind-ai / BitMat
An efficent implementation of the method proposed in "The Era of 1-bit LLMs"
☆155Updated 5 months ago
facebookresearch / Ternary_Binary_Transformer
ACL 2023
☆39Updated last year
LiqunMa / FBI-LLM
FBI-LLM: Scaling Up Fully Binarized LLMs from Scratch via Autoregressive Distillation
☆47Updated 8 months ago
hahnyuan / PB-LLM
PB-LLM: Partially Binarized Large Language Models
☆152Updated last year
chu-tianxiang / QuIP-for-all
QuIP quantization
☆52Updated last year
GreenBitAI / green-bit-llm
A toolkit for fine-tuning, inferencing, and evaluating GreenBitAI's LLMs.
☆81Updated 3 weeks ago
Zyphra / tree_attention
Tree Attention: Topology-aware Decoding for Long-Context Attention on GPU clusters
☆125Updated 3 months ago
Cornell-RelaxML / qtip
☆113Updated last week
IST-DASLab / QIGen
Repository for CPU Kernel Generation for LLM Inference
☆25Updated last year
AutonomicPerfectionist / PipeInfer
PipeInfer: Accelerating LLM Inference using Asynchronous Pipelined Speculation
☆28Updated 4 months ago
GreenBitAI / low_bit_llama
Advanced Ultra-Low Bitrate Compression Techniques for the LLaMA Family of LLMs
☆111Updated last year
OpenGVLab / EfficientQAT
EfficientQAT: Efficient Quantization-Aware Training for Large Language Models
☆260Updated 5 months ago
samchaineau / llm_slerp_generation
Repo hosting codes and materials related to speeding LLMs' inference using token merging.
☆35Updated 11 months ago
sharc-lab / Edge-MoE
Edge-MoE: Memory-Efficient Multi-Task Vision Transformer Architecture with Task-level Sparsity via Mixture-of-Experts
☆113Updated 10 months ago
Aaronhuang-778 / SliM-LLM
SliM-LLM: Salience-Driven Mixed-Precision Quantization for Large Language Models
☆28Updated 7 months ago
HLSTransform / submission
☆87Updated last year
mit-han-lab / spatten
[HPCA'21] SpAtten: Efficient Sparse Attention Architecture with Cascade Token and Head Pruning
☆83Updated 7 months ago
IntelLabs / Hardware-Aware-Automated-Machine-Learning
☆47Updated 2 weeks ago
Entropy-xcy / bitnet158
☆68Updated last year
lfsszd / CS-Drafting
Cascade Speculative Drafting
☆29Updated last year
eth-easl / deltazip
Compression for Foundation Models
☆30Updated last week
xuyuzhuang11 / OneBit
The homepage of OneBit model quantization framework.
☆175Updated last month
jlamprou / Infini-Attention
Efficient Infinite Context Transformers with Infini-attention Pytorch Implementation + QwenMoE Implementation + Training Script + 1M cont…
☆81Updated 10 months ago
GATECH-EIC / mg-verilog
☆40Updated 5 months ago
ScalingIntelligence / CATS
☆24Updated 4 months ago
NolanoOrg / SpectraSuite
☆46Updated 8 months ago
yynil / RWKVInside
☆32Updated last week