wangzhaode / llm-exportLinks

llm-export can export llm model to onnx.

☆333

Alternatives and similar repositories for llm-export

Users that are interested in llm-export are comparing it to the libraries listed below

Sorting:

luchangli03 / export_llama_to_onnx
export llama to onnx
☆137Updated 11 months ago
luchangli03 / onnxsim_large_model
simplify >2GB large onnx model
☆69Updated last year
tpoisonooo / llama.onnx
LLaMa/RWKV onnx models, quantization and testcase
☆368Updated 2 years ago
sophgo / LLM-TPU
Run generative AI models in sophgo BM1684X/BM1688
☆254Updated this week
ModelTC / LightCompress
[EMNLP 2024 & AAAI 2026] A powerful toolkit for compressing large models including LLM, VLM, and video generation models.
☆632Updated 2 weeks ago
OpenPPL / ppl.nn.llm
☆140Updated last year
modelscope / dash-infer
DashInfer is a native LLM inference engine aiming to deliver industry-leading performance atop various hardware architectures, including …
☆267Updated 3 months ago
OpenPPL / ppl.pmx
☆60Updated last year
Tlntin / qwen-ascend-llm
☆52Updated last year
OpenPPL / ppl.llm.serving
☆130Updated 11 months ago
torchpipe / torchpipe
Serving Inside Pytorch
☆165Updated 2 weeks ago
tsingmicro-toolchain / OnnxSlim
A Toolkit to Help Optimize Large Onnx Model
☆162Updated last month
MegEngine / InferLLM
a lightweight LLM model inference framework
☆744Updated last year
Tlntin / ChatGLM2-6B-TensorRT
☆90Updated 2 years ago
bytedance / ByteTransformer
optimized BERT transformer inference on NVIDIA GPU. https://arxiv.org/abs/2210.03052
☆477Updated last year
DataXujing / Qwen1.5-0.5b-chat-android
基于MNN-llm的安卓手机部署大语言模型：Qwen1.5-0.5B-Chat
☆86Updated last year
wangzhaode / mnn-stable-diffusion
stable diffusion using mnn
☆67Updated 2 years ago
zhaohb / fastapi_tritonserver
☆27Updated last year
TRT2022 / trtllm-llama
☢️ TensorRT 2023复赛——基于TensorRT-LLM的Llama模型推断加速优化
☆50Updated 2 years ago
Tlntin / trt2023
☆26Updated 2 years ago
PaddlePaddle / PaddleCustomDevice
PaddlePaddle custom device implementaion. (『飞桨』自定义硬件接入实现)
☆100Updated this week
pnnx / pnnx
PyTorch Neural Network eXchange
☆649Updated 2 weeks ago
harleyszhang / lite_llama
A light llama-like llm inference framework based on the triton kernel.
☆166Updated 2 months ago
Tencent / KsanaLLM
☆514Updated 2 weeks ago
bug-developer021 / YOLOV5_optimization_on_triton
Compare multiple optimization methods on triton to imporve model service performance
☆52Updated last year
dingyuqing05 / trt2022_wenet
☆71Updated 2 years ago
alibaba / rtp-llm
RTP-LLM: Alibaba's high-performance LLM inference engine for diverse applications.
☆934Updated this week
MegEngine / MegCC
MegCC是一个运行时超轻量，高效，移植简单的深度学习模型编译器
☆490Updated last year
inisis / OnnxLLM
Large Language Model Onnx Inference Framework
☆36Updated last week
ThanatosShinji / onnx-tool
A parser, editor and profiler tool for ONNX models.
☆469Updated last month