flageval-baai / FlagEvalLinks

FlagEval is an evaluation toolkit for AI large foundation models.

☆339

Alternatives and similar repositories for FlagEval

Users that are interested in FlagEval are comparing it to the libraries listed below

Sorting:

THUDM / AlignBench
大模型多维度中文对齐评测基准 (ACL 2024)
☆422Updated last month
FlagAI-Open / Aquila2
The official repo of Aquila2 series proposed by BAAI, including pretrained & chat large language models.
☆446Updated last year
OpenLMLab / GAOKAO-Bench
GAOKAO-Bench is an evaluation framework that utilizes GAOKAO questions as a dataset to evaluate large language models.
☆696Updated 10 months ago
X-PLUG / CValues
面向中文大模型价值观的评估与对齐研究
☆544Updated 2 years ago
thu-coai / BPO
☆330Updated last year
haonan-li / CMMLU
CMMLU: Measuring massive multitask language understanding in Chinese
☆795Updated 11 months ago
CLUEbenchmark / SuperCLUE-Agent
SuperCLUE-Agent: 基于中文原生任务的Agent智能体核心能力测评基准
☆94Updated 2 years ago
OpenLMLab / OpenChineseLLaMA
Chinese large language model base generated through incremental pre-training on Chinese datasets
☆239Updated 2 years ago
FlagOpen / FlagData
☆358Updated last year
twang2218 / vocab-coverage
语言模型中文认知能力分析
☆236Updated 2 years ago
yangjianxin1 / LLMPruner
☆313Updated 2 years ago
XueFuzhao / InstructionWild
☆459Updated last year
X-PLUG / ChatPLUG
A Chinese Open-Domain Dialogue System
☆326Updated 2 years ago
X-PLUG / Multi-LLM-Agent
☆232Updated last year
AtomEcho / AtomBulb
旨在对当前主流LLM进行一个直观、具体、标准的评测
☆95Updated 2 years ago
OpenLLMAI / OpenLLMWiki
OpenLLMWiki: Docs of OpenLLMAI. Survey, reproduction and domain/task adaptation of open source chatgpt alternatives/implementations. PiXi…
☆262Updated 11 months ago
chaoswork / sft_datasets
开源SFT数据集整理,随时补充
☆559Updated 2 years ago
GAIR-NLP / abel
SOTA Math Opensource LLM
☆331Updated last year
jianzhnie / LLamaTuner
Easy and Efficient Finetuning LLMs. (Supported LLama, LLama2, LLama3, Qwen, Baichuan, GLM , Falcon) 大模型高效量化训练+部署.
☆619Updated 10 months ago
CASIA-LM / ChineseWebText
☆181Updated 2 years ago
WangRongsheng / Aurora
The official codes for "Aurora: Activating chinese chat capability for Mixtral-8x7B sparse Mixture-of-Experts through Instruction-Tuning"
☆266Updated last year
kwai / KwaiYii
☆230Updated 2 years ago
FreedomIntelligence / InstructionZoo
☆281Updated last year
yangjianxin1 / Firefly-LLaMA2-Chinese
Firefly中文LLaMA-2大模型，支持增量预训练Baichuan2、Llama2、Llama、Falcon、Qwen、Baichuan、InternLM、Bloom等大模型
☆414Updated 2 years ago
OpenMOSS / CoLLiE
Collaborative Training of Large Language Models in an Efficient Way
☆416Updated last year
tianyi-lab / Cherry_LLM
[NAACL'24] Self-data filtering of LLM instruction-tuning data using a novel perplexity-based difficulty score, without using any other mo…
☆408Updated 5 months ago
onejune2018 / Awesome-LLM-Eval
Awesome-LLM-Eval: a curated list of tools, datasets/benchmark, demos, leaderboard, papers, docs and models, mainly for Evaluation on LLMs…
☆582Updated last week
GPT-Fathom / GPT-Fathom
GPT-Fathom is an open-source and reproducible LLM evaluation suite, benchmarking 10+ leading open-source and closed-source LLMs as well a…
☆346Updated last year
mindspore-lab / mindformers
☆178Updated this week
Chinese-Tiny-LLM / Chinese-Tiny-LLM
☆235Updated last year