jiangnanboy / llm_corpus_quality
大模型预训练中文语料清洗及质量评估 Large model pre-training corpus cleaning
☆28Updated last month
Related projects: ⓘ
- ChatGLM2-6B微调, SFT/LoRA, instruction finetune☆107Updated last year
- chatglm-6B for tools application using langchain☆76Updated last year
- 通用版面分析 | 中文文档解析 |Document Layout Analysis | layout paser☆41Updated 3 months ago
- 大语言模型指令调优工具(支持 FlashAttention)☆162Updated 8 months ago
- 用于AIOPS24挑战赛的Demo☆53Updated 2 months ago
- 供AI训练的中文数据集(持续更新。。。)与AI公司图谱,目前的数据集餐饮行业8000问 ,百度知道,Alpaca中文数据集,计算机领域数据集,Vicuna数据集,RedPajama数据集,Wikipedia中文词条数据集,网站论坛问答数据集☆50Updated 9 months ago
- 阿里通义千问(Qwen-7B-Chat/Qwen-7B), 微调/LORA/推理☆63Updated 4 months ago
- [ACL 2024] IEPile: A Large-Scale Information Extraction Corpus☆154Updated 2 months ago
- 基于BM25、BGE、OpenAI Embedding检索算法的检索增强生成RAG示例,支持OpenAI风格的大模型服务☆81Updated 2 months ago
- 中文原生检索增强生成测评基准☆92Updated 5 months ago
- ☆59Updated 10 months ago
- (1)弹性区间标准化的旋转位置词嵌入编码器+peft LORA量化训练,提高万级tokens性能支持。(2)证据理论解释学习,提升模型的复杂逻辑推理能力(3)兼容alpaca数据格式。☆45Updated last year
- ☆84Updated this week
- 使用qlora对中文大语言模型进行微调,包含ChatGLM、Chinese-LLaMA-Alpaca、BELLE☆86Updated last year
- qwen-7b and qwen-14b finetuning☆82Updated 4 months ago
- 中文世界的NLP自动标注开源工具, 简单样本,交给LabelFast。☆52Updated 7 months ago
- ChatGPT WebUI using gradio. 给 LLM 对话和检索知识问答RAG提供一个简单好用的Web UI界面☆84Updated 3 weeks ago
- LLM for NER☆47Updated last month
- 雅意信息抽取大模型:在百万级人工构造的高质量信息抽取数据上进行指令微调,由中科闻歌算法团队研发。 (Repo for YAYI Unified Information Extraction Model)☆255Updated last month
- 快速入门RAG与私有化部署☆114Updated 5 months ago
- 该项目是为了使用layoutlmv3针对中文图片训练和推理。 其中主要解决三个问题: 1.数据标准化成可以的训练数据集格式 2.layoutlmv3-base-chinese 分词修改 2.超过512长度的文本切分和滑窗操作☆27Updated 2 weeks ago
- llama,chatglm 等模型的微调☆79Updated 2 months ago
- Generate dialog data from documents using LLM like ChatGLM2 or ChatGPT;利用ChatGLM2,ChatGPT等大模型根据文档生成对话数据集☆135Updated 10 months ago
- baichuan and baichuan2 finetuning and alpaca finetuning☆32Updated 4 months ago
- PDF解析(文字,章节,表格,图片,参考),基于大模型(ChatGLM2-6B, RWKV)+langchain+streamlit的PDF问答,摘要,信息抽取☆144Updated 11 months ago
- 阿里天池: 2023全球智能汽车AI挑战赛——赛道一:AI大模型检索问答 baseline 80+☆63Updated 8 months ago
- The LLM of NL2GQL with NebulaGraph or Neo4j☆83Updated 9 months ago
- kbqa,langchain,large langauge model, chatgpt☆78Updated last year
- baichuan LLM surpervised finetune by lora☆57Updated last year
- Llama2-SFT, Llama-2-7B微调(transformers)/LORA(peft)/推理☆20Updated last year