shibing624 / similarities
Similarities: a toolkit for similarity calculation and semantic search. 相似度计算、匹配搜索工具包,支持亿级数据文搜文、文搜图、图搜图,python3开发,开箱即用。
☆738Updated last week
Related projects: ⓘ
- unified embedding model☆813Updated last year
- TextGen: Implementation of Text Generation models, include LLaMA, BLOOM, GPT2, BART, T5, SongNet and so on. 文本生成模型,实现了包括LLaMA,ChatGLM,BLO…☆924Updated last week
- PromptCLUE, 全中文任务支持零样本学习模型☆650Updated last year
- PaddleNLP UIE模型的PyTorch版实现☆579Updated last year
- 中文CLIP预训练模型☆382Updated last year
- The online version is temporarily unavailable because we cannot afford the key. You can clone and run it locally. Note: we set defaul ope…☆778Updated 3 months ago
- 一个简单快速的分词、命名实体识别工具☆520Updated 2 months ago
- An Open-sourced Knowledgable Large Language Model Framework.☆1,199Updated 2 months ago
- Chat-甄嬛是利用《甄嬛传》剧本中所有关于甄嬛的台词和语句,基于ChatGLM2进行LoRA微调得到的模仿甄嬛语气的聊天语言模型。☆479Updated 3 weeks ago
- 多模态中文LLaMA&Alpaca大语言模型(VisualCLA)☆408Updated last year
- Tuning LLMs with no tears💦; Sample Design Engineering (SDE) for more efficient downstream-tuning.☆957Updated 4 months ago
- text2vec, text to vector. 文本向量表征工具,把文本转化为向量矩阵,实现了Word2Vec、RankBM25、Sentence-BERT、CoSENT等文本表征、文本相似度计算模型,开箱即用。☆4,395Updated last week
- 骆驼:A Chinese finetuned instruction LLaMA. Developed by 陈启源 @ 华中师范大学 & 李鲁鲁 @ 商汤科技 & 冷子昂 @ 商汤科技☆708Updated last year
- 人工精调的中文对话数据集和一段chatglm的微调代码☆1,138Updated 4 months ago
- ChatGLM2-6B 全参数微调,支持多轮对话的高效微调。☆395Updated last year
- 聚宝盆(Cornucopia): 中文金融系列开源可商用大模型,并提供一套高效轻量化的垂直领域LLM训练框架(Pretraining、SFT、RLHF、Quantize等)☆582Updated last year
- Firefly中文LLaMA-2大模型,支持增量预训练Baichuan2、Llama2、Llama、Falcon、Qwen、Baichuan、InternLM、Bloom等大模型☆396Updated 11 months ago
- 中文法律LLaMA (LLaMA for Chinese legel domain)☆830Updated 3 weeks ago
- LexiLaw - 中文法律大模型☆669Updated last year
- Chinese medical dialogue data 中文医疗对话数据集☆1,158Updated last year
- 中文对话0.2B小模型(ChatLM-Chinese-0.2B),开源所有数据集来源、数据清洗、tokenizer训练、模型预训练、SFT指令微调、RLHF优化等流程的全部代码。支持下游任务sft微调,给出三元组信息抽取微调示例。☆1,134Updated 5 months ago
- MuCGEC中文纠错数据集及文本纠错SOTA模型开源;Code & Data for our NAACL 2022 Paper "MuCGEC: a Multi-Reference Multi-Source Evaluation Dataset for Chinese Gr…☆489Updated last year
- 基于ChatGLM-6B、ChatGLM2-6B、ChatGLM3-6B模型,进行下游具体任务微调,涉及Freeze、Lora、P-tuning、全参微调等☆2,628Updated 9 months ago
- 本项目旨在收集开源的表格智能任务数据集(比如表格问答、表格-文本生成等),将原始数据整理为指令微调格式的数据并微调LLM,进而增强LLM对于表格数据的理解,最终构建出专门面向表格智能任务的大型语言模型。☆411Updated 4 months ago
- 为ChatGLM设计的微调数据集生成工具,速来制作自己的猫娘。☆589Updated 6 months ago
- 📝 An Awesome Collection of Chinese Legal Dataset and Relevant Resources. 致力于收集全面的中文法律数据源☆742Updated last year
- [COLING 2022] CSL: A Large-scale Chinese Scientific Literature Dataset 中文科学文献数据集☆552Updated last year
- 使用peft库,对chatGLM-6B/chatGLM2-6B实现4bit的QLoRA高效微调,并做lora model和base model的merge及4bit的量化(quantize)。☆349Updated last year
- ChatGLM-6B 指令学习|指令数据|Instruct☆655Updated last year
- 雅意信息抽取大模型:在百万级人工构造的高质量信息抽取数据上进行指令微调,由中科闻歌算法团队研发。 (Repo for YAYI Unified Information Extraction Model)☆255Updated last month