liwenju0 / cutword
一个简单快速的分词、命名实体识别工具
☆578Updated 3 weeks ago
Alternatives and similar repositories for cutword:
Users that are interested in cutword are comparing it to the libraries listed below
- ChatPilot: Chat Agent Web UI,实现Chat对话前端,支持Google搜索、文件网址对话(RAG)、代码解释器功能,复现了Kimi Chat(文件,拖进来;网址,发出来)。☆558Updated 3 months ago
- Phi2-Chinese-0.2B 从0开始训练自己的Phi2中文小模型,支持接入langchain加载本地知识库做检索增强生成RAG。Training your own Phi2 small chat model from scratch.☆548Updated 9 months ago
- unified embedding model☆854Updated last year
- 中文Mixtral-8x7B(Chinese-Mixtral-8x7B)☆650Updated 8 months ago
- ChatGLM2-6B 全参数微调,支持多轮对话的高效微调。☆398Updated last year
- 雅意信息抽取大模型:在百万级人工构造的高质量信息抽取数据上进行指令微调,由中科闻歌算法团队研发。 (Repo for YAYI Unified Information Extraction Model)☆300Updated 8 months ago
- 中文Mixtral混合专家大模型(Chinese Mixtral MoE LLMs)☆604Updated 11 months ago
- 360LayoutAnaylsis, a series Document Analysis Models and Datasets deleveped by 360 AI Research Institute☆279Updated 7 months ago
- 语言模型中文认知能力分析☆236Updated last year
- 中文法律LLaMA (LLaMA for Chinese legel domain)☆932Updated 7 months ago
- 本项目旨在收集开源的表格智能任务数据集(比如表格问答、表格-文本生成等),将原始数据整理为指令微调格式的数据并微调LLM,进而增强LLM对于表格数据的理解,最终构建出专门面向表格智能任务的大型语言模型。☆563Updated last year
- DomainWordsDict, Chinese words dict that contains more than 68 domains, which can be used as text classification、knowledge enhance task。…☆697Updated 3 years ago
- LexiLaw - 中文法律大模型☆851Updated last month
- Alpaca Chinese Dataset -- 中文指令微调数据集☆199Updated 6 months ago
- 夫子•明察司法大模型是由山东大学、浪潮云、中国政法大学联合研发,以 ChatGLM 为大模型底座,基于海量中文无监督司法语料与有监督司法微调数据训练的中文司法大模型。该模型支持法条检索、案例分析、三段论推理判决以及司法对话等功能,旨在为用户提供全方位、高精准的法律咨询与解答…☆327Updated 6 months ago
- 中文对话0.2B小模型(ChatLM-Chinese-0.2B),开源所有数据集来源、数据清洗、tokenizer训练、模型预训练、SFT指令微调、RLHF优化等流程的全部代码。支持下游任务sft微调,给出三元组信息抽取微调示例。☆1,515Updated last year
- 基于开源embedding模型的中文向量效果测试☆139Updated last year
- 开源SFT数据集整理,随时补充☆508Updated last year
- 中文拼写错误和语法错误纠正☆115Updated 3 weeks ago
- ChatGLM-6B 指令学习|指令数据|Instruct☆654Updated 2 years ago
- 📝 An Awesome Collection of Chinese Legal Dataset and Relevant Resources. 致力于收集全面的中文法律数据源☆859Updated last year
- 活字通用大模型☆387Updated 7 months ago
- Firefly中文LLaMA-2大模型,支持增量预训练Baichuan2、Llama2、Llama、Falcon、Qwen、Baichuan、InternLM、Bloom等大模型☆410Updated last year
- chatglm多gpu用deepspeed和☆409Updated 9 months ago
- A Python Package to Access World-Class Generative Models☆128Updated 10 months ago
- 聚宝盆(Cornucopia): 中文金融系列开源可商用大模型,并提供一套高效轻量化的垂直领域LLM训练框架(Pretraining、SFT、RLHF、Quantize等)☆626Updated last year
- 更纯粹、更高压缩率的Tokenizer☆475Updated 4 months ago
- ☆322Updated 10 months ago
- 探索中文instruct数据在ChatGLM, LLaMA上的微调表现☆390Updated 2 years ago
- Analysis of Chinese and English layouts 中英文版面分析☆201Updated 3 weeks ago