CyberCommy / baidu-wiki-500wLinks
百度百科 500 万数据集
☆37Updated last year
Alternatives and similar repositories for baidu-wiki-500w
Users that are interested in baidu-wiki-500w are comparing it to the libraries listed below
Sorting:
- 医疗语料库。医疗机构名语料库。药品本位码。☆69Updated last year
- 百度QA100万数据集☆47Updated last year
- 中文新词发现算法PNW算法,可以识别任意长度的新词。☆15Updated last year
- 中文纠错☆92Updated 3 years ago
- ☆37Updated 6 years ago
- NER实体识别模型,快速高效简单一键部署docker部署调用模型。能识别:地址、人名、机构名实体。☆36Updated last year
- 智能营销文案生成☆35Updated last month
- 在中文开源大模型的基础上进行定制化的微调,拥有自己专属的语言模型。☆47Updated 2 years ago
- 中文、分词、词表、核心词典、事件词表、停用词、敏感词、问答、问答数据、知识图谱、文本语料。☆165Updated 3 years ago
- 图书名语料库。含部分电影、游戏名称。☆72Updated last year
- 从jieba分词到BERT-wwm,一步步带你进入中文NLP的世界☆15Updated 2 years ago
- 中文文本改写☆20Updated 4 years ago
- ☆23Updated last year
- 中文心理问答数据集☆76Updated 5 years ago
- 中国知网论文数据集,24000+篇论文信息。自然语言处理、信息管理、文本分类、文本摘要、关键词抽取、研究热点分析、数据挖掘、数据分析☆52Updated 3 months ago
- 纯c++的全平台llm加速库,支持python调用,支持baichuan, glm, llama, moss基座,手机端流畅运行chatglm-6B级模型单卡可达10000+token / s,☆45Updated last year
- 首个llama2 13b 中文版模型 (Base + 中文对话SFT,实现流畅多轮人机自然语言交互)☆90Updated last year
- Datawhale自研数据标注工具☆68Updated last year
- A Python toolkit for file processing, text cleaning and data splitting. 文件处理,文本清洗和数据划分的python工具包。☆32Updated 2 years ago
- The complete training code of the open-source high-performance Llama model, including the full process from pre-training to RLHF.☆69Updated 2 years ago
- 基于Qwen2 模型进行通用信息抽取【实体/关系/事件抽取】☆31Updated 11 months ago
- ☆21Updated 3 years ago
- 大语言模型训练和服务调研☆37Updated last year
- 利用LLM+敏感词库,来自动判别是否涉及敏感词。☆124Updated last year
- 基于 LoRA 和 P-Tuning v2 的 ChatGLM-6B 高效参数微调☆55Updated 2 years ago
- 专业领域词库构建/中文新词发现/专业词库发现☆29Updated 5 years ago
- Python3 package for Chinese/English OCR, with paddleocr-v4 onnx model(~14MB). 基于ppocr-v4-onnx模型推理,可实现 CPU 上毫秒级的 OCR 精准预测,通用场景中英文OCR达到开源SO…☆87Updated 5 months ago
- 打造人人都会的NLP,开源不易,记得star哦☆101Updated 2 years ago
- Qimen表示的是奇门遁甲之术,用于抽取各种实体的工具。☆29Updated 5 years ago
- ☆55Updated 4 years ago