CyberCommy / baidu-wiki-500wLinks
百度百科 500 万数据集
☆35Updated last year
Alternatives and similar repositories for baidu-wiki-500w
Users that are interested in baidu-wiki-500w are comparing it to the libraries listed below
Sorting:
- 图书名语料库。含部分电影、游戏名称。☆71Updated last year
- 百度QA100万数据集☆47Updated last year
- ☆21Updated 3 years ago
- 医疗语料库。医疗机构名语料库。药品本位码。☆69Updated last year
- A Multi-Modal Dataset of Chinese Governmental Docunments☆34Updated 4 years ago
- 中文、分词、词表、核心词典、事件词表、停用词、敏感词、问答、问答数据、知识图谱、文本语料。☆164Updated 3 years ago
- The most complete Chinese dictionaries ever. 史上最全的中文分类词库,包含地理信息、电子游戏、工程应用、农林牧渔、人文科学、社会科学、生活百科、医学医药、艺术设计、娱乐休闲、运动休闲、自然科学等12大类的超级字典。☆78Updated 5 years ago
- 京东/淘宝客服对话数据公开,seq2seq生成模型设计对话系统获第二名☆44Updated 2 years ago
- 基于Qwen2模型进行通用信息抽取【实体/关系/事件抽取】☆31Updated 10 months ago
- 中文新词发现算法PNW算法,可以识别任意长度的新词。☆15Updated last year
- Tracking the hot Github repos and update daily 每天自动追踪Github热门项目☆49Updated this week
- ☆23Updated last year
- 使用Simhash对海量文本进行去重☆12Updated 7 years ago
- Sentence-Transformers Information Retrieval example on Chinese☆29Updated last year
- 大语言模型ChatGLM-6B为基座,接入文档阅读功能进行实时问答,可上传txt/docx/pdf多种文件类型。☆41Updated last year
- 中文心理问答数据集☆75Updated 5 years ago
- 在中文开源大模型的基础上进行定制化的微调,拥有自己专属的语言模型。☆47Updated 2 years ago
- ZhidaoChatbot, a chatbot that can be an expert on the common questions like why,how,when,who,what based on the online question-answer web…☆42Updated 6 years ago
- 智能营销文案生成☆35Updated last month
- NER实体识别模型,快速高效简单一键部署docker部署调用模型。能识别:地址、人名、机构名实体。☆36Updated last year
- 🤖️ 聊天机器人——夫子的「自然语言理解」模块☆90Updated 2 years ago
- 天池比赛作品整理。实现从pdf中提取出姓名、出生年月、性别、电话、最高学历、籍贯、落户市县、政治面貌、毕业院校、工作单位、工作内容、职务、项目名称、项目责任、学位、毕业时间、工作时间、项目时间共18个字段。☆114Updated 10 months ago
- 个人实现的基于Django与semantic-ui的语言计算实验平台, 功能包括自然语言综合处理,词语计算,社会热点计算,人物计算,文学画像,职位画像等社会计算功能☆29Updated 7 years ago
- 纯c++的全平台llm加速库,支持python调用,支持baichuan, glm, llama, moss基座,手机端流畅运行chatglm-6B级模型单卡可达10000+token / s,☆45Updated last year
- Python3 package for Chinese/English OCR, with paddleocr-v4 onnx model(~14MB). 基于ppocr-v4-onnx模型推理,可实现 CPU 上毫秒级的 OCR 精准预测,通用场景中英文OCR达到开源SO…☆82Updated 4 months ago
- Ziya-LLaMA-13B是IDEA基于LLaMa的130亿参数的大规模预训练模型,具备翻译,编程,文本分类,信息抽取,摘要,文案生成,常识问答和数学计算等能力。目前姜子牙通用大模型已完成大规模预训练、多任务有监督微调和人类反馈学习三阶段的训练过程。本文主要用于Ziya-…☆45Updated last year
- 手动实现Elasticsearch的倒排索引以及BM25算法☆47Updated 6 years ago
- 中文纠错☆92Updated 3 years ago
- 基于qlora对baichuan-7B大模型进行指令微调。☆23Updated last year
- 专业领域词库构建/中文新词发现/专业词库发现☆29Updated 5 years ago