CyberCommy / baidu-wiki-500w
百度百科 500 万数据集
☆34Updated last year
Alternatives and similar repositories for baidu-wiki-500w:
Users that are interested in baidu-wiki-500w are comparing it to the libraries listed below
- 中文、分词、词表、核心词典、事件词表、停用词、敏感词、问答、问答数据、知识图谱、文本语料。☆159Updated 3 years ago
- 中文新词发现算法PNW算法,可以识别任意长度的新词。☆15Updated last year
- 手动实现Elasticsearch的倒排索引以及BM25算法☆46Updated 6 years ago
- 基于Qwen2模型进行通用信息抽取【实体/关系/事件抽取】☆30Updated 8 months ago
- 图书名语料库。含部分电影、游戏名称。☆71Updated last year
- A convenient Chinese word segmentation tool 简便中文分词器☆46Updated 2 months ago
- The most complete Chinese dictionaries ever. 史上最全的中文分类词库,包含地理信息、电子游戏、工程应用、农林牧渔、人文科学、社会科学、生活百科、医学医药、艺术设计、娱乐休闲、运动休闲、自然科学等12大类的超级字典。☆76Updated 4 years ago
- ☆20Updated 3 years ago
- 金庸小说人物关系图谱构建☆61Updated 5 years ago
- A Python toolkit for file processing, text cleaning and data splitting. 文件处理,文本清洗和数据划分的python工具包。☆32Updated 2 years ago
- 医疗语料库。医疗机构名语料库。药品本位码。☆69Updated last year
- 打造人人都会的NLP,开源不易,记得star哦☆101Updated last year
- 在中文开源大模型的基础上进行定制化的微调,拥有自己专属的语言模型。☆47Updated last year
- 专业领域词库构建/中文新词发现/专业词 库发现☆29Updated 5 years ago
- A Multi-Modal Dataset of Chinese Governmental Docunments☆31Updated 4 years ago
- 中文纠错☆92Updated 3 years ago
- 京东/淘宝客服对话数据公开,seq2seq生成模型设计对话系统获第二名☆42Updated 2 years ago
- 百度QA100万数据集☆47Updated last year
- Python3 package for Chinese/English OCR, with paddleocr-v4 onnx model(~14MB). 基于ppocr-v4-onnx模型推理,可实现 CPU 上毫秒级的 OCR 精准预测,通用场景中英文OCR达到开源SO…☆65Updated 2 months ago
- 发现新词 无监督词库生成 医学词库生成 发现未登录词☆77Updated 4 years ago
- 知识检索+ChatGPT,实现了医疗知识检索增强的问诊系统☆40Updated last year
- 天池比赛作品整理。实现从pdf中提取出姓名、出生年月、性别、电话、最高学历、籍贯、落户市县、政治面貌、毕业院校、工作单位、工作内容、职务、项目名称、项目责任、学 位、毕业时间、工作时间、项目时间共18个字段。☆112Updated 8 months ago
- 语义理解/口语理解,项目包含有词法分析:中文分词、词性标注、命名实体识别;口语理解:领域分类、槽填充、意图识别。☆180Updated 6 years ago
- 基于火力发电厂知识问答库的检索式问答系统/问答系统/对话系统☆50Updated 4 years ago
- 中国知网论文数据集,24000+篇论文信息。自然语言处理、信息管理、文本分类、文本摘要、关键词抽取、研究热点分析、数据挖掘、数据分析☆48Updated 3 weeks ago
- 电商多轮对话智能机器人☆57Updated 5 years ago
- 一个微博毒舌AI,疯狂 diss 微博博主☆12Updated 2 months ago
- An exploration for Eventline (important news Rank organized by pulic time),针对某一事件话题下的新闻报道集合,通过使用docrank算法,对新闻报道进行重要性识别,并通过新闻报道时间挑选出时间线上重要…☆219Updated 6 years ago
- Event monitor based on online news corpus including event storyline and analysis,基于给定事件关键词,采集事件资讯,对事件进行挖掘和分析。☆152Updated 6 years ago
- RelExt: A Tool for Relation Extraction from Text. 文本实体关系抽取工具。☆49Updated 2 years ago