CyberCommy / baidu-wiki-500w
百度百科 500 万数据集
☆29Updated 9 months ago
Related projects: ⓘ
- 百度QA100万数据集☆48Updated 9 months ago
- pinyintokenizer, 拼音分词器,将连续的拼音切分为单字拼音列表。☆26Updated 8 months ago
- 图书名语料库。含部分电影、 游戏名称。☆66Updated 5 months ago
- ☆33Updated this week
- The most complete Chinese dictionaries ever. 史上最全的中文分类词库,包含地理信息、电子游戏、工程应用、农林牧渔、人文科学、社会科学、生活百科、医学医药、艺术设计、娱乐休闲、运动休闲、自然科学等12大类的超级字典。☆68Updated 4 years ago
- 中文新词发现算法PNW算法,可以识别任意长度的新词。☆15Updated last year
- 智能营销文案生成☆34Updated 3 years ago
- 从jieba分词到BERT-wwm,一步步带你进入中文NLP的世界☆13Updated 2 years ago
- ☆20Updated 2 years ago
- 医疗语料库。医疗机构名语料库。药品本位码。☆58Updated 5 months ago
- 中文、分词、词表、核心词典、事件词表、停用词、敏感词、问答、问答数据、知识图谱、文本语料。☆144Updated 2 years ago
- 中文纠错☆89Updated 2 years ago
- 对dbpedia和百科采集而来的语料进行清洗,得到合适的三元组☆14Updated 7 years ago
- 专业领域词库构建/中文新词发现/专业词库发现☆28Updated 4 years ago
- 手动实现Elasticsearch的倒排索引以及BM25算法☆45Updated 5 years ago
- 一站式自动化开源标注平台☆62Updated 2 years ago
- Tracking the hot Github repos and update daily 每天自动追踪Github热门项目☆39Updated this week
- CCKS 2022 通用信息抽取☆12Updated 2 years ago
- A Python toolkit for file processing, text cleaning and data splitting. 文件处理,文本清洗和数据划分的python工具包。☆28Updated last year
- 大语言模型训练和服务调研☆32Updated last year
- 基于simhash的文本去重算法☆18Updated 3 years ago
- ☆35Updated 5 years ago
- 中国知网论文数据集,24000+篇论文 信息。自然语言处理、信息管理、文本分类、文本摘要、关键词抽取、研究热点分析、数据挖掘、数据分析☆43Updated last year
- 打造人人都会的NLP,开源不易,记得star哦☆101Updated last year
- worddict crawler and transfer for sougpuinput wordict , 搜狗输入法词库抓取与格式转换☆25Updated 6 years ago
- 中文PDF转TXT的实用工具☆30Updated 2 years ago
- ZhidaoChatbot, a chatbot that can be an expert on the common questions like why,how,when,who,what based on the online question-answer web…☆42Updated 5 years ago
- 李傲龍的博客☆82Updated 2 months ago
- 该项目主要是抽取病历文件中的一些关键信息。并将抽取的内容进行streamlit前端的展示。目前支持的文件类型:图片,pdf文件,word文件☆22Updated last year
- 文本相似度,语义向量,文本向量,text-similarity,similarity, sentence-similarity,BERT,SimCSE,BERT-Whitening,Sentence-BERT, PromCSE, SBERT☆61Updated 5 months ago