lxbuaa2017 / jiebaDicts
经过处理后可直接用于jieba的词典
☆14Updated 4 years ago
Related projects: ⓘ
- ☆35Updated 5 years ago
- 医疗语料库。医疗机构名语料库。药品本位码。☆58Updated 5 months ago
- 物种名称语料库。植物名,动物名。☆40Updated 5 months ago
- 搜狗细胞词库到普通文本的转换提取工具。提取词汇表,用于深度学习做数据生成和字典特征☆22Updated 5 years ago
- 极简爬虫工作流☆40Updated last year
- 对dbpedia和百科采集而来的语料进行清洗,得到合适的三元组☆14Updated 7 years ago
- 构建中国百科词库,作为jieba分词的自定义词库。爬取百度拼音输入法词库,将.bdict文件解析为txt文件.python3.☆25Updated 5 years ago
- 图书名语料库。含部分电影、游戏名称。☆66Updated 5 months ago
- 中文新词发现算法PNW算法,可以识别任意长度的新词。☆15Updated last year
- 错别字纠正算法。调用pycorrector接口,使用规则。☆63Updated 4 years ago
- 百度百科爬虫☆66Updated 3 months ago
- 一个简单易用的 Python 模块,用于通过字符串来操作日期/时间。正则时间提取,字符串时间解析,字符串时间提取。中文时间提取,一句话里面提取时间☆74Updated 2 months ago
- 小说人名统计和关系提取(基于HanLP)☆36Updated 5 years ago
- 百度百科 500 万数据集☆29Updated 9 months ago
- Knowledge Graph Examples☆17Updated 2 months ago
- 中文文本改写☆19Updated 3 years ago
- Full async support toolkit for IDataAPI for efficiency work, read data from API/ES/csv/xlsx/json/redis/mysql/mongo/kafka, write to ES/csv…☆44Updated 2 years ago
- 中文日期/时间/数字量提取工具☆62Updated 4 years ago
- 基于Textrank的关键字提取 & 摘要提取☆13Updated last year
- 字符串地址查询,支持自定义地址词库,解析地址,地址识别,地址抽取,中文地址.☆92Updated 3 years ago
- 该项目主要是抽取病历文件中的一些关键信息。并将抽取的内容进行streamlit前端的展示。目前支持的文件类型:图片,pdf文件,word文件☆22Updated last year
- 金融问答平台文本数据采集/爬取,数据源涉及上交所,深交所,全景网及新浪股吧☆37Updated 7 years ago
- 中文、分词、词表、核心词典、事件词表、停用词、敏感词、问答、问答数据、知识图谱、文本语料。☆144Updated 2 years ago
- 公司、企业名称模糊匹配,基于词频的公司名主体提取,基于编辑距离的匹配度☆40Updated 3 years ago
- 可部署的相似度模型 deployable similarity model☆18Updated last year
- worddict crawler and transfer for sougpuinput wordict , 搜狗输入法词库抓取与格式转换☆25Updated 6 years ago
- 中文纠错☆89Updated 2 years ago
- The most complete Chinese dictionaries ever. 史上最全的中文分类词库,包含地理信息、电子游戏、工程应用、农林牧渔、人文科学、社会科学、生活百科、医学医药、艺术设计、娱乐休闲、运动休闲、自然科学等12大类的超级字典。☆68Updated 4 years ago
- ☆28Updated 3 years ago
- ☆58Updated this week