17621192638 / JiebaLexicon
构建中国百科词库,作为jieba分词的自定义词库。爬取百度拼音输入法词库,将.bdict文件解析为txt文件.python3.
☆26Updated 6 years ago
Alternatives and similar repositories for JiebaLexicon:
Users that are interested in JiebaLexicon are comparing it to the libraries listed below
- mirror of dongxiexidian/Chinese☆294Updated 6 years ago
- 中文语料库:包括情感词典 情感分析 文本分类 单轮对话 中文词典 知乎☆117Updated 7 years ago
- 中文、分词、词表、核心词典、事件词表、停用词、敏感词、问答、问答数据、知识图谱、文本语料。☆159Updated 3 years ago
- 基于哈工大同义词词林扩展版的单词相似度计算方法☆364Updated last year
- 人民日报语料处理工具集 | Tools for Corpus of People's Daily☆278Updated last year
- This is a corpus of Chinese abbreviation, including negative full forms.☆194Updated 3 years ago
- 根据自己搭的 LTP 服务器,实现:分词、词性标注、命名实体识别、依存句法分析、语义角色标、命名实体的抽取:人名,地名,机构名、三元组的抽取:主谓宾,动宾关系,介宾关系,(实体1,关系,实体2)☆145Updated 7 years ago
- 短文本相似度☆103Updated 3 years ago
- 图书名语料库。含部分电影、游戏名称。☆71Updated last year
- 中文文本错别字检测以及自动纠错 / Autochecker & autocorrecter for chinese☆295Updated 7 years ago
- 对小说文本进行分析,提炼小说剧情内容和人物关系☆84Updated 5 years ago
- 中文相关词典和语料库。☆173Updated 10 years ago
- 古诗词语料库☆129Updated 8 years ago
- 各大中文分词性能评测☆157Updated 6 years ago
- 字符串地址查询,支持自定义地址词库,解析地址,地址识别,地址抽取,中文地址.☆96Updated 4 years ago
- 下载搜狗、百度、QQ输入法的词库文件的 python 爬虫,可用于构建不同行业的词汇库☆113Updated 7 years ago
- 一个中文的已标注词性的语料库☆201Updated 10 years ago
- 金庸小说人物关系图谱构建☆61Updated 5 years ago
- 收集的各类字典,欢迎大家提交。(专业、中草药、中药、交通、停用词、动物、健康、国家、地名、学校、植物、汽车品牌)☆71Updated 4 years ago
- 今日头条中文新闻文本(多层)分类数据集☆397Updated 3 years ago
- self complemented SpellCorrection based pinyin similairity, edit distance ,基于拼音相似度与编辑距离的查询纠错。☆82Updated 2 years ago
- An exploration for Eventline (important news Rank organized by pulic time),针对某一事件话题下的新闻报道集合,通过使用docrank算法,对新闻报道进行重要性识别,并通过新闻报道时间挑选出时间线上重要…☆219Updated 6 years ago
- An collection of Chinese nlp corpus including basic Chinese syntatic wordset, semantic wordset, historic corpus and evaluate corpus. 中文自然…☆443Updated 6 years ago
- 中国古诗生成(文本生成)☆132Updated 6 years ago
- 文本生成,可用于作诗、写小说☆124Updated 6 years ago
- 基于 Simhash 的论文查重系统☆78Updated 2 years ago
- 中文单词自动纠错☆121Updated 3 years ago
- Time-NLP的python3版本 中文时间表达词转换☆517Updated 2 years ago
- 这是一个类,里面包含的有关文本相似度的常用的计算算法,例如,最长公共子序列,最短标记距离,TF-IDF等算法☆63Updated 8 years ago
- 汉字字符特征提取工具,可以提取出字符中的字音(声母、韵母、声调)、字形(偏旁、部首)、四角编码等特征,同时可作为tensor输入到模型☆134Updated 4 years ago