cnyangkui / html-extractor
基于行块分布函数的通用网页正文抽取算法优化,Python实现
☆56Updated 4 years ago
Related projects: ⓘ
- AC自动机python的实现,并进行了优化。 主要修复了 查询不准确的问题。☆70Updated 3 years ago
- pinyintokenizer, 拼音分词器,将连续的拼音切分为单字拼音列表。☆26Updated 8 months ago
- 使用不同的方法计算相似度☆41Updated 5 years ago
- 互联网在线翻译引擎爬虫集合,包含谷歌翻译、百度翻译、有道翻译、必应翻译等引擎。Internet online translation engine crawler collection, including Google translation, Baidu transla…☆79Updated 3 years ago
- 中文文本相似度计算器☆111Updated 8 months ago
- 一个简单易用的 Python 模块,用于通过字符串来操作日期/时间。正则时间提取,字符串时间解析,字 符串时间提取。中文时间提取,一句话里面提取时间☆74Updated 2 months ago
- company name parser, extract company name brand. 中文公司名称分词工具,支持公司名称中的地名,品牌名(主词),行业词,公司名后缀提取。☆80Updated 2 years ago
- 中文日期/时间/数字量提取工具☆62Updated 4 years ago
- 中文、分词、词表、核心词典、事件词表、停用词、敏感词、问答、问答数据、知识图谱、文本语料。☆144Updated 2 years ago
- ☆58Updated 2 years ago
- 百度百科 500 万数据集☆29Updated 9 months ago
- 中文预处理语料☆103Updated 5 years ago
- 中文命名实体识别(公司名称),Tensorflow 1.3 + Python3☆38Updated 7 years ago
- A Multi-Modal Dataset of Chinese Governmental Docunments☆22Updated 3 years ago
- Time-NLP的Python3版本 中文时间表达识别☆85Updated 4 years ago
- An exploration for Eventline (important news Rank organized by pulic time),针对某一事件话题下的新闻报道集合,通过使用docrank算法,对新闻报道进行重要性识别,并通过新闻报道时间挑选出时间线上重要…☆210Updated 5 years ago
- 通用新闻类网站分布式爬虫☆71Updated 6 years ago
- 使用python实现了一个简单的trie树结构,可增加/查找/删除关键词,用于中文文本的关键词匹配、停用词删除等。☆65Updated 4 years ago
- bing、google、baidu搜索引擎爬虫。python3.6 and scrapy☆41Updated 6 years ago
- 夸夸语料,来自豆瓣互相表扬组数据☆75Updated 5 years ago
- 根据企业名称对企业类型进行分类☆37Updated 5 years ago
- This is a corpus of Chinese abbreviation, including negative full forms.☆188Updated 3 years ago
- 错别字纠正算法。调用pycorrector接口,使用规则。☆63Updated 4 years ago
- 微博自动摘要系统 Chinese Microblog Automatic Summary System☆31Updated 5 years ago
- 李傲龍的博客☆82Updated 2 months ago
- Event monitor based on online news corpus including event storyline and analysis,基于给定事件关键词,采集事件资讯,对事件进行挖掘和分析。☆151Updated 5 years ago
- mirror of dongxiexidian/Chinese☆281Updated 5 years ago
- AbstractKnowledgeGraph, a systematic knowledge graph that concentrate on abstract thing including abstract entity and action. 抽象知识图谱,目前规模…☆235Updated 5 years ago
- 无监督中文仿真评论自动生成。 Unsupervised Automatic Generation of Chinese Fake Reviews.☆84Updated 5 years ago
- 一个短视频app文本审核模块的实现思路及demo☆99Updated 6 years ago