ZhangYiBo513 / Simhash-Links
基于谷歌大规模网页去重simhash算法,对海量文章(长文本)进行去重。
☆11Updated 2 years ago
Alternatives and similar repositories for Simhash-
Users that are interested in Simhash- are comparing it to the libraries listed below
Sorting:
- 通用新闻类网站分布式爬虫☆77Updated 6 years ago
- 今日头条新闻详情页面爬取,逆向 Cookies 中 __ac_signature 生成过程☆34Updated 5 years ago
- 基于新浪微博的面向食品安全的舆情话题检测与追踪 系统☆13Updated 2 years ago
- 基于 Simhash 的论文查重系统☆81Updated 3 years ago
- 构建中国百科词库,作为jieba分词的自定义词库。爬取百度拼音输入法词库,将.bdict文件解析为txt文件.python3.☆27Updated 6 years ago
- 专业领域词库构建/中文新词发现/专业词库发现☆29Updated 5 years ago
- 字符串地址查询,支持自定义地址词库,解析地址,地址识别,地址抽取,中文地址.☆97Updated 4 years ago
- An exploration for Eventline (important news Rank organized by pulic time),针对某一事件话题下的新闻报道集合,通过使用docrank算法,对新闻报道进行重要性识别,并通过新闻报道时间挑选出时间线上重要…☆222Updated 6 years ago
- 谷歌翻译,360翻译,iCIBA翻译,有道翻译,免费API☆185Updated 3 years ago
- 中文命名实体识别(公司名称),Tensorflow 1.3 + Python3☆38Updated 7 years ago
- 文本分类是指在给定分类体系下 , 根据文本的内容自动确定文本类别的过程。首先我们根据scrapy爬虫根据中国知网URL的规律,爬取70多万条2014年公开的发明专利,然后通过数据清洗筛选出了60多万条含标签数据。通过TF-IDF对60多万条本文进行词频提取,依照词频排序提取…☆107Updated 7 years ago
- 中文语料库:包括情感词典 情感分析 文本分类 单轮对话 中文词典 知乎☆117Updated 7 years ago
- 文章标签抽取☆16Updated 6 years ago
- NER实体识别模型,快速高效简单一键部署docker部署调用模 型。能识别:地址、人名、机构名实体。☆36Updated last year
- 爬取汽车之家的口碑数据,并破解前端js反爬虫措施分析☆62Updated 7 years ago
- 搜索引擎关键词排位爬虫,包括百度,搜狗,360的搜索引擎关键词排位爬虫,关键词从百度热词中取得,排位分别从三个搜索引擎中抓取。☆19Updated 5 years ago
- self complemented SpellCorrection based pinyin similairity, edit distance ,基于拼音相似度与编辑距离的查询纠错。☆82Updated 3 years ago
- 公司、企业名称模糊匹配,基于词频的公司名主体提取,基于编辑距离的匹配度☆41Updated 4 years ago
- 中文、分词、词表、核心词典、事件词表、停用词、敏感词、问答、问答数据、知识图谱、文本语料。☆165Updated 3 years ago
- 中文地址分词(地址元素识别与抽取),通过序列标注进行NER☆196Updated 5 years ago
- 使用Simhash对海量文本进行去重☆12Updated 7 years ago
- 文本自动摘要☆94Updated 2 years ago
- 基于scrapy-redis的分布式新闻爬虫,可同时获取腾讯、网易、搜狐、凤凰网、新浪、东方财富、人民网等各大平台新闻资讯☆45Updated 7 years ago
- company name parser, extract company name brand. 中文公司名称分词工具,支持公司名称中的地名,品牌名(主词),行业词,公司名后缀提取。☆90Updated 2 years ago
- 用TF特征向量和simhash指纹计算中文文本的相似度☆216Updated 8 years ago
- 根据地址提取省、市、区/县、街道,并进行标准化☆23Updated 3 years ago
- 裁判文书网 Android App 详情及列表接口,2021/6/9加入用户校验, 列表接口失效, 但详情接口仍可用, 项目不再进行维护☆50Updated 4 years ago
- 无监督中文仿真评论自动生成。 Unsupervised Automatic Generation of Chinese Fake Reviews.☆83Updated 5 years ago
- 中文文本摘要/关键词提取☆440Updated 4 years ago
- 利用文本分析算法和Python脚本,自动纠正word中的英语单词拼写错误☆47Updated 6 years ago