GuohuaZhuang / deduplication-detectingLinks
文档去重功能是为了解决搜索引擎的文档语义重复的问题,方法是多重哈希下的语义指纹算法。
☆12Updated 12 years ago
Alternatives and similar repositories for deduplication-detecting
Users that are interested in deduplication-detecting are comparing it to the libraries listed below
Sorting:
- 此文本分类项目主要面向机器学习初学者和文本分类效果测试者 ,项目内部含有朴素贝叶斯,余弦定理,逻辑回归多种分类算法以及mm,rmm分词器,同时从某新闻站点爬取了多个分类共6000多篇文章,以及一个中文词典。项目方便自由拓展各种分类器和分词器,并通过组装测试分类效果。☆36Updated 7 years ago
- 文本去重算法,研究自推荐系统中新闻的去重,采用了雅虎的Near-duplicates and shingling算法,服务端用c实现,客户端用java实现,利用thrift框架进行通信,为了提高扩展性,去重可以在服务端实现,服务器也提供了计算的接口,方便客户端自己扩展☆24Updated 11 years ago
- Online Web News Extraction via Tag Path Feature Weighted by Text Block Density☆11Updated 8 years ago
- 广西大学雨无声论坛☆12Updated 11 years ago
- 机器学习文本分类器☆46Updated 9 years ago
- 基于知识图谱技术的搜素引擎研发☆19Updated 8 years ago
- 实现中文文本分类,支持文件、文本分类,基于多项式分布的朴素贝叶斯分类器。由于工作实际应用是二分类,加之考虑到每个分类属性都建立map存储词语向量可能引起的内存问题,所以目前只支持二分类。当然,直接复用这个结构扩展到多分类也是很容易。之所以自己写,主要原因是没有仔细研读mah…☆22Updated 8 years ago
- 语义、情感、相似度分析。☆59Updated 10 years ago
- 新闻评论观点挖掘系统,粗粒度的分析出新闻网评观点的倾向和走势☆53Updated 10 years ago
- 推荐系统相关代码☆23Updated 10 years ago
- 中医处方管理系统☆25Updated 10 years ago
- 易记帐财务软件☆12Updated 9 years ago
- 基于SVM的短文本分类研究☆19Updated 10 years ago
- Baishop是一款B2C电子商务网站,可以生成通用的电子商务构建平台,您可以非常方便的开一个网上商店,在网上开展自己的生意。网站采用纯Java编写,基于JDK6.0,使用 MySQL数据库。☆30Updated 12 years ago
- 把李航老师《统计学习方法》的后几章的算法都用java实现了一遍,实现盒子与球的EM算法,扩展到去GMM训练,后来实现了HMM分词(实现了HMM分词的参数训练)和CRF分词(借用CRF++训练的参数模型),最后利用tensorFlow把BiLSTM+CRF实现了,然后为luc…☆23Updated 3 years ago
- 关于通过百度地图API采集POI数据,并存储到HBase的项目。☆25Updated 9 years ago
- 是一款用于APP在线管理的系统,通过该系统来实现生产或开发中的应用自动化部署及监控,以减少企业的运维成本☆11Updated 7 years ago
- EasyXMS是一个Java编写的用于批量管理Linux/Unix服务器的简易系统,如:多线程批量执行命令、多线程批量上传文件等功能.☆21Updated 10 years ago
- 智能客服☆106Updated 6 years ago
- 这是一个基于stm32的远程视频监控&温度 数据监测的项目☆12Updated 9 years ago
- electron实战项目集成了串口通信、C#动态库dll调用、C++动态链接库dll调用、本地数据关系数据库SQLit3、执行cmd命令(启动nginx、本地mysql数据库等)、系统通知☆10Updated 4 years ago
- csdn用户画像的源码☆20Updated 8 years ago
- 电商+大数据+spark机器学习☆17Updated 7 years ago
- 食品安全舆情分析系统(前端展示模块)☆15Updated 10 years ago
- 给定训练新闻数据集,可以对输入的测试新闻进行自动分类识别☆19Updated 10 years ago
- AMS实时推荐系统☆17Updated 2 years ago
- 一个以文本类算法为基础、结合场景的风险防控系统☆15Updated 8 years ago
- 阿里巴巴大数据竞赛☆63Updated 11 years ago
- 基于Map/Reduce爬虫,可抽取各大新闻网站的新闻正文并进行分类和聚类☆74Updated 11 years ago
- java分布式爬虫,主机和从机控制的机制☆14Updated 10 years ago