letiantian / jianshu-site-search
简书站内搜索
☆23Updated 7 years ago
Alternatives and similar repositories for jianshu-site-search:
Users that are interested in jianshu-site-search are comparing it to the libraries listed below
- 文 本去重算法,研究自推荐系统中新闻的去重,采用了雅虎的Near-duplicates and shingling算法,服务端用c实现,客户端用java实现,利用thrift框架进行通信,为了提高扩展性,去重可以在服务端实现,服务器也提供了计算的接口,方便客户端自己扩展☆23Updated 10 years ago
- 基于知识图谱技术的搜素引擎研发☆19Updated 7 years ago
- Tree-split 搬新家..给各位带来的不便深表歉意☆56Updated 8 years ago
- 爬取百度指数和阿里指数,采用selenium,存入hbase,验证码自动识别,多线程控制☆32Updated 8 years ago
- ☆29Updated 8 years ago
- elasticsearch similarity Custom plug-in☆10Updated 11 years ago
- 基于jieba的elasticsearch中文分词插件☆20Updated 7 years ago
- 新词发现分布式机器学习算法。☆15Updated 10 years ago
- 新闻评论观点挖掘系统,粗粒度的分析出新闻网评观点的倾向和走势☆53Updated 9 years ago
- 基于词典的负面舆情信息评分算法。☆26Updated 10 years ago
- 一个以文本类算法为基础、结合场景的风险防控系统☆15Updated 8 years ago
- 语义、情感、相似度分析。☆58Updated 9 years ago
- 这是Word2vec和Doc2vec的一个应用示例:用Word2vec计算词的相似度和用doc2vec计算句子的相似度。☆26Updated 7 years ago
- A readability parser which can extract title, content, images from html pages☆86Updated 4 years ago
- 把李航老师《统计学习方法》的后几章的算法都用java实现了一遍,实现盒子与球的EM算法,扩展到去GMM训练,后来实现了HMM分词(实现了HMM分词的参数训练)和CRF分词(借用CRF++训练的参数模型),最后利用tensorFlow把BiLSTM+CRF实现了,然后为luc…☆24Updated 2 years ago
- 常用文本聚类算法java实现☆15Updated 9 years ago
- IK分词器:支持不同索引使用不同的字典进行独立切词 联系:871057529@qq.com☆26Updated 3 years ago
- 新闻网站爬虫,目前能够爬取网易,新浪,qq,搜狐等三家网站的新闻页面,并保存到本地。☆34Updated 9 years ago
- A Web Page Of Public Sentiment For P2P Industry( P2P 行业的舆情分析前端展示)☆25Updated 8 years ago
- 推荐系统相关代码☆23Updated 9 years ago
- 常见中文知识图谱的链接☆21Updated 7 years ago
- ☆56Updated 6 months ago
- recommend system study☆67Updated 11 years ago
- 基于hanlp工具包的es分词插件☆10Updated 6 years ago
- 搜狐实习自动回复项目:语音识别、问题过滤、答案推荐☆8Updated 10 years ago
- HanLP 测试☆16Updated 7 years ago
- 本项目转移到https://github.com/cocolian/cocolian-nlp☆34Updated 10 years ago
- 同义词词林扩展版相似度计算-Java☆25Updated 9 years ago
- 中文地址匹配以及经纬度匹配☆40Updated 7 years ago
- 百度爬虫:热词,词频,音乐,poi信息☆22Updated 9 years ago