chmod740 / BaiduBaikeSpider
百度百科多线程爬虫Java源码,数据存储采用了Oracle11g
☆13Updated 8 years ago
Alternatives and similar repositories for BaiduBaikeSpider:
Users that are interested in BaiduBaikeSpider are comparing it to the libraries listed below
- 搜狐实习自动回复项目:语音识别、问题过滤、答案推荐☆8Updated 10 years ago
- 此文本分类项目主要面向机器学习初学者和文本分类效果测试者,项目内部含有朴素贝叶斯,余弦定理,逻辑回归多种分类算法以及mm,rmm分词器,同时从某新闻站点爬取了多个分类共6000多篇文章,以及一个中文词典。项目方便自由拓展各种分类器和分词器,并通过组装测试分类效果。☆35Updated 7 years ago
- 用java写的搜狐新闻爬虫☆15Updated 7 years ago
- 新词发现分布式机器学习算法。☆15Updated 10 years ago
- 读书笔记《自己动手写网络爬虫》,自己敲的代码。主要记录了网络爬虫的基本实现,网页去重的算法,网页指纹算法,文本信息挖掘☆47Updated 10 years ago
- 基于Nutch+ElasticSearch+MySQL+SSM的简易搜索引擎☆20Updated 8 years ago
- 新闻评论观点挖掘系统,粗粒度的分析出新闻网评观点的倾向和走势☆53Updated 9 years ago
- 淘宝商品评价的爬虫☆26Updated 9 years ago
- 以知乎日报为数据源,全流程实践一个机器学习过程,从数据获取到数据分析,对知乎日报进行聚类、分类,并可视化这一过程☆17Updated 9 years ago
- 自定义注解☆9Updated 7 years ago
- 基于JAVA NIO 的轻量级消息传输框架。主要功能包括:文本消息传输、二进制文件传输、文本及二进制混合传输、消息的自定义实现加密传输算法、同步或异步传输、客户端、服务端框架内置心跳监听、服务端认证、支持网络断线客户端自动重连。☆44Updated 7 years ago
- 微信公众号爬虫:服务端公众号文章数据采集☆43Updated 2 years ago
- 专注大数据 Spark ML 机器学习:监督学习、无监督学习,主要有:分类算法、回归算法、聚类算法、推荐算法、频繁模式挖掘算法☆16Updated 4 years ago
- 微云盘,高仿百度云;使用技术jdbc/servlet/jquery MVC三层架构;同时封装了大量通用工具☆35Updated 5 years ago
- 文本去重算法,研究自推荐系统中新闻的去重,采用了雅虎的Near-duplicates and shingling算法,服务端用c实现,客户端用java实现,利用thrift框架进行通信,为了提高扩 展性,去重可以在服务端实现,服务器也提供了计算的接口,方便客户端自己扩展☆23Updated 11 years ago
- 基于Map/Reduce爬虫,可抽取各大新闻网站的新闻正文并进行分类和聚类☆77Updated 11 years ago
- 自动字幕生成工具,服务端实现,springboot+科大讯飞语音识别接口☆22Updated 7 years ago
- 推荐算法☆30Updated 9 years ago
- 全渠道整合智能在线客服系统☆38Updated 7 years ago
- 天天基金网爬虫,可多ip节点部署,按ip节点动态调整并发数,可设置代理ip反爬,定时爬取,定时通过邮件反馈基金行情统计数据☆25Updated 2 years ago
- 新闻推荐系统-Android客户端☆25Updated 8 years ago
- 组件化综合案例,包含微信新闻,头条视频,美女图片,百度音乐,干活集中营,玩Android,豆瓣读书电影,知乎日报等等模块。架构模式:组件化+MVP+Rx+Retrofit+Desgin+Dagger2+阿里VLayout+腾讯X5+腾讯bugly。安装阿里编码规约插件,不断…☆14Updated 5 years ago
- java版的http服务器,替代Tomcat、jetty的超轻量级方案☆35Updated 3 years ago
- 中国明星数据爬取。你甚至可以拿到互联网上所有的人之间的关系,接下来你可以自己发挥!基于这些数据,你可以完成更多有趣的事情。比如说社交网络分析,关系网络可视化,算法研究,和其他有意思的事情。Chinese star data crawling. You can even ge…☆27Updated 7 years ago
- 电视剧爬虫,抓取各大视频网站电视剧信息☆16Updated 8 years ago
- The Crawler Proxy IP Pool Component☆63Updated 2 years ago
- java爬虫,反爬虫策略、ETL清洗数据,以及spark离线和实时分析新闻并存入ES☆21Updated 6 years ago
- 实现文档转换的一个网站,目前支持PDF转Word,对Word文档进行翻译等操作,网站还可以获取网易云热门评论等信息☆12Updated 2 years ago
- 伪分布式电子档案管理系统☆26Updated 9 years ago
- 基于词典的负面舆情信息评分算法。☆26Updated 10 years ago