chmod740 / BaiduBaikeSpider
百度百科多线程爬虫Java源码,数据存储采用了Oracle11g
☆13Updated 7 years ago
Alternatives and similar repositories for BaiduBaikeSpider:
Users that are interested in BaiduBaikeSpider are comparing it to the libraries listed below
- 搜狐实习自动回复项目:语音识别、问题过滤、答案推荐☆8Updated 10 years ago
- 新词发现分布式机器学习算法。☆15Updated 10 years ago
- 基于Nutch+ElasticSearch+MySQL+SSM的简易搜索引擎☆19Updated 8 years ago
- 读书笔记《自己动手写网络爬虫》,自己敲的代码。主要记录了网络爬虫的基本实现,网页去重的算法,网页指纹算法,文本信息挖掘☆47Updated 10 years ago
- 这是一个工具程序集合,方便我们平时对数据进行预处理。针对文本处理的内容较多。包括分词(集成了张华平分词、结巴分词)、文件处理增强(如读取文本到Map中,保存文本到Map)和语料模型(把文档转换成矩阵,就算单词数量等)☆21Updated 3 months ago
- 京东商品推荐系统-数据爬虫☆18Updated 9 years ago
- 安浪创想开发的基于JAVA8+ActFramework+MongoDb+MySQL+bootstrap+AngularJS+JQuery等框架的AI人工智能官网管理系统☆13Updated 7 years ago
- 基于JAVA NIO 的轻量级消息传输框架。主要功能包括:文本消息传输、二进制文件传输、文本及二进制混合传输、消息的自定义实现加密传输算法、同步或异步传输、客户端、服务端框架内置心跳监听、服务端认证、支持网络断线客户端自动重连。☆44Updated 7 years ago
- 用java写的搜狐新闻爬虫☆14Updated 7 years ago
- 淘宝商品评价的爬虫☆26Updated 8 years ago
- 此文本分类项目主要面向机器学习初学者和文本分类效果测试者,项目内部含有朴素贝叶斯,余弦定理,逻辑回归多种分类算法以及mm,rmm分词器,同时从某新闻站点爬取了多个分类共6000多篇文章,以及一个中文词典。项目方便自由拓展各种分类器和分词器,并通过组装测试分类效果。☆35Updated 7 years ago
- 中国明星数据爬取。你甚至可以拿到互联网上所有的人之间的关系,接下来你可以自己发挥!基于这些数据,你可以完成更多有趣的事情。比如说社交网络分析,关系网络可视化,算法研究,和其他有意思的事情。Chinese star data crawling. You can even ge…☆27Updated 6 years ago
- 以知乎日报为数据源,全流程实践一个机器学习过程,从数据获取到数据分析,对知乎日报进行聚类、分类,并可视化这一过程☆17Updated 8 years ago
- 广告系统☆14Updated 5 years ago
- Search Engine for Chinese base on Solr(基于solr的中文搜索引擎框架)☆27Updated 11 years ago
- JEECMS是一款基于JAVA技术研发的站群管理系统。 1、支持大规模网站群管理; 2、跨站全文检索、数据共享; 3、微官网/手机网站同步建设; 4、高效二次开发的插件化管理 5、支持可视化模板制作;☆25Updated 8 years ago
- 新闻推荐系统-Android客户端☆25Updated 8 years ago
- 微信公众号爬虫:服务端公众号文章数据采集☆43Updated 2 years ago
- 推荐系统相关代码☆23Updated 9 years ago
- 处理视频,通过修改视频文件达到变更文件md5,从而使视频变唯一,不在秒传,不在被封杀。☆10Updated 9 years ago
- 本项目转移到https://github.com/cocolian/cocolian-nlp☆34Updated 10 years ago
- 本项目目的在于构建一个标准化的NLP处理框架,提供企业级的API,以及各种推荐实现和测试包。 目前国内外有不少NLP语言包,包括中科院、复旦大学的,通过对这些常用NLP软件的封装,可以为企业提供一个可以根据需要来对比和无缝切换底层实现的NLP框架。☆22Updated last year
- 推荐算法☆30Updated 9 years ago
- java爬虫,反爬虫策略、ETL清洗数据,以及spark离线和实时分析新闻并存入ES☆21Updated 6 years ago
- 1、支持网页爬虫 2、多线程、线程池 3、支持全文搜索 4、支持Hadoop分布式平台、HDFS/MapReduce、Zookeeper、HBase 5、支持redis分布式缓存 6、集成微信公众号开发 7、Spring4新特性 8、ActiveMQ 9、Nginx详细配置…☆16Updated 2 years ago
- 图片文字提取。☆16Updated 9 years ago
- mumu-mahout是一个学习项目,主要通过这个项目来学习mahout的功能和使用方式。mahout是一款开源的机器学习算法,主要包括协同过滤推荐、聚类、分类等三大块内容。 推荐可以基于用户的推荐和基于物品的推荐,可以给用户推荐一些数据,智能化数据。☆21Updated 6 years ago