基于Map/Reduce爬虫,可抽取各大新闻网站的新闻正文并进行分类和聚类
☆74Jan 5, 2014Updated 12 years ago
Alternatives and similar repositories for DistributeCrawler
Users that are interested in DistributeCrawler are comparing it to the libraries listed below
Sorting:
- 新浪新闻爬虫☆15Feb 14, 2015Updated 11 years ago
- 利用Java网络爬虫爬取重庆大学新闻网站数据,依据解析的数据构建的新闻网站☆11Mar 7, 2016Updated 9 years ago
- DistributeCrawler的Maven版☆10Jun 20, 2022Updated 3 years ago
- 用java写的搜狐新闻爬虫☆14May 2, 2017Updated 8 years ago
- 华南理工大学高英实验室进行的分布式爬虫项目,除了实验室内部人员外,不得私自传播.☆21Jul 13, 2014Updated 11 years ago
- java分布式爬虫,主机和从机控制的机制☆14May 21, 2015Updated 10 years ago
- 新闻网站爬虫,目前能够爬取网易,新浪,qq,搜狐等三家网站的新闻页面,并保存到本地。☆34Jun 12, 2015Updated 10 years ago
- 抓取各报社报纸信息-采用配置文件形式实现的一个简单的可定制爬虫☆11Sep 1, 2022Updated 3 years ago
- Just a DEMO to demonstrate how to use JNA to type chars into alipay's password edit control automatically.☆12Dec 21, 2017Updated 8 years ago
- qq加群机器人,根据配置的关键词来搜索群并自动发送加群验证。难点:list滚动需要跨进程模拟触屏事件。使用前提:需要获取root权限,如需要获取更多机型的支持,需要添加相应机型的模拟触屏实现类。本项目不再维护,只提供给个人开发者学习使用。☆16Jul 23, 2018Updated 7 years ago
- Package seimicrawler project so that can be fast and standalone deployed.It is based on maven-war-plugin and modified. 这是专为SeimiCrawl…☆14Jun 30, 2022Updated 3 years ago
- 基于WebCollector的新浪微博爬虫及相关登录工具,如新浪微博Cookie获取☆14Nov 21, 2018Updated 7 years ago
- Implementation of Ripple effect from Material Design for Android API 9+☆12Nov 13, 2015Updated 10 years ago
- 分布式网络爬虫架构☆16Sep 26, 2016Updated 9 years ago
- 模拟登录的Java爬虫实现☆12Aug 6, 2016Updated 9 years ago
- "奇伢爬虫"是基于sprint boot 、 WebMagic 实现 微信公众号文章、新闻、csdn、info等网站文章爬取,可以动态设置文章爬取规则、清洗规则,基本实现了爬取大部分网站的文章。☆323Sep 3, 2017Updated 8 years ago
- 爬虫爬取网站新闻,DBCAN聚类,推荐系统......☆15May 22, 2018Updated 7 years ago
- 《基于行块分布函数的通用网页正文抽取》算法的Java实现;算法代码来源于该算法附带的开源实现,不过接下可能会对之修改。☆16Oct 29, 2015Updated 10 years ago
- 拉勾网数据爬虫☆32Sep 22, 2017Updated 8 years ago
- 反网页爬虫系统☆39Mar 10, 2015Updated 10 years ago
- crf-seg:用于生产环境的中文分词处理工具, 可自定义语料、可自定义模型、架构清晰,分词效果好。java编写。☆14Dec 11, 2021Updated 4 years ago
- 资讯阅读 “每日阅读”☆17Mar 18, 2016Updated 9 years ago
- A simple and flexible web crawler framework for java.☆19Apr 22, 2018Updated 7 years ago
- 微信公众号文章爬虫☆44Sep 1, 2022Updated 3 years ago
- 爬虫项目源码整理,使用redis进行url缓存,hbase进行详细信息的存储。使用zookeeper进行爬虫线程的状态监控。☆19Oct 7, 2015Updated 10 years ago
- Gecko crawler supports distributed by redis☆24Mar 11, 2018Updated 7 years ago
- This is a simple android gif decoder and player based on libnsgif compiled with NDK☆20Nov 16, 2019Updated 6 years ago
- Android JNI接口混淆方案☆29Jun 25, 2019Updated 6 years ago
- 淘宝商品评价的爬虫☆26Feb 29, 2016Updated 10 years ago
- Lianjia house spider链家二手房爬虫~ Springboot + Webmagic + Mysql + Redis☆27Apr 22, 2021Updated 4 years ago
- 这是一个Android 客户端富文本排列程序,其主要功能是: 输入一段格式化的文本,其中包含有如下富文本类型:纯文本、图片、超链接、表情、纯 URL。解析里面的所有富文本,并以合适的形式在 Android 客户端进行显示。☆29Nov 4, 2021Updated 4 years ago
- 微信遇上爬虫(获取热点新闻,自动回复,爬虫控制,傲梦编程教师端数据的自动抓取和检索)☆25Dec 30, 2019Updated 6 years ago
- Android SearchView that features autocompletion and material design☆45Jul 30, 2017Updated 8 years ago
- 利用spring boot + webmagic 开发的java爬虫系统☆61Dec 29, 2016Updated 9 years ago
- 基于Hadoop的分布式文件系统,使用Java语言开发实现了一个本地文件管理系统,其中文件存在于HDFS集群中,通过Java开发的客户端软件进行管理,其功能包括:1、文件分块、加密并上传待HDFS文件系统 2、文件块下载、解密、整合成完整文件 3、文件系统的管理☆24May 6, 2018Updated 7 years ago
- 金融数据爬 虫☆29Dec 25, 2015Updated 10 years ago
- 办公自动化(maven+spring+springmvc+mybatis) 本项目分为信息管理、邮件管理、考勤管理、权限管理四个模块。 项目使用使用阿里巴巴连接池druid,使用Shiro作为安全框架 邮件管理模块分为写邮件、收邮件、垃圾邮件三个板块,写邮件实现了文件上传…☆26Jan 17, 2017Updated 9 years ago
- ACM Training Management System of SDUST☆28May 25, 2018Updated 7 years ago
- Caravan☆35Feb 22, 2019Updated 7 years ago