flaskeer / carhome
抓取汽车之家的数据
☆35Updated 8 years ago
Alternatives and similar repositories for carhome:
Users that are interested in carhome are comparing it to the libraries listed below
- 文本去重算法,研究自推荐系统中新闻的去重,采用了雅虎的Near-duplicates and shingling算法,服务端用c实现,客户端用java实现,利用thrift框架进行通信,为了提高扩展性,去重可以在服务端实现,服务器也提供了计算的接口,方便客户端自己扩展☆23Updated 10 years ago
- java 基于selenium抓取搜狗微信公众号文章☆49Updated 9 years ago
- ☆21Updated 8 years ago
- 数据平台(DataPlateform),最初的设计想法是:当今大数据横行,我们也不能落后。所以就想着写一个这样的平台系统。此项目集爬虫、搜索、Hadoop、Dwr推送、Quartz定时任务于一体的平台,其目的是想通过抓取互联网数据,通过大数据推测人或者某一事物的下一行为。C…☆18Updated 7 years ago
- A experiment for hot word recommend using Openresty & Redis☆19Updated 8 years ago
- 电商爬虫系统:京东,当当,一号店,国美爬虫(代理使用);论坛、新闻、豆瓣爬虫☆104Updated 6 years ago
- 基于hadoop思维的分布式网络爬虫。☆87Updated 8 years ago
- jshoperx gralde build☆30Updated 9 years ago
- 这是一个开源的互联网在线广告投放系统。该系统可用于网站、视频播放的所有页 面广告、视频广告以及无线客户端、TV广告的管理、播放、定向和统计,包括了业务管理、售前计划管理、广告活动管理、广告引擎、播放器内广告、展示广告、数据及商业智能、人群定向、第三方广告管理等几大模块。采用C…☆87Updated 8 years ago
- 微博数据分析服务框架。☆12Updated 9 years ago
- 一个根据搜狗微信进行微信公众号采集的程序☆16Updated 9 years ago
- 个性化推荐算法的通用处理框架,基于Mahout和Lucene☆18Updated 9 years ago
- 拉勾数据采集☆17Updated 9 years ago
- 采用gecco一键爬取安居客新楼盘数据☆10Updated 5 years ago
- FocusSNS 是一款基于主题的SNS软件,用于构建网站社区!--- 当前版本仍处在开发阶段...☆60Updated 11 years ago
- 用于IP定位,包含了纯真IP库,和自己爬出来的本地文本库两种方法。☆13Updated 9 years ago
- 企业微信服务公共号,用于企业通讯录,公司基本信息、班车信息、日常信息、福利待遇等信息,以及相关的通知公告。☆42Updated 10 years ago
- 聪明的表格(一套数据源展示表格与图形,并且支持导出至EXCEl)☆28Updated 9 years ago
- Apache Nutch Plugins for AJAX page fetch, parse, index☆87Updated 6 years ago
- 搜狐实习自动回复项目:语音识别、问题过滤、答案推荐☆8Updated 10 years ago
- 淘宝商品评价的爬虫☆26Updated 8 years ago
- 实时数据分析平台☆42Updated 11 years ago
- nutz+jetty+h2 做的一个web应用☆40Updated 8 years ago
- 大数据实时计算的基础框架☆49Updated 10 years ago
- 基于Map/Reduce爬虫,可抽取各大新闻网站的新闻正文并进行分类和聚类☆76Updated 11 years ago
- 读书笔记《自己动手写网络爬虫》,自己敲的代码。主要记录了网络爬虫的基本实现,网页去重的算法,网页指纹算法,文本信息挖掘☆47Updated 10 years ago