JRhuang-96 / offline-hadoop
Hadoop离线计算. 使用hadoop MR 进行数据清洗,再使用shell 脚本执行hive 进行数据统计,维度分析
☆12Updated 5 years ago
Related projects ⓘ
Alternatives and complementary repositories for offline-hadoop
- 电商+大数据+spark机器学习☆16Updated 6 years ago
- 大数据招聘信息分析平台☆40Updated 8 years ago
- 1、支持网页爬虫 2、多线程、线程池 3、支持全文搜索 4、支持Hadoop分布式平台、HDFS/MapReduce、Zookeeper、HBase 5、支持redis分布式缓存 6、集成微信公众号开发 7、Spring4新特性 8、ActiveMQ 9、Nginx详细配置…☆16Updated 2 years ago
- 论坛日志分析系统清洗程序(包含IP规则库,UDF开发,MapReduce程序,日志数据)☆33Updated 6 years ago
- 大数据离线项目之:BI上报(Hadoop、Hbase、Hive、flume、sqoop)☆13Updated 2 years ago
- 基于Hadoop和HBase的大规模海量数据去重☆29Updated 6 years ago
- 使用Storm实时处理交通大数据(数据源:kafka,集群管理:zookeeper)☆52Updated last year
- Flink电商项目,实时统计分析 + 风控☆23Updated 4 years ago
- 实现了一整套电商数仓的搭建,包括数据采集平台的搭建,将用户的行为数据分为四层分别分层搭建,并实现业务数据库的分层搭建,针 对数据仓库中的数据进行,留存、转化率、复购率、GMV、活跃等报表分析,使用当下主流程数的框架,这个项目采用Apache版本的框架实现,后续会上传CDH版本…☆48Updated 2 years ago
- 快速采集清洗,任务管理,实时流和批处理数据分析,数据可视化展现,快速数据模板开发,ETL工具集、数据科学等。是轻量级的一站式的大数据平台。帮用户快速搭建CDP客户数据平台,实现对移动端数据分析、用户行为分析、用户标签画像和在线营销。完美兼容神策埋点SDK、友盟埋点SDK和其…☆58Updated last year
- 数仓项目☆10Updated 5 years ago
- 一个集分布式爬虫,分布式存储,分布式计算统计分析一体的统计分析数据挖掘项目☆14Updated 6 years ago
- 数据仓库KETTLE ETL资源库☆14Updated 9 years ago
- 大数据平台相关代码(ES/Hive/Hadoop/hdfs/hbase)☆74Updated 2 years ago
- 关于 HDFS,Yarn,MapReduce,HBase,Hive,Pig,Sqoop,Flume,Zookeeper,MemCached,Redis,Storm,Scala,Spark,Flink 等大数据框架的学习笔记☆76Updated 5 years ago
- 自助搭建的 hadoop + spark + kafka + zookeeper + storm + hbase + hive + flume 集群,一主两从。☆30Updated 5 years ago
- 大数据平台自助管理系统☆11Updated 6 years ago
- 基于Flink流处理的动态实时亿级全端用户画像系统可视化界面☆34Updated last year
- Cloud-Platform是国内首个基于Spring Cloud微服务化开发平台,具有统一授权、认证后台管理系统,其中包含具备用户管理、资源权限管理、网关API 管理等多个模块,支持多业务系统并行开发,可以作为后端服务的开发脚手架。代码简洁,架构清晰,适合学习和直接项目中…☆15Updated 5 years ago
- 一个用Solr做企业应用内的搜索引擎的SpringBoot项目☆21Updated 6 years ago
- Spark中实现用户画像系统价值度、忠诚度、流失预警、活跃度等模型☆65Updated 7 years ago
- 京东商品推荐系统-数据爬虫☆18Updated 9 years ago
- hbase + spark 实现常用推荐算法(主要用于精准广告投放和推荐系统)☆65Updated 8 years ago
- 基于Hadoop的Web日志分析,包括日志的清洗、日志的统计分析、统计结果的导出、指标数据的Web展示☆39Updated 2 years ago
- 广告系统☆14Updated 5 years ago
- DataX 是阿里巴巴集团内被广泛使用的离线数据同步工具/平台,实现包括 MySQL、Oracle、HDFS、Hive、OceanBase、HBase、OTS、ODPS 等各种异构数据源之间高效的数据同步功能。☆23Updated 3 years ago
- Spark混合推荐系统大数据监控平台☆11Updated 6 years ago
- 💡数据化运营💡:会员数据化运营(RFM模型、营销响应预测)、商品数据化运营、流量数据化运营、内容数据化运营☆45Updated 5 years ago
- 更新中(速度较慢):大数据+AI的实用框架,每一步都有成就感!手把手实战(一步步/大量注释/操作配图),如企业画像(Spark+NLP)、推荐系统(Spark+GBDT/LR)、实时数仓(Flink)等,以实战学技术。☆21Updated last year
- spark tutorial for big data mining。包括app流量运营分析、als推荐、smote样本采样、RFM客户价值分群、AHP层次分析客户价值得分、手机定位数据商圈挖掘、马尔可夫智能邮件预测、时序预测、关联规则、推荐电影好友等。☆38Updated 2 years ago