jangocheng / bdp-baseLinks
大数据生态解决方案基础平台: 搜索系统、公共系统、任务管理系统、数据binlog采集、基础爬虫系统、数据传输系统、运维告警系统、APM、报表系统
☆10Updated 4 years ago
Alternatives and similar repositories for bdp-base
Users that are interested in bdp-base are comparing it to the libraries listed below
Sorting:
- 007 基于网络爬虫技术的新闻分析系统-毕业设计展示 python django vue scrapy jieba nlp 爬虫抓取 新闻列表 新闻详情 新闻分类 新闻摘要抽取 关键词分析 情感分析 朴素贝叶斯算法 词性分析 后台管理新闻数据☆13Updated 2 years ago
- 基于Hadoop和Django开发的用户画像系统☆23Updated 7 years ago
- 使用scrapy从全国六大较权威的新闻网站(澎湃新闻、新华网、新京报、凤 凰网、光明网、人民网)爬取最近15天内的新闻,利用爬取数据提取省份信息、计算新闻热点值、使用预训练模型生成新闻类别后存入Mysql数据库,网页使用HTML、CSS、JavaScript进行编写,采用开…☆29Updated 3 years ago
- 基于python的二手商品交易平台 python+django开发的供需平台 - 毕业设计 - 课程设计☆37Updated last year
- 实现了一整套电商数仓的搭建,包括数据采集平台的搭建,将用户的行为数据分为四层分别分层搭建,并实现业务数据库的分层搭建,针对数据仓库中的数据进行,留存、转化率、复购率、GMV、活跃等报表分析,使用当下主流程数的框架,这个项目采用Apache版本的框架实现,后续会上传CDH版本…☆56Updated 3 years ago
- 可视化爬虫自动采集平台☆186Updated 2 years ago
- 高考成绩分析系统☆15Updated 7 years ago
- 给定文本和图片,自动生成一个相应的含字幕的短视频。完全自动化,可批量生成☆26Updated last year
- Python爬虫项目集合☆60Updated 6 years ago
- 基于python和llm大模型开发的数据处理和任务调度系统。 支持数据源管理,数据模型管理,数据集成,数据查询API接口,低代码自定义数据处理任务模版,单任务及dag任务工作流调度等功能。集成了llm模块实现rag知识库问答,链接各数据源数据进行数据对话问答,交互式数据分析…☆249Updated last month
- Python网络爬虫与推荐算法新闻推荐平台:网络爬虫:通过Python实现新浪新闻的爬取,可爬取新闻页面上的标题、文本、图片、视频链接(保留排版) 推荐算法:权重衰减+标签推荐+区域推荐+热点推荐☆119Updated 4 years ago
- 基于Python3爬取知乎每日热点、每小时更新一次,并归档☆22Updated 5 months ago
- 后端使用Django,前端使用Vue3,爬虫使用Scrapy ,数据库使用Mysql实现的资讯综合网站,包含微博、b站、知乎的热榜信息以及微博和b站的博主的动态信息,并将其统一展示在网页中以方便浏览,还包含完善的个人管理页面和超级用户管理页面☆14Updated 2 years ago
- 各种爬虫:爱企查爬虫,网上114企业信息爬虫,抖音视频爬虫,wipo爬虫, 专利信息爬虫(patentscope)☆76Updated 3 years ago
- 项目名称:基于Python的疫情实时监控系统。项目基于Python语言、Python的Flask框架和Echarts来做的,涉及的技术有Python网络爬虫;Python与MySQL数据库的交互;Flask框架构建Web项目;Echarts数据可视化显示;Linux部署we…☆31Updated 5 years ago
- 今日热榜项目TopList的Python实现,异步爬取微博热榜,知乎,V2EX,GIthub,通过Flask展示。☆70Updated 6 years ago
- ElasticSearch+Django+Scrapy搜索引擎☆28Updated 2 years ago
- vue+Python+flask 资产管理系统☆35Updated 2 years ago
- django实现的前后端分离在线教育系统,包含考试和视频点播☆36Updated 2 years ago
- [2023.05.09]基于selenium的新浪微博关键字搜索结果全自动爬虫,支持自定义搜素关键字、搜索起始时间、爬取起始页数(以实现中断后接上次继续爬取)。爬取内容包括微博账号、发文时间、发送平台、微博内容、转发次数、评论次数、点赞次数、原博地址。☆31Updated last year
- 网络舆情分析系统☆189Updated 9 years ago
- 基于 Scrapy 的新闻智能分类微信小程序,是一个文本分类相关的应用,目的是打造出一个可以对新闻进行智能分类的微信小程序。技术栈:Python + Scrapy + MongoDB + scikit-learn + Flask + 微信小程序,涉及爬虫、文本分类、Web …☆63Updated 6 years ago
- 后端python flask 框架吐API接口给前端,前端用vue+echarts实现数据可视化☆10Updated last year
- Django框架编写的简易个人网盘☆33Updated 2 years ago
- 跨境电商ERP,跨境电商crm,亚马逊MWS,amazon mws,亚马逊crm,亚马逊erp,wish erp、ebay erp、速卖通erp、shopify erp、shopee erp(虾皮erp)、lazada erp跨境电商平台Java ERP系统。☆74Updated 5 years ago
- 生成短视频(翻译字幕,生成AI语音,图片合成动态视频,反向解析视频中单图)☆32Updated 2 years ago
- python实现实时自动生成短视频☆61Updated 4 years ago
- 微博的爬虫,从个人主页开始 爬博文和评论,用的scrapy 框架☆35Updated 2 months ago
- 定时爬取百度搜索风云榜实时热点.☆35Updated this week
- 本文使用Python编写爬虫,通过向端口传送请求并且抓取传输过来的json字符串来获取招聘职位信息,并且分类保存为csv格式的表格文件。最后通过长时间的爬取,最终得到37.7MB的表格数据,共计314093个招聘信息。之后通过SPSS对数据进行预处理和统计,再进行深度数据分…☆36Updated 9 years ago