Python脚本实现千万级文本数据快速去重
☆19Mar 14, 2016Updated 10 years ago
Alternatives and similar repositories for PythonTo-repeat-the-text-Bigdata
Users that are interested in PythonTo-repeat-the-text-Bigdata are comparing it to the libraries listed below
Sorting:
- 文档去重功能是为了解决搜索引擎的文档语义重复的问题,方法是多重哈希下的语义指纹算法。☆12Aug 17, 2013Updated 12 years ago
- 基于Hadoop和HBase的大规模海量数据去重☆30Apr 8, 2018Updated 7 years ago
- 平时记录的一些Python常用脚本☆26Aug 7, 2019Updated 6 years ago
- 这里存放的是一些自己写过的脚本,用以记录☆12Mar 30, 2018Updated 7 years ago
- 微服务的网关,包含oauth2授权、调用次数限制和服务路由☆13Jan 12, 2017Updated 9 years ago
- convert audio message extracted from wechat to mp3☆22May 5, 2019Updated 6 years ago
- Animated PySimpleGUI popup screen for running processes☆16Nov 20, 2019Updated 6 years ago
- 基于springboot 的swagger2动态接口文档在线生成,集成导出html/markdown/confluence 等静态文档 。 及接口操作AOP日志自动记录☆11Aug 26, 2024Updated last year
- 文本去重算法,研究自推荐系统中新闻的去重,采用了雅虎的Near-duplicates and shingling算法,服务端用c实现,客户端用java实现,利用thrift框架进行通信,为了提高扩展性,去重可以在服务端实现,服务器也提供了计算的接口,方便客户端自己扩展☆24Feb 25, 2014Updated 12 years ago
- 异步bilibili下载器,支持下载视频和番剧,基于aiohttp和asyncio的协程下载,速度飞快~☆12Feb 20, 2020Updated 6 years ago
- 股票实时查看并告警工具☆12Mar 12, 2023Updated 3 years ago
- 基于`baidu amis`的`pydantic`数据模型构建库,用于快速生成/解析`amis` `json` 数据.☆13Jun 18, 2022Updated 3 years ago
- 阿里云 oss 的spring boot自动化配置☆14Dec 23, 2016Updated 9 years ago
- electron 桌面应用,支持macos,Windows系统,无广告,清爽,影视剧搜索神器☆11Jul 22, 2020Updated 5 years ago
- Pudding 是一款迷你级分布式服务框架☆24Apr 26, 2017Updated 8 years ago
- 规则引擎☆22Feb 28, 2018Updated 8 years ago
- 股票自动交易助手☆17Sep 16, 2017Updated 8 years ago
- A simple chrome-extension for website fingerprint extraction☆18May 28, 2025Updated 9 months ago
- 针对小爱音箱的hack☆15Sep 4, 2024Updated last year
- Front-end scaffold tool for your django-projects☆13Jun 12, 2021Updated 4 years ago
- BurpSuite Rpc 算法转发插件☆17Jan 4, 2023Updated 3 years ago
- 冲顶大会,芝士超人,百万英雄等搜题辅助,理论上可以用在任意答题类APP上,调整截图坐标是识别的关键.☆41Dec 7, 2022Updated 3 years ago
- This is a personal website. Please do not fork this project.☆11Mar 11, 2026Updated last week
- Java二次封装阿里OSS对象存储☆12Oct 19, 2018Updated 7 years ago
- 谷歌浏览器插件,自动修改电脑端浏览器的Navigator变成移动端Navigator☆16Dec 18, 2022Updated 3 years ago
- pip install pysnooper_click_able 神级别黑科技装饰器,实现难度5颗星。不用打断点不用到处加print的deubg工具,可以精确显示代码运行率轨迹并点击。base pysnooper, but can click and jump to c…☆21Nov 18, 2021Updated 4 years ago
- WeixinPress的主要功能就是能够将你的微信公众账号和你的WordPress博客关联,搜索和用户发送关键字匹配的文章,依据命令查看最新文章、热门文章和随机文章。☆16Mar 20, 2014Updated 12 years ago
- 针对FMDB,写的一套ORM和SQL辅助工具,1)自动的orm,将fmdb返回的字典转换成对象,2)自动的sql生成与处理,支持链式语法无需学习sql,生成sql语句☆12Apr 29, 2016Updated 9 years ago
- ☆10May 15, 2024Updated last year
- (Go) Own remote desktop platform☆16Jan 15, 2018Updated 8 years ago
- 自动生成数据库设计文档☆19May 26, 2023Updated 2 years ago
- python实现监控日志,分析日志当发现错误时,发邮件,实现实时监控☆16Nov 8, 2018Updated 7 years ago
- 基于关键字的配置化电商爬虫,目前已实现京东和苏宁(淘宝反爬太严重,因为没有使用selenium)☆12Jun 3, 2020Updated 5 years ago
- 利用python的Image库对图片进行无损压缩☆20May 21, 2019Updated 6 years ago
- 使用微信控制HomeAssistant☆33May 14, 2025Updated 10 months ago
- 基于Django的京东商品比价系统+基于request京东爬虫☆12Jun 19, 2020Updated 5 years ago
- 一款截图翻译小工具,自带截屏功能,图像识别,翻译功能调用百度接口!☆14Nov 23, 2020Updated 5 years ago
- 监控系统后台前端demo,使用vue、element-ui、echarts和mqtt☆13Jan 29, 2024Updated 2 years ago
- ☆20May 6, 2018Updated 7 years ago