txtcn / dumpLinks
中文语料库-每日自动更新版 ── 爬虫代码
☆15Updated 5 years ago
Alternatives and similar repositories for dump
Users that are interested in dump are comparing it to the libraries listed below
Sorting:
- 百度快排 - Baidu SEO☆23Updated 4 years ago
- 记录每天百度搜索热点☆24Updated 3 years ago
- 微信公众号文章采集管理工具☆87Updated 4 years ago
- 微信公众号10w+文章数据☆35Updated 7 years ago
- 汉字笔画库☆87Updated 5 years ago
- 爬虫工程师常用的 Chrome 插件 | Chrome extensions used by crawler developer☆96Updated 3 years ago
- CCNC: A Comprehensive Chinese Name Corpus (3.65M name samples). 大型中文姓名语料库 (内含365万姓名语例)。☆47Updated 4 months ago
- 伪原创相关☆14Updated 6 years ago
- 高效微信公众号历史文章和阅读数据爬虫powered by scrapy 微信公众号爬虫 微信采集 公众号采集☆70Updated 6 years ago
- 超轻量的中文敏感字、敏感词库,字典词典,超低误识别率,另提供API调用☆95Updated 6 years ago
- 利用CNN卷积神经网络来实现的可以识别内嵌视频下方字幕的视频播放器☆27Updated 4 years ago
- 更新给出selenium库的爬虫,效率很高,且能直接用。 python,大众点评的爬虫,突破反爬,获取关于任意店铺的评论和评分之类的。给出破解css加密的逻辑☆41Updated 5 years ago
- 微信公众号后台还是有很多好玩的API的, 例如搜索某个公众号的所有历史图文,或者根据关键词搜索原创的推文。☆53Updated 3 years ago
- 机器学习,公司起名,李白诗词创作,宝宝起名----实践char-rnn☆46Updated 7 years ago
- 敏感词库整理☆178Updated 9 years ago
- 中文词库/词典,可用于NLP项目、分词等场景☆62Updated 3 years ago
- 使用python3调用科大讯飞荣誉出品的配音阁进行多音色语音合成☆22Updated 6 years ago
- 爬虫爬取微信公众号文章☆108Updated 7 years ago
- ☆108Updated 5 years ago
- 微信公众号-文章-无限制抓取☆156Updated 6 years ago
- 微博爬虫。通过调用weibo api,而非暴力爬取的方式获取信息。☆32Updated 9 years ago
- QQ空间爬虫,一小时20万数据☆87Updated 7 years ago
- 之前我们通过 rnn已经获得了许多好名字,再结合一下生辰八字,生二胎的朋友们有福了☆19Updated 7 years ago
- 以前的伪原创类,放这做个纪念,仅此。☆14Updated 8 years ago
- 基于node.js的抓取微博、百度热搜、知乎日报、bilibili等热榜榜爬虫☆27Updated 3 years ago
- 中国大陆 31 个省份最近几日新增工商企业注册信息以及其他部分企业数据,大概100余万信息,包含企业名称、注册地址、统一社会信用代码、省份、城市、注册日期、经营范围、负责人、邮箱、注册资金、企业类型等资料。 In 31 provinces in mainland China…☆183Updated 6 years ago
- 现在有很多自媒体平台,如头条号、搜狐号、大鱼号、百家号等,每个人都可以成为创作者发布自己的作品。如果想把某个作者的文章都下下来,一篇一篇的下载会很麻烦,而用爬虫则会很简单,顺便还能练练手。这里就以抓取规则比较简单的搜狐号为例。☆17Updated 6 years ago
- 金庸15部小说字典☆43Updated 7 years ago
- 对小说文本进行分析,提炼小说剧情内容和人物关系☆87Updated 6 years ago
- python实现采集数据并发表到论坛中。涉及数据的爬取分析,discuz论坛的登录、发帖及回复等☆40Updated 12 years ago