soaringsoul / stats_spider
国家统计局统计用区划和城乡划分代码采集程序,可采集2009年迄今所有年份的计用区划和城乡划分代码
☆16Updated 6 years ago
Alternatives and similar repositories for stats_spider
Users that are interested in stats_spider are comparing it to the libraries listed below
Sorting:
- 此文本分类项目主要面向机器学习初学者和文本分类效果测试者,项目内部含有朴素贝叶斯,余弦定理,逻辑回归多种分类算法以及mm,rmm分词器,同时从某新闻站点爬取了多个分类共6000多篇文章,以及一个中文词典。项目方便自由拓展各种分类器和分词器,并通过组装测试分类效果。☆35Updated 7 years ago
- 抓取中国地区的所有POI数据,基于http://www.poi86.com/☆10Updated 7 years ago
- 简单、免费、高效的百度地图poi采集和分析工具。☆120Updated last year
- 马蜂窝游记、景点信息爬虫,热门景点热力图☆18Updated 4 years ago
- spark tutorial for big data mining。包括app流量运营分析、als推荐、smote样本采样、RFM客户价值分群、AHP层次分析客户价值得分、手机定位数据商 圈挖掘、马尔可夫智能邮件预测、时序预测、关联规则、推荐电影好友等。☆40Updated 2 years ago
- 大数据报告:数据可视化与数据分析,支持多数据源、实时、定时生成报告 报告模板完全自定义、报告内容丰富包括、报告文件类型多样 报告提供下载、邮件定时发送☆18Updated 9 months ago
- 本项目为企业工商信息网络爬虫,输入行业关键字,例如“铜箔”,可爬取八方资源网等工商信息网上所有与铜箔有关企业的工商信息。☆24Updated 6 years ago
- 猎头招聘数据仓库☆40Updated 7 years ago
- 中国行政区域国家统计局标准统计用区划代码,省市区联动以及镇、街道、村、居委会等共5级行政区域数据的获取并建库,同时提供JSON数据文件与Mongodb数据库备份文件。爬虫程序基于Python语言,存储于MongoDB☆100Updated 6 years ago
- 中文地址解析☆16Updated 8 years ago
- 数据采集、数据审核、数据分析平台☆11Updated 2 years ago
- 天眼查网站批量查询工具☆49Updated last year
- “宜出行”热力图数据爬虫 A crawler for Tencent EasyGo☆42Updated 7 years ago
- 对QQ群的聊天记录进行分析,得出此群情感,话题演化等☆21Updated 7 years ago
- 舆情分析平台☆34Updated 7 years ago
- 百度爬虫:热词,词频,音乐,poi信息☆22Updated 10 years ago
- scrapy实现商事主体信息公示平台爬虫。查询工商注册信息的网站,输入关键词可以爬相关所有注册企业数据的数据。 网址:http://cri.gz.gov.cn/☆26Updated 6 years ago
- 爬虫项目,领英、专利、乐捐、好大夫、阿里拍卖、看准网、实习僧、百度百科、51job、智联招聘等近80个网站☆84Updated 4 years ago
- spider and a web application for WanFang scholar website 万方数据爬虫+Web展示+TF-IDF相似度分析☆24Updated 4 years ago
- 搜索引擎关键词排位爬虫,包括百度,搜狗,360的搜索引擎关键词排位爬虫,关键词从百度热词中取得,排位分别从三个搜索引擎中抓取。☆19Updated 5 years ago
- 一个基于pyqt5的百度地图兴趣点GUI采集工具,可根据关键词搜索指定区域的兴趣点,并导出为excel文件☆137Updated last year
- 中国经纬度坐标值解析成行政区规划地址,精确到县级别。☆27Updated 7 years ago
- Finance and Investment Info Spider Collections - 投融资信息爬虫集合☆22Updated 6 years ago
- 个人实现的基于Django与semantic-ui的语言计算实验平台, 功能包括自然语言综合处理,词语计算,社会热点计算,人物计算,文学画像,职位画像等社会计算功能☆29Updated 7 years ago
- 借助jieba分词库和与之相关的算法。用于测试对非规范地址的分析、试分词,并进一步设计数据清洗算法 。☆37Updated 8 years ago
- 「百度医生」三甲医院数据爬取练习(数据公开)☆27Updated 7 years ago
- 通过图形界面为数据监控以及数据同步提高良好的服务,可支持数据同步的数据源或数据库有:SQL数据源、NoSQL数据源、数据引擎、数据仓库、消息队列;通过Canal可支持数据库监控以及数据备份。☆24Updated 4 years ago
- 💡数据化运营💡:会员数据化运营(RFM模型、营销响应预测)、商品数据化运营、流量数据化运营、内容数据化运营☆46Updated 5 years ago
- 金融数据爬虫☆28Updated 9 years ago
- 新词发现分布式机器学习算法。☆15Updated 10 years ago