hanshiqiang365 / ocr_demo
OCR Demo
☆24Updated 5 years ago
Related projects ⓘ
Alternatives and complementary repositories for ocr_demo
- 基于纯文本的简历解析桌面版,自带一键安装卸载程序,支持磁盘扫描,后台监控进程自动扫描,支持简历内容抽取,简历解析,解析后结构化存储,识别的文件格式有pdf,word,text,html等☆39Updated 7 years ago
- 本项目使用python3.5.2,使用scrapy作为爬取框架,主要爬取银行营销信息的爬虫项目,使用selenium模拟人工操作流程,包括保存登录信息cookies。 模拟人工操作规避ajax请求的动态渲染等问题,主要爬取银行官网,微信搜狗上银行的信息,微小宝上银行信息,银…☆18Updated 5 years ago
- 基于开源保险产品数据构建的保险知识图谱及简易问答系统☆33Updated 4 years ago
- 发票OCR识别(可扩展,配置参数识别其他票据)☆38Updated 7 years ago
- gunicorn+gevent+restful,一个标准的高并发flask项目☆47Updated 5 years ago
- 借助jieba分词库和与之相关的算法。用于测试对非规范地址的分析、试分词,并进一步设计数据清洗算法 。☆37Updated 7 years ago
- 💡数据化运营💡:会员数据化运营(RFM模型、营销响应预测)、商品数据化运营、流量数据化运营、内容数据化运营☆44Updated 5 years ago
- Finance and Investment Info Spider Collections - 投融资信息爬虫集合☆22Updated 5 years ago
- 本项目为企业工商信息网络爬虫,输入行业关键字,例如“铜箔”,可爬取八方资源网等工商信息网上所有与铜箔有关企业的工商信息。☆23Updated 6 years ago
- 一个中国知网的爬虫工具,给定作者,可以获得该作者的所有文献的题录☆14Updated 5 years ago
- 法律知识图谱网站。A legal knowledge graph web project.☆16Updated 6 years ago
- 依据香港中文大学设计的规则系统,先用小样本评论建立初始关键词库,再结合18种句式逐条匹配评论,能够快速准确地识别评论对象及情感极性。经多次迭代优化关键词库后,达到较高准确率的基础上,使用Tableau进一步分析数据,识别出客户集中关注的商品属性、普遍好评差评的商品属性;通过…☆53Updated 7 years ago
- 用Python将doc文件批量转为docx文件☆63Updated 6 years ago
- 爬取知网论文☆30Updated 6 years ago
- 医疗语料库。医疗机构名语料库。药品本位码。☆57Updated 7 months ago
- 基于Python+Flask+MySQL的数据微中台,支持数据库管理、数据收集(某乎爬虫等)等功能☆10Updated 4 years ago
- 个人实现的基于Django与semantic-ui的语言计算实验平台, 功能包括自然语言综合处理,词语计算,社会热点计算,人物计算,文学画 像,职位画像等社会计算功能☆29Updated 6 years ago
- 聊天机器人,语义理解,快速开始☆23Updated 3 years ago
- How to Python and Machine Learning book code repository☆46Updated 5 years ago
- 基于知识图谱的林业法律法规问答☆16Updated last year
- spark tutorial for big data mining。包括app流量运营分析、als推荐、smote样本采样、RFM客户价值分群、AHP层次分析客户价值得分、手机定位数据商圈挖掘、马尔可夫智能邮件预测、时序预测、关联规则、推荐电影好友等。☆39Updated 2 years ago
- django+es搭建的前后端分离,唐诗宋词搜索引擎。☆36Updated 2 years ago
- 爬虫项目,领英、专利、乐捐、好大夫、阿里拍卖、看准网、实习僧、百度百科、51job、智联招聘等近80个网站☆79Updated 4 years ago
- 利用kashgari轻松搭建文本分类模型。☆25Updated 5 years ago
- 实现了简单的智能问 答应用。输入问答列表,训练模型,一个智能智能问答机器人便生成了!☆16Updated last year
- 微博内容及评论自动爬取☆45Updated 3 years ago
- 发现新词 无监督词库生成 医学词库生成 发现未登录词☆77Updated 3 years ago
- 文本分类是指在给定分类体系下 , 根据文本的内容自动确定文本类别的过程。首先我们根据scrapy爬虫根据中国知网URL的规律,爬取70多万条2014年公开的发明专利,然后通过数据清洗筛选出了60多万条含标签数据。通过TF-IDF对60多万条本文进行词频提取, 依照词频排序提取…☆102Updated 6 years ago
- Python脚本实现千万级文本数据快速去重☆18Updated 8 years ago
- 爬取去哪儿景点进行数据分析并生成热力图☆71Updated 5 years ago