nmusik / padpdf-ocr
PaddleOCR for Chinese pdf
☆13Updated 2 years ago
Related projects: ⓘ
- 百度汉语字典爬虫,拼音数据,35万海量百度词典数据。☆21Updated 2 years ago
- self complemented AlindexSpyder based on Selenium ,阿里商品指数抓取,包括淘宝采购指数,淘宝供应指数,1688供应指数。☆21Updated 6 years ago
- worddict crawler and transfer for sougpuinput wordict , 搜狗输入法词库抓取与格式转换☆25Updated 6 years ago
- 中文文本改写☆19Updated 3 years ago
- 图书名语料库。含部分电影、游戏名称。☆66Updated 5 months ago
- Automatically generate popular videos 自动生成热门视频☆45Updated 2 years ago
- 中文古诗词语料库☆21Updated 8 years ago
- 针对口语进行时间抽取并标准化☆14Updated 4 years ago
- self complemented WeiboIndexSpyder based on Selenium ,新浪微博指数(微指数)采集,包括综合指数,移动端指数,PC端指数☆32Updated 6 years ago
- 基于ffmpeg最新版与Python3最新版开发的视频与文件处理工具,可以批量递归进行处理视频(改名,倍速,提取音频或不含音频的视频,替换原视频中的音频)☆9Updated 3 years ago
- 物种名称语料库。植物名,动物名。☆40Updated 5 months ago
- 《现代汉语大词典》字词头☆23Updated 3 years ago
- lightsmile个人的用于爬取网络公开语料数据的mini通用爬虫框架。☆12Updated 3 years ago
- 搜狗细胞词库到普通文本的转换提取工具。提取词汇表,用于深度学习做数据生成和字典特征☆22Updated 5 years ago
- 我的常用脚本☆92Updated 7 months ago
- Python爬虫项目集合☆52Updated 5 years ago
- ☆10Updated this week
- 中文新词发现算法PNW算法,可以识别任意长度的新词。☆15Updated last year
- 兼容 GPT2、Bloom 等 Pytorch 框架下的语言模型、人工智能标记语言 (AIML) 和任务型对话系统 (Task) 的深度中文智能对话机器人框架☆26Updated last year
- Large-scale exact string matching tool☆15Updated 11 months ago
- Easy to use UI built with Streamlit for using ChatGPT, Claude, Stable Diffusion and beyond☆17Updated last year
- Chinese characters code table 全部汉字20902个汉字的全拼|五笔|郑码|UNICODE|GBK|笔画数|部首|笔顺编号等编码☆14Updated last year
- 使用 Python 制作简单视频 🎬☆17Updated 2 years ago
- 名人名言,格言网,整站数据获取爬虫。☆16Updated 4 years ago
- 金庸小说人物关系图谱构建☆61Updated 4 years ago
- TTS(Text to speech) GUI using Baidu TTS api, currently only support Chinese; 将文字转换为语音mp3文件,自动拆分较长文本文件,适合用于生成有声小说☆45Updated 5 years ago
- ULR2io Python Client 用于网页信息提取、文本处理等,如正文提取、中文分词等。☆8Updated 6 months ago
- 利用 onnxruntime 及 PaddleOCR 提供的模型, 对图片中的文字进行检测与识别.☆72Updated last year
- ☆35Updated 5 years ago
- 用最简单的代码带你实现基于大模型的本地知识库问答系统☆22Updated last year