NewComer00 / chinese-pdf-ocr
🔎📖对中文PDF进行OCR | OCR for Chinese PDF file using API from DayBreak-u/chineseocr_lite
☆99Updated 10 months ago
Alternatives and similar repositories for chinese-pdf-ocr
Users that are interested in chinese-pdf-ocr are comparing it to the libraries listed below
Sorting:
- Based on RapidOCR, extract the PDF content☆166Updated last week
- 【间隙·树·排序算法】 对OCR结果或PDF提取的文本进行版面分析,按人类阅读顺序进行排序。☆132Updated last year
- Retrained Tesseract OCR model for Chinese☆109Updated 2 years ago
- GOT-OCR的GUI版本,提供OCR、导出PDF、批处理等功能,但不提供训练功能☆170Updated this week
- a pdg2pdf tool to convert pdg files to pdf☆50Updated 3 years ago
- LLama3中文个人版本☆39Updated last year
- CnOCR 是 Python 3 下的文字 识别(Optical Character Recognition,简称OCR)工具包,支持简体中文、繁体中文(部分模型)、英文和数字的常见字符识别,支持竖排文字的识别。自带了20+个训练好的识别模型,适用于不同应用场景,安装后即可直…☆41Updated last year
- Analysis of Chinese and English layouts 中英文版面分析☆208Updated last month
- pretrained models for cnocr☆56Updated 3 years ago
- Anti OCR, Free Texts (拒绝被OCR,让文字得到自由)。把文本转换成机器无法识别但人可读的图片。☆51Updated 2 years ago
- Library classification systems such as Library of Congress Classification, Chinese Library Classification (《中国图书馆分类法》).☆69Updated 5 years ago
- Python3 package for Chinese/English OCR, with paddleocr-v4 onnx model(~14MB). 基于ppocr-v4-onnx模型推理,可实现 CPU 上毫秒级的 OCR 精准预测,通用场景中英文OCR达到开源SO…☆81Updated 3 months ago
- 使用 spleeter 将视频中的人声提取出来(去除背景音),再对视频中的声音进行分析,分成静音部分和非静音部分,分别施加不同的速度,最后合成到一个新视频。☆153Updated 4 years ago
- 通过paddle ocr实现pdf转markdown☆69Updated 7 months ago
- 文档方向分类☆217Updated 5 months ago
- 手写文字擦除第1名方案,水印智能消除赛第1名☆140Updated last year
- 利用LLM+敏感词库,来自动判别是否涉及敏感词。☆122Updated last year
- 上海证券交易所上市公司定期报告下载,项目地址☆98Updated 2 months ago
- 记录知乎热搜、热门话题、热门视频,每小时更新,按天归档。☆53Updated this week
- 学习vLLM,使用vLLM部署Qwen2-0.5B的模型,并使用docker部署。☆16Updated 10 months ago
- 一个中文语音转文字项目,封装自FireRedASR☆47Updated 2 months ago
- 修正文档扭曲/模糊/阴影等情况,使用onnx模型简单轻量部署,未来持续跟进最新最好的文档矫正方案和模型,Correct document distortion using a lightweight ONNX model for easy deployment. We wi…☆51Updated 5 months ago
- ✅Deploy PaddleOCR with flask | 利用Flask对PaddleOCR进行部署,方便调用☆40Updated 2 years ago
- pinyintokenizer, 拼音分词器,将连续的拼音切分为单字拼音列表。☆30Updated 3 months ago
- 想要从零开始训练一个中文的mini大语言模型,可以进行基本的对话,模型大小根据手头的机器决定☆59Updated 9 months ago
- 从NLP出发对于OCR的深度实践集锦,重在实战☆88Updated 4 years ago
- 多显卡部署版 | ChatGLM-6B:开源双语对话语言模型 | An Open Bilingual Dialogue Language Model☆62Updated 2 years ago
- Convert the model in PaddleOCR to ONNX format☆84Updated 2 months ago
- llama.cpp with unicode (windows) support☆53Updated 2 years ago
- PDF 批量翻译,翻译后的PDF格式基本不变。导出PDF和Docx。优化并精简了来自于QPromise 的 EasyTrans。优化了通过百度翻译API稳定进行长翻译!☆139Updated last year