NewComer00 / chinese-pdf-ocrLinks
🔎📖对中文PDF进行OCR | OCR for Chinese PDF file using API from DayBreak-u/chineseocr_lite
☆100Updated last year
Alternatives and similar repositories for chinese-pdf-ocr
Users that are interested in chinese-pdf-ocr are comparing it to the libraries listed below
Sorting:
- Retrained Tesseract OCR model for Chinese☆114Updated 3 years ago
- 【间隙·树·排序算法】 对OCR结果或PDF提取的文本进行版面分析,按人类阅读顺序进行排序。☆140Updated last year
- 📝 针对文档类图像做内容提取,将文档类图像一比一输出到Word或者Txt中,便于进一步使用或处理。后续计划支持输入PDF/图像,输出对应json格式、Txt格式、Word格式和Markdown格式。☆197Updated 7 months ago
- Analysis of Chinese and English layouts 中英文版面分析☆218Updated last week
- Based on RapidOCR, extract the PDF content☆172Updated last month
- 文档方向分类☆219Updated 7 months ago
- 汉字自动拆分系统开发☆101Updated last year
- 手写文字擦除第1名方案,水印智能消除赛第1名☆143Updated last year
- 文档图像处理工具(Document image processing tool),包括漂白 / 文字方向矫正 / 清晰增强 / 笔记去噪美化 / 去阴影 / 扭曲矫正 / 切边增强(DocBleach / TextOrientationCorrection / DocSha…☆58Updated 10 months ago
- 利用LLM+敏感词库,来自动判别是否涉及敏感词。☆124Updated last year
- Convert the model in PaddleOCR to ONNX format☆86Updated 3 months ago
- PDF 批量翻译,翻译后的PDF格式基本不变。导出PDF和Docx。优化并精简了来自于QPromise 的 EasyTrans。优化了通过百度翻译API稳定进行长翻译!☆141Updated last year
- 基于序列表格识别算法推理库,集成PP-Structure和modelscope等表格识别算法。☆320Updated this week
- 获取中文的笔画向量☆26Updated 3 years ago
- 一个可以验证和计算文本消耗 Token 的小工具,支持在浏览器中使用,汉化自 OpenAI Tokenizer。☆56Updated last year
- PDF全文翻译器:英文PDF论文→Mathpix识别→翻译(腾讯百度deepL)→中文PDF☆57Updated 3 months ago
- Python3 package for Chinese/English OCR, with paddleocr-v4 onnx model(~14MB). 基于ppocr-v4-onnx模型推理,可实现 CPU 上毫秒级的 OCR 精准预测,通用场景中英文OCR达到开源SO…☆87Updated 5 months ago
- 【星】pdf扫描件 转 docx☆51Updated 5 years ago
- 开源的中英文离线 OCR,使用 PaddleOCR 实现,提供了简单的 Web 页面及接口☆123Updated 3 years ago
- 第三方Doc2X桌面应用,支持Linux(X11,Wayland)/Windows☆35Updated 10 months ago
- doc2x docs☆61Updated 7 months ago
- The hanzi similar tool.(汉字相似度计算工具,中文形近字算法。可用于手写汉字识别纠正,文本混淆等。)☆269Updated last year
- ChatGLM-6B-Slim:裁减掉20K图片Token的ChatGLM-6B,完全一样的性能,占用更小的显存。☆126Updated 2 years ago
- Recognition of Various Common Seal Scans in Complex Environments☆47Updated last year
- 图片搜索引擎,很简单。三步构建属于你自己的图片搜索引擎,掌握向量数据库和以图搜图、文本搜索图片。☆145Updated last year
- 轻量超严格敏感词库☆135Updated 2 years ago
- 修正文档扭曲/模糊/阴影等情况,使用onnx模型简单轻量部署,未来持续跟进最新最好的文档矫正方案和模型,Correct document distortion using a lightweight ONNX model for easy deployment. We wi…☆63Updated 6 months ago
- transformers ocr for chinese☆395Updated 2 years ago
- CnOCR 是 Python 3 下的文字识别(Optical Character Recognition,简称OCR)工具包,支持简体中文、繁体中文(部分模型)、英文和数字的常见字符识别,支持竖排文字的识别。自带了20+个训练好的识别模型,适用于不同应用场景,安装后即可直…☆45Updated last year
- 渊 - A project for Classical Chinese☆105Updated 3 years ago