houking-can / PDFConverter
Best PDF Converter! PDF to any format, pdf2word/excel/xml/html/txt...
☆150Updated 4 years ago
Alternatives and similar repositories for PDFConverter:
Users that are interested in PDFConverter are comparing it to the libraries listed below
- CCKS2019评测任 务五-公众公司公告信息抽取,第3名☆122Updated 5 years ago
- company name parser, extract company name brand. 中文公司名称分词工具,支持公司名称中的地名,品牌名(主词),行业词,公司名后缀提取。☆88Updated 2 years ago
- It's for a research for AI and law☆43Updated 4 years ago
- “法阿”中文分词:做最好的 Python 法律中文分词组件☆27Updated 4 years ago
- FinanceEventGraph,金融领域事件图谱开放数据集,可用于事件图谱搭建于实验,包括3865个acquire并购事件、9093个invest投资事件,总计12960的事件☆19Updated last year
- This repository contains the code that extracts a table from an image and exports it to an Excel.☆59Updated 6 years ago
- 中英文敏感词、语言检测、中外手机/电话归属地/运营商查询、名字推断性别、手机号抽取、身份证抽取、邮箱抽取、中日文人名库、中文缩写库、拆字词典、词汇情感值、停用词、反动词表、暴恐词表、繁简体转换、英文模拟中文发音、汪峰歌词生成器、职业名称词库、同义词库、反义词库、否定词库、汽…☆32Updated 6 years ago
- 天池比赛作品整理。实现从pdf中提取出姓名、出生年月、性别、电话、最高学历、籍贯、落户市县、政治面貌、毕业院校、工作单位、工作内容、职务、项目名称、项目责任、学位、毕业时间、工作时间、项目时间共18个字段。☆113Updated 8 months ago
- It's a python script that convert PDF to txt using PDFMiner☆46Updated 3 years ago
- 基于知识图谱的林业法律法规问答☆19Updated 2 years ago
- NER实体识别模型,快速高效简单一键部署docker部署调用模型。能识别:地址、人名、机构名实体。☆36Updated last year
- 该项目是为了使用layoutlmv3针对中文图片训练和推理。 其中主要解决三个问题: 1.数据标准化成可以的训练数据集格式 2.layoutlmv3-base-chinese 分词修改 2.超过512长度的文本切分和滑窗操作☆44Updated 6 months ago
- 🌳CED: Catalog Extraction from Documents☆16Updated last year
- 中文文本改写☆19Updated 4 years ago
- Graph QABot Demo| 图谱问答案例☆15Updated last year
- 基于gensim模块的中文句子相似度计算☆53Updated 6 years ago
- RelExt: A Tool for Relation Extraction from Text. 文本实体关系抽取工具。☆50Updated 2 years ago
- 文档方向分类☆216Updated 4 months ago
- 通用版面分析 | 中文文档解析 |Document Layout Analysis | layout paser☆46Updated 9 months ago
- 一个简单易用的 Python 模块,用于通过字符串来操作日期/时间。正则时间提取,字符串时间解析,字符串时间提取。中文时间提取,一句话里面提取时间☆75Updated 9 months ago
- 裁判文书数据☆11Updated 4 years ago
- A Multi-Modal Dataset of Chinese Governmental Docunments☆31Updated 4 years ago
- 合同信息抽取☆17Updated 4 years ago
- Recognize tables and text from scanned images that contain tables. 从包含表格的扫描图片中识别表格和文字☆254Updated last year
- 中文PDF转TXT的实用工具