houking-can / PDFConverter
Best PDF Converter! PDF to any format, pdf2word/excel/xml/html/txt...
☆153Updated 4 years ago
Alternatives and similar repositories for PDFConverter
Users that are interested in PDFConverter are comparing it to the libraries listed below
Sorting:
- It's a python script that convert PDF to txt using PDFMiner☆46Updated 3 years ago
- ☆39Updated 8 years ago
- “法阿”中文分词:做最好的 Python 法律中文分词组件☆28Updated 4 years ago
- It's for a research for AI and law☆43Updated 4 years ago
- 中文PDF转TXT的实用工具☆30Updated 3 years ago
- PDF 批量翻译,翻译后的PDF格式基本不变。导出PDF和Docx。优化并精简了来自于QPromise 的 EasyTrans。优化了通过百度翻译API稳定进行长翻译!☆139Updated last year
- An exploration for Eventline (important news Rank organized by pulic time),针对某一事件话题下的新闻报道集合,通过使用docrank算法,对新闻报道进行重要性识别,并通过新闻报道时间挑选出时间线上重要…☆221Updated 6 years ago
- Event monitor based on online news corpus including event storyline and analysis,基于给定事件关键词,采集事件资讯,对事件进行挖掘和分析。☆152Updated 6 years ago
- 对收集的法律文档进行一系列分析,包括根据规范自动切分、案件相似度计算、案件聚类、法律条文推荐等(试验目前基于婚姻类案件,可扩展至其它领域)。☆200Updated 8 years ago
- 法律领域词典☆14Updated 5 years ago
- 图书名语料库。含部分电影、游戏名称。☆71Updated last year
- 错别字纠正算法。调用pycorrector接口,使用规则。☆69Updated 5 years ago
- A PDF translator which can translate English pdf into Chinese pdf. 将英文的PDF翻译并自动生成中文版PDF☆39Updated 5 years ago
- SmoothNLP领域词汇示例 - 基于复旦公开新闻资讯库☆49Updated 5 years ago
- company name parser, extract company name brand. 中文公司名称分词工具,支持公司名称中的地名,品牌名(主词),行业词,公司名后缀提取。☆90Updated 2 years ago
- 大语言模型ChatGLM-6B为基座,接入文档阅读功能进行实时问答,可上传txt/docx/pdf多种文件类型。☆41Updated last year
- 该项目主要是为了识别图片里面的表格数据,并将表格数据抽取处理,导出成csv的文件。整个项目会使用streamlit进行部署和展示。使用的技术:paddleocr,PPStructure,streamlit☆34Updated 2 years ago
- 医疗语料库。医疗机构名语料库。药品本位码。☆69Updated last year
- 中英文敏感词、语言检测、中外手机/电话归属地/运营商查询、名字推断性别、手机号抽取、身份证抽取、邮箱抽取、中日文人名库、中文缩写库、拆字词典、词汇情感值、停用词、反动词表、暴恐词表、繁简体转换、英文模拟中文发音、汪峰歌词生成器、职业名称词库、同义词库、反义词库、否定词库、汽…☆32Updated 6 years ago
- CCKS2019评测任务五-公众公司公告信息抽取,第3名☆121Updated 5 years ago
- 中文地址分词(地址元素识别与抽取),通过序列标注进行NER☆195Updated 5 years ago
- Plumb a PDF for detailed information about each char, rectangle, line, et cetera — and easily extract text and tables.☆57Updated last year
- A Python toolkit for file processing, text cleaning and data splitting. 文件处理,文本清洗和数据划分的python工具包。☆32Updated 2 years ago
- 中文、分词、词表、核心词典、事件词表、停用词、敏感词、问答、问答数据、知识图谱、文本语料。☆162Updated 3 years ago
- 【间隙·树·排序算法】 对OCR结果或PDF提取的文本进行版面分析,按人类阅读顺序进行排序。☆132Updated last year
- chinese anti semantic word search interface based on dict crawled from online resources, ChineseAntiword,针对中文词语的反义词查询接口☆59Updated 6 years ago
- 一个简单易用的 Python 模块,用于通过字符串来操作日期/时间。正则时间提取,字符串时间解析,字符串时间提取。中文时间提取,一句话里面提取时间☆76Updated 10 months ago
- NER实体识别模型,快速高效简单一键部署docker部署调用模型。能识别:地址、人名、机构名实体。☆36Updated last year
- 利用文本分析算法和Python脚本,自动纠正word中的英语单词拼写错误☆47Updated 6 years ago
- 公司名简称生成,采用马尔科夫构造序列标注概率分布,使用维特比前后向算法推导生成。☆27Updated 6 years ago