Deep2018530 / FileParseUtil
可以将word(doc、docx)、excel、pdf、ppt、csv、txt文件的文本内容提取出来,同时能够提取出word、pdf文件的目录
☆68Updated 2 years ago
Related projects ⓘ
Alternatives and complementary repositories for FileParseUtil
- 中文分词、统计词频、比对文本相似度☆37Updated 5 years ago
- Spring Boot示例,以及Spring Boot与其他三方框架整合示例。在开发中遇到方便查询☆26Updated last week
- 博客猎手,基于webMagic的博客爬取工具,支持慕课、csdn、iteye、cnblogs、掘金和V2EX等各大主流博客平台。博客千万篇,版权第一条。狩猎不规范,亲人两行泪。☆71Updated 2 years ago
- 敏感词过滤、广告词过滤、包含敏感词库,停顿词库。☆177Updated 8 years ago
- 本项目是基于Word分词插件实现的中文地址解析功能, 可解析出地址的省市区、行政区划代码和详细地址。地址是前置模糊匹配☆32Updated 2 years ago
- 文本查重SDK,可用于论文查重、标书查重、文档查重、作业查重、合同查重、防串标等场景。关联:duplicate check☆121Updated 5 months ago
- 自然语言处理 中文分词 词性标注 命名实体识别 依存句法分析 新词发现 关键词短语提取 自动摘要 文本分类聚类 拼音简繁 http://hanlp.com/☆35Updated 5 years ago
- 中文笔划排序(中文笔画排序)、20902个汉字的笔画数目以及编码表。☆44Updated 5 years ago
- 视频、音频、图片内容识别、语音转写、语音合成 / easy convert video audio image to text, and revert text to audio(base64)☆21Updated last month
- 基于Java实现手写汉字识别系统,不使用机器学习的方法,而是使用0-1矩阵的文件来保存手写体的字形,再通过欧氏距离计算出可能的字符,是一个比较简单的手写识别系统,可以比较准确的识别出大多数的常用汉字。☆14Updated 5 years ago
- 基于MyBatis-Generator+SQLite+beautyeye_lnf开发的一款图形化代码生成器☆20Updated 6 years ago
- 基于Minio的文件微服务☆27Updated 5 months ago
- 生成带有背景图片、用户网络头像、用户名称的二维码图片☆34Updated 7 years ago
- 微信公众号文章爬虫☆43Updated 2 years ago
- 微信公众号爬虫:服务端公众号文章数据采集☆43Updated last year
- 基于百度AI 的图片搜索、以图搜图、相似图查找☆34Updated last year
- 通用企业门户网站,门户所有内容均可在后台配置,支持多皮肤,以及自定义皮肤开发,皮肤可在后台配置。功能模块:轮播图,发展历程,关于我们,服务领域,新闻动态,团队风采,诚聘英才,联系我们。管理后台主要包括门户上各个板块得内容发布管理,和系统设置。门户演示地址http://upi…☆66Updated last year
- 一个api网关项目,可以当做api开放平台或外网转内网的转发工具 (仅支持http/https转发,基于HttpClient4.5),1、项目基于ruoyi搭建:http://www.ruoyi.vip 2、基于appKey+appSecret的账号 3、api支持通配…☆37Updated 2 years ago
- 蜂巢爬虫系统 是一套只需要定义XPath,就可实现爬取网站,APP的系统, 支持多种解析方式(XPath,正则表达式),多种下载方式(HttpClient库, PhantomJs, Selenium),多种输出方式(Excel,MongoDB)。 可不做任何修改发布到Yar…☆10Updated 8 years ago
- Family tree analysis of enterprise information, through the enterprise shareholders and foreign investment, show the relationship map of …☆48Updated 5 years ago
- 追求更快更全的 Java 工具类☆45Updated this week
- 基于分词原理修改写的一个过滤敏感词库,可以改成动态,支持返回敏感词,高亮敏感词,替换敏感词等操作,本敏感词收集了5W多个违法词、敏感词、违禁词,已去重,最新追加了将近1W个最新词,几十个矫正词、变异词。☆191Updated 4 years ago
- Excel导入导出工具,使用Apache POI,支持下拉列表,支持导入错误信息返回☆16Updated 5 years ago
- JAVA实现的IP代理池,支持HTTP与HTTPS两种方式☆43Updated 5 years ago
- 简历解析☆26Updated 2 months ago
- 本地作业查重系统。对本地某一目录下所有word文档和txt文档进行两两之间的相似度计算。图片相似度采用PHash算法,文字相似度采用jaccard相似度和余弦相似度结合进行计算。程序已经生成了32位和64位exe文件,直接解压后选择作 业查重x32和作业查重x64文件夹即可运…☆65Updated 6 months ago
- java音频格式转换工具☆36Updated 7 years ago
- Licence GitHub Release 简介 Spring Boot API Project Seed 是一个基于Spring Boot & MyBatis的种子项目,用于快速构建中小型API、RESTful API项目,该种子项目已经有过多个真实项目的实践,稳定…☆63Updated 2 years ago
- java将文档转换成html,支持word、excel、ppt、pdf☆51Updated 6 years ago
- 文档转换 doc转pdf excel转pdf ppt转pdf html转pdf 以及pdf与各文档互转 pdf转图片☆27Updated 5 years ago