shibing624 / pinyin-tokenizer
pinyintokenizer, 拼音分词器,将连续的拼音切分为单字拼音列表。
☆29Updated last month
Alternatives and similar repositories for pinyin-tokenizer:
Users that are interested in pinyin-tokenizer are comparing it to the libraries listed below
- Python3 package for Chinese/English OCR, with paddleocr-v4 onnx model(~14MB). 基于ppocr-v4-onnx模型推理,可实现 CPU 上毫秒级的 OCR 精准预测,通用场景中英文OCR达到开源SO…☆65Updated 2 months ago
- 一个微博毒舌AI,疯狂 diss 微博博主☆12Updated 2 months ago
- A Python Package to Access World-Class Generative Models☆128Updated 9 months ago
- SearchGPT: Building a quick conversation-based search engine with LLMs.☆45Updated 2 months ago
- Evaluation for AI apps and agent☆36Updated last year
- Tracking the hot Github repos and update daily 每天自动追踪Github热门项目☆47Updated this week
- 利用LLM+敏感词库,来自动判别是否涉及敏感词。☆112Updated last year
- 百度QA100万数据集☆47Updated last year
- 百度百科 500 万数据集☆34Updated last year
- 通用版面分析 | 中文文档解析 |Document Layout Analysis | layout paser☆46Updated 9 months ago
- A convenient Chinese word segmentation tool 简便中文分词器☆46Updated 2 months ago
- 如需体验textin文档解析,请点击https://cc.co/16YSIy☆22Updated 8 months ago
- ChatGLM-6B-Slim:裁减掉20K图片Token的ChatGLM-6B,完全一样的性能,占用更小的显存。☆126Updated last year
- 大语言模型训练和服务调研☆37Updated last year
- Chinese Couplets Dataset without vulgar words. 不包含敏感内容的对联数据集。☆72Updated 5 years ago
- 基于Qwen2模型进行通用信息抽取【实体/关系/事件抽取】☆30Updated 8 months ago
- 基于行块分布函数的通用网页正文抽取算法优化,Python实现☆60Updated 5 years ago
- 该项目主要是抽取病历文件中的一些关键信息。并将抽取的内容进行streamlit前端的展示。目前支持的文件类型:图片,pdf文件,word文件☆23Updated 2 years ago
- 基于sentence transformers和chatglm实现的文档搜索工具☆154Updated last year
- use chatGLM to perform text embedding☆45Updated last year
- 演示 vllm 对中文大语言模型的神奇效果☆31Updated last year
- Silk Road will be the dataset zoo for Luotuo(骆驼). Luotuo is an open sourced Chinese-LLM project founded by 陈启源 @ 华中师范大学 & 李鲁鲁 @ 商汤科技 & 冷子…☆38Updated last year
- ChatGLM-6B fine-tuning.☆135Updated last year
- 打造人人都会的NLP,开源不易,记得star哦☆101Updated last year
- 一个基于预训练的句向量生成工具☆136Updated last year
- A demo built on Megrez-3B-Instruct, integrating a web search tool to enhance the model's question-and-answer capabilities.☆37Updated 3 months ago
- ☆26Updated 5 months ago
- ☆40Updated last year
- GPT+神器,简单实用的一站式AGI架构,内置本地化,LLM模型,agent,矢量数据库,智能链chain☆48Updated last year
- 一个非常高效的字符串匹配工具,支持正向/反向最大匹配分词和多模式字符串精确匹配☆17Updated last year