adetion / txtfilemergeLinks
TXT文本语料数据清洗(Text corpus data cleaning):1> 合并TXT文件;2> 过滤干扰字符串;3> 对人名、地名、组织机构进行遮码处理;4> 将其他编码格式统一转换为UTF-8
☆19Updated 3 years ago
Alternatives and similar repositories for txtfilemerge
Users that are interested in txtfilemerge are comparing it to the libraries listed below
Sorting:
- MiniRBT (中文小型预训练模型系列)☆296Updated 5 months ago
- 使用Sentencepiece对中文语料进行分词☆13Updated 2 years ago
- 中文文本相似度计算器☆166Updated last year
- 用于汇总目前的开源中文对话数据集☆191Updated 2 years ago
- CINO: Pre-trained Language Models for Chinese Minority (少数民族语言预训练模型)☆258Updated 5 months ago
- 中文 NLP 资源库,语料库,相关的框架,文章收集。☆27Updated 3 years ago
- 一个面向中文文本纠错任务的综合平台,集学术研究、模型训练、模型评测和推理部署于一体,覆盖拼写纠错与语法纠错两个核心方向。☆450Updated 2 weeks ago
- ChatGPT WebUI using gradio. 给 LLM 对话和检索知识问答RAG提供一个简单好用的Web UI界面☆138Updated last year
- 一个简单快速的分词、命名实体识别工具☆623Updated 3 months ago
- 一个基于预训练的句向量生成工具☆138Updated 2 years ago
- ☆170Updated last year
- 打造人人都会的NLP,开源不易,记得star哦☆102Updated 2 years ago
- <数字人文教程>资源合集☆111Updated last year
- 从小说中提取对话数据集☆296Updated 3 months ago
- 雅意信息抽取大模型:在百万级人工构造的高质量信息抽取数据上进行指令微调,由中科闻歌算法团队研发。 (Repo for YAYI Unified Information Extraction Model)☆314Updated last year
- Minimal keyword extraction with BERT☆88Updated 4 years ago
- 爬取各种数据的爬虫的样例(百度百科、知乎、微博、简书、搜狗词库),可用于自然语言处理语料收集☆13Updated 5 months ago
- A NLP package for Chinese text:Preprocessing, Tokenization, Chinese Fonts, Word Embeddings, Text Similarity and Sentiment Analysis 轻量级中文自…☆36Updated last year
- [COLING 2022] CSL: A Large-scale Chinese Scientific Literature Dataset 中文科学文献数据集☆653Updated 2 years ago
- This repository provides an implementation of "A Simple yet Effective Training-free Prompt-free Approach to Chinese Spelling Correction B…☆85Updated 5 months ago
- 供AI训练的中文数据集(持续更新。。。)与AI公司图谱,目前的数据集餐饮行业8000问,百度知道,Alpaca中文数据集,计算机领域数据集,Vicuna数据集,RedPajama数据集,Wikipedia中文词条数据集,网站论坛问答数据集☆62Updated 2 years ago
- A Python toolkit for file processing, text cleaning and data splitting. 文件处理,文本清洗和数据划分的python工具包。☆34Updated 3 years ago
- 基于pytorch的中文意图识别和槽位填充☆206Updated 4 months ago
- gpt_server是一个用于生产级部署LLMs、Embedding、Reranker、ASR、TTS、文生图、图片编辑和文生视频的开源框架。☆242Updated last week
- 在中文开源大模型的基础上进行定制化的微调,拥有自己专属的语言模型。☆51Updated 2 years ago
- Fine-tune the Whisper speech recognition model to support training without timestamp data, training with timestamp data, and training wit…☆312Updated this week
- 🌈 NERpy: Implementation of Named Entity Recognition using Python. 命名实体识别工具,支持BertSoftmax、BertSpan等模型,开箱即用。☆116Updated last year
- clueai工具包: 3行代码3分钟,自定义需要的API!☆232Updated 2 years ago
- 中文标点符号模型,可以给文本添加标点符号。☆147Updated last year
- Alpaca Chinese Dataset -- 中文指令微调数据集☆218Updated last year