adetion / txtfilemergeLinks
TXT文本语料数据清洗(Text corpus data cleaning):1> 合并TXT文件;2> 过滤干扰字符串;3> 对人名、地名、组织机构进行遮码处理;4> 将其他编码格式统一转换为UTF-8
☆19Updated 3 years ago
Alternatives and similar repositories for txtfilemerge
Users that are interested in txtfilemerge are comparing it to the libraries listed below
Sorting:
- 中文 NLP 资源库,语料库,相关的框架,文章收集。☆28Updated 3 years ago
- 中文文本相似度计算器☆163Updated last year
- 一个面向中文文本纠错任务的综合平台,集学术研究、模型训练、模型评测和推理部署于一体,覆盖拼写纠错与语法纠错两个核心方向。☆434Updated this week
- CINO: Pre-trained Language Models for Chinese Minority (少数民族语言预训练模型)☆256Updated 4 months ago
- [COLING 2022] CSL: A Large-scale Chinese Scientific Literature Dataset 中文科学文献数据集☆649Updated 2 years ago
- Mimix: A Text Generation Tool and Pretrained Chinese Models☆157Updated last year
- 爬取各种数据的爬虫的样例(百度百科、知乎、微博、简书、搜狗词库),可用于自然语言处理语料收集☆13Updated 4 months ago
- 用于汇总目前的开源中文对话数据集☆187Updated 2 years ago
- ☆399Updated 4 months ago
- MiniRBT (中文小型预训练模型系列)☆296Updated 4 months ago
- 仇恨言论语料库☆24Updated 2 years ago
- 供AI训练的中文数据集(持续更新。。。)与AI公司图谱,目前的数据集餐饮行业8000问,百度知道,Alpaca中文数据集,计算机领域数据集,Vicuna数据集,RedPajama数据集,Wikipedia中文词条数据集,网站论坛问答数据集☆62Updated last year
- <数字人文教程>资源合集☆109Updated last year
- ☆168Updated last year
- ChatGPT WebUI using gradio. 给 LLM 对话和检索知识问答RAG提供一个简单好用的Web UI界面☆139Updated last year
- 使用Sentencepiece对中文语料进行分词☆13Updated last year
- 打造人人都会的NLP,开源不易,记得star哦☆101Updated 2 years ago
- 爬取自互联网的古诗词语料库,包含先秦至当代诗词,共计1014508首诗☆40Updated 3 years ago
- "桃李“: 国际中文教育大模型☆188Updated 2 years ago
- 一个简单快速的分词、命名实体识别工具☆616Updated last month
- 雅意信息抽取大模型:在百万级人工构造的高质量信息抽取数据上进行指令微调,由中科闻歌算法团队研发。 (Repo for YAYI Unified Information Extraction Model)☆315Updated last year
- A Python toolkit for file processing, text cleaning and data splitting. 文件处理,文本清洗和数据划分的python工具包。☆34Updated 3 years ago
- PaddleNLP UIE模型的PyTorch版实现☆662Updated 2 years ago
- 从小说中提取对话数据集☆282Updated 2 months ago
- 中文AI写作(写诗或写对联)☆123Updated last year
- Yuren 13B is an information synthesis large language model that has been continuously trained based on Llama 2 13B, which builds upon the…☆15Updated 2 years ago
- 基于pytorch的中文意图识别和槽位填充☆202Updated 3 months ago
- TextGen: Implementation of Text Generation models, include LLaMA, BLOOM, GPT2, BART, T5, SongNet and so on. 文本生成模型,实现了包括LLaMA,ChatGLM,BLO…☆973Updated last year
- cntext 是一个专为社会科学实证研究设计的中文文本分析 Python 库。它不仅提供传统的词频统计和情感分析,还支持词嵌入训练、语义投影计算等高级功能,帮助研究者从大规模非结构化文本中测量抽象构念 ——如态度、认知、文化观念与心理状态。☆393Updated 2 weeks ago
- 机器学习训练简单模型判定一个句子是不是疑问句☆20Updated 3 years ago