adetion / txtfilemergeLinks
TXT文本语料数据清洗(Text corpus data cleaning):1> 合并TXT文件;2> 过滤干扰字符串;3> 对人名、地名、组织机构进行遮码处理;4> 将其他编码格式统一转换为UTF-8
☆19Updated 3 years ago
Alternatives and similar repositories for txtfilemerge
Users that are interested in txtfilemerge are comparing it to the libraries listed below
Sorting:
- 爬取各种数据的爬虫的样例(百度百科、知乎、微博、简书、搜狗词库),可用于自然语言处理语料收集☆13Updated 6 months ago
- MiniRBT (中文小型预训练模型系列)☆300Updated 6 months ago
- 中文文本相似度计算器☆168Updated last year
- 中文 NLP 资源库,语料库,相关的框架,文章收集。☆27Updated 3 years ago
- 仇恨言论语料库☆27Updated 2 years ago
- [COLING 2022] CSL: A Large-scale Chinese Scientific Literature Dataset 中文科学文献数据集☆661Updated 2 years ago
- CINO: Pre-trained Language Models for Chinese Minority (少数民族语言预训练模型)☆259Updated 6 months ago
- 使用Sentencepiece对中文语料进行分词☆13Updated 2 years ago
- A Python toolkit for file processing, text cleaning and data splitting. 文件处理,文本清洗和数据划分的python工具包。☆35Updated 3 years ago
- ☆175Updated last year
- 用于汇总目前的开源中文对话数据集☆199Updated 2 years ago
- Fine-tune the Whisper speech recognition model to support training without timestamp data, training with timestamp data, and training wit…☆311Updated last month
- 一个简单快速的分词、命名实体识别工具☆632Updated 4 months ago
- 基于pytorch的中文意图识别和槽位填充☆211Updated 5 months ago
- 一个面向中文文本纠错任务的综合平台,集学术研究、模型训练、模型评测和推理部署于一体,覆盖拼写纠错与语法纠错两个核心方向。☆482Updated last week
- ☆410Updated 6 months ago
- 爬取自互联网的古诗词语料库,包含先秦至当代诗词,共计1014508首诗☆46Updated 3 years ago
- PaddleNLP UIE模型的PyTorch版实现☆682Updated 2 years ago
- 大模型微调工具集合☆26Updated last year
- 古文现代文翻译平行语料库☆114Updated 4 years ago
- kbqa,langchain,large langauge model, chatgpt☆82Updated last year
- cntext 是一个专为社会科学实证研究设计的中文文本分析 Python 库。它不仅提供传统的词频统计和情感分析,还支持词嵌入训练、语义投影计算等高级功能,帮助研究者从大规模非结构化文本中测量抽象构念——如态度、认知、文化观念与心理状态。☆423Updated 2 months ago
- 夫子•明察司法大模型是由山东大学、浪潮云、中国政法大学联合研发,以 ChatGLM 为大模型底座,基于海量中文无监督司法语料与有监督司法微调数据训练的中文司法大模型。该模型支持法条检索、案例分析、三段论推理判决以及司法对话等功能,旨在为用户提供全方位、高精准的法律咨询与解答…☆366Updated 6 months ago
- <数字人文教程>资源合集☆111Updated last year
- 人民日报爬虫(Python)☆157Updated 6 months ago
- 从头开始训练一个chatglm小模型☆49Updated 2 years ago
- 在中文开源大模型的基础上进行定制化的微调,拥有自己专属的语言模型。☆51Updated 2 years ago
- Minimal keyword extraction with BERT☆89Updated 4 years ago
- 从小说中提取对话数据集☆318Updated 4 months ago
- 一个基于预训练的句向量生成工具☆138Updated 2 years ago