txtcn / dataLinks
中文语料库-每日自动更新版 ── 语料文件
☆149Updated 4 years ago
Alternatives and similar repositories for data
Users that are interested in data are comparing it to the libraries listed below
Sorting:
- The most complete Chinese dictionaries ever. 史上最全的中文分类词库,包含地理信息、电子游戏、工程应用、农林牧渔、人文科学、社会科学、生活百科、医学医药、艺术设计、娱乐休闲、运动休闲、自然科学等12大类的超级字典。☆78Updated 5 years ago
- 医疗语料库。医疗机构名语料库。药品本位码。☆69Updated last year
- 中文、分词、词表、核心词典、事件词表、停用词、敏感词、问答、问答数据、知识图谱、文本语料。☆164Updated 3 years ago
- 维基百科中文语料整理☆296Updated 7 years ago
- clueai工具包: 3行代码3分钟,自定义需要的API!☆233Updated 2 years ago
- 中国知网论文数据集,24000+篇论文信息。自然语言处理、信息管理、文本分类、文本摘要、关键词抽取、研究热点分析、数据挖掘、数据分析☆51Updated 3 months ago
- 百度百科 500 万数据集☆35Updated last year
- 利用LLM+敏感词库,来自动判别是否涉及敏感词。☆124Updated last year
- 暴恐违禁 文本色情 政治敏感 恶意推广 低俗辱骂☆98Updated 3 years ago
- Mimix: A Text Generation Tool and Pretrained Chinese Models☆155Updated 7 months ago
- 汉语古典文本资料库☆284Updated 7 years ago
- 爬取自互联网的古诗词语料库,包含先秦至当代诗词,共计1014508首诗☆32Updated 3 years ago
- 古诗词语料库☆133Updated 8 years ago
- 中文词库/词典,可用于NLP项目、分词等场景☆56Updated 2 years ago
- 收集的各类字典,欢迎大家提交。(专业、中草 药、中药、交通、停用词、动物、健康、国家、地名、学校、植物、汽车品牌)☆71Updated 5 years ago
- 图书名语料库。含部分电影、游戏名称。☆71Updated last year
- Chinese Couplets Dataset without vulgar words. 不包含敏感内容的对联数据集。☆73Updated 5 years ago
- 各大中文分词性能评测☆157Updated 6 years ago
- 中文日期/时间/数字量提取工具☆66Updated 4 years ago
- self-host ChatGLM-6B API made with fastapi☆78Updated 2 years ago
- 中学语文课文——文言文古诗词☆33Updated 6 years ago
- A Python toolkit for file processing, text cleaning and data splitting. 文件处理,文本清洗和数据划分的python工具包。☆32Updated 2 years ago
- 中文谐音词/字库(同音词/字)Chinese Homophones☆105Updated 5 years ago
- pinyintokenizer, 拼音分词器,将连续的拼音切分为单字拼音列表。☆30Updated 4 months ago
- 古文现代文翻译平行语料库☆105Updated 3 years ago
- 中文预处理语料☆110Updated 6 years ago
- 百度百科爬虫☆72Updated 11 months ago
- 中文AI写作(写诗或写对联)☆119Updated last year
- 中文纠错☆92Updated 3 years ago
- 供AI训练的中文数据集(持续更新。。。)与AI公司图谱,目前的数据集餐饮行业8000问,百度知道,Alpaca中文数据集,计算机领域数据集,Vicuna数据集,RedPajama数据集,Wikipedia中文词条数据集,网站论坛问答数据集☆57Updated last year