CyberCommy / baidu-wiki-500wLinks
百度百科 500 万数据集
☆40Updated last year
Alternatives and similar repositories for baidu-wiki-500w
Users that are interested in baidu-wiki-500w are comparing it to the libraries listed below
Sorting:
- 中文、分词、词表、核心词典、事件词表、停用词、敏感词、问答、问答数据、知识图谱、文本语料。☆168Updated 3 years ago
- 医疗语料库。医疗机构名语料库。药品本位码。☆70Updated last year
- clueai工具包: 3行代码3分钟,自定义需要的API!☆232Updated 2 years ago
- 中文文本相似度计算器☆158Updated 10 months ago
- 利用LLM+敏感词库,来自动判别是否涉及敏感词。☆127Updated 2 years ago
- PersonGraphDataSet, nearly 10 thousand person2person relationship facts。 人物图谱数据集,近十万的人物关系图谱事实数据库,通过人物关系抽取算法抽取+人工整理得出,可用于人物关系搜索、查询、人物关系多跳问…☆253Updated 4 years ago
- The most complete Chinese dictionaries ever. 史上最全的中文分类词库,包含地理信息、电子游戏、工程应用、农林牧渔、人文科学、社会科学、生活百科、医学医药、艺术设计、娱乐休闲、运动休闲、自然科学等12大类的超级字典。☆80Updated 5 years ago
- 基于qlora对baichuan-7B大模型进行指令微调。☆23Updated 2 years ago
- 基于Qwen2模型进行通用信息抽取【实体/关系/事件抽取】☆35Updated last year
- 打造人人都会的NLP,开源不易,记得star哦☆101Updated 2 years ago
- "桃李“: 国际中文教育大模型☆183Updated last year
- 千问14B和7B的逐行解释☆61Updated last year
- 中文心理问答数据集☆78Updated 5 years ago
- 中文新词发现算法PNW算法,可以识别任意长度的新词。☆16Updated 2 years ago
- Mimix: A Text Generation Tool and Pretrained Chinese Models☆157Updated 10 months ago
- 天池比赛作品整理。实现从pdf中提取出姓名、出生年月、性别、电话、最高学历、籍贯、落户市县、政治面貌、毕业院校、工作单位、工作内容、职务、项目名称、项目责任、学位、毕业时间、工作时间、项目时间共18个字段。☆115Updated last year
- 百度QA100万数据集☆48Updated last year
- 中文图书数据集/数据挖掘/自然语言处理/中国图书分类法/图书情报学/数据挖掘/文本分类/☆91Updated 5 months ago
- A Multi-Modal Dataset of Chinese Governmental Docunments☆35Updated 4 years ago
- 知乎大语言模型、ChatGPT、Transformers问答☆38Updated last year
- 中国知网论文数据集,24000+篇论文信息。自然语言处理、信息管理、文本分类、文本摘要、关键词抽取、研究热点分析、数据挖掘、数据分析☆53Updated 5 months ago
- A Python Package to Access World-Class Generative Models☆129Updated last year
- ☆193Updated 2 years ago
- 供AI训练的中文数据集(持续更新。。。)与AI公司图谱,目前的数据集餐饮行业8000问,百度知道,Alpaca中文数据集,计算机领域数据集,Vicuna数据集,RedPajama数据集,Wikipedia中文词条数据集,网站论坛问答数据集☆60Updated last year
- TechGPT: Technology-Oriented Generative Pretrained Transformer☆226Updated 2 years ago
- 首个llama2 13b 中文版模型 (Base + 中文对话SFT,实现流畅多轮人机自然语言交互)☆91Updated 2 years ago
- Python3 package for Chinese/English OCR,use paddleocr-v5 onnx model(~20MB), with ultra-fast inference speed. 基于ppocr-v5-onnx模型推理,中英文OCR开源…☆100Updated last month
- pke_zh, python keyphrase extraction for chinese(zh). 中文关键词或关键句提取工具,实现了KeyBert、PositionRank、TopicRank、TextRank等算法,开箱即用。☆208Updated last year
- 大语言模型微调的项目,包含了使用QLora微调ChatGLM和LLama☆27Updated 2 years ago
- 国内首个全参数训练的法律大模型 HanFei-1.0 (韩非)☆123Updated last year