Zhenhui-Jin / NLP-DataLinks
中英文敏感词、语言检测、中外手机/电话归属地/运营商查询、名字推断性别、手机号抽取、身份证抽取、邮箱抽取、中日文人名库、中文缩写库、拆字词典、词汇情感值、停用词、反动词表、暴恐词表、繁简体转换、英文模拟中文发音、汪峰歌词生成器、职业名称词库、同义词库、反义词库、否定词库、汽车品牌词库、汽车零件词库、连续英文切割、各种中文词向量、公司名字大全、古诗词库、IT词库、财经词库、成语词库、地名词库、历史名人词库、诗词词库、医学词库、饮食词库、法律词库、汽车词库、动物词库、中文聊天语料、中文谣言数据、百度中文问答数据集、句子相似度匹 配算法集合、bert资源、文本生成&摘要相关工具、cocoNLP信息抽取工具、国内电话号码正则匹配、清华大学XLORE:中英文跨语言百科知识图谱、清华大学人工智能技术…
☆12Updated last year
Alternatives and similar repositories for NLP-Data
Users that are interested in NLP-Data are comparing it to the libraries listed below
Sorting:
- 中国知网论文数据集,24000+篇论文信息。自然语言处理、信息管理、文本分类、文本摘要、关键词抽取、研究热点分析、数据挖掘、数据分析☆53Updated 11 months ago
- 知识检索+ChatGPT,实现了医疗知识检索增强的问诊系统☆43Updated 2 years ago
- 中文世界的NLP自动标注开源工具,简单样本,交给LabelFast。☆85Updated 2 months ago
- 从langchain-ChatGLM基础上修改的一个可以加载TigerBot模型的基于本地知识库的问答应用,目标期望建立一套对中文场景与开源模型支持友好、可离线运行的知识库问答解决方案。☆109Updated 2 years ago
- 基于火力发电厂知识问答库的检索式问答系统/问答系统/对话系统☆57Updated 5 years ago
- 通过python爬虫获取人民网、新浪等网站新闻作为训练集,基于BERT构建新闻文本分类模型,并结合node.js + vue完成了一个可视化界面。☆43Updated 3 years ago
- ☆35Updated 2 years ago
- 基于ChatGPT的情感分析☆50Updated 2 years ago
- ✨个人的python代码库(部分)。🌈包涵python基础、各类主流自然语言处理工具接口调用,Keras&Tensortflow实战,数据分析、爬虫等☆12Updated 3 years ago
- 利用LLM+敏感词库,来自动判别是否涉及敏感词。☆136Updated 2 years ago
- ☆193Updated 3 years ago
- 基于GPT的自主AI Agent,可以使用联网搜索、本地知识库查询等工具,根据指定的研究目标写报告,例如写市场分析报告、科研报告☆39Updated last year
- 使用doccano标注工具同时导出实体和关系数据为空的解决办法。☆21Updated 3 years ago
- 利用开源大模型,通过RAG(检索增强生成)技术,实现基于企业内部知识图谱的,可内网运行的大模型智能客服☆78Updated last year
- 中文文本相似度计算器☆169Updated last year
- Mimix: A Text Generation Tool and Pretrained Chinese Models☆155Updated last year
- 📚中国近代革命历史知识图谱系统 🌈提供了知识图谱可视化、知识检索、关系检索、时空检索、时空演化、语料检索、知识抽取、知识问答等丰富而有效的中国近代革命历史知识服务。☆69Updated 2 years ago
- 该项目通过新闻数据集演示文本分类全流程:数据清洗,模型训练,模型部署和前端展示。使用的模型和工具:pytorch,bert,streamlit☆18Updated 3 years ago
- 基于Qwen2+SFT+DPO的医疗问答系统,项目中使用了自定义的 SFTTrainer/DPOTrainer/TRPOTrainer用于训练,其次,项目还调用各种知识库工具(neo4j, milvus, LDA, 等)进行自动化训练数据生成。另外,使用 vllm 用于推理…☆58Updated last month
- 天池比赛作品整理。实现从pdf中提取出姓名、出生年月、性别、电话、最高学历、籍贯、落户市县、政治面貌、毕业院校、工作单位、工作内容、职务、项目名称、项目责任、学位、毕业时间、工作时间、项目时间共18个字段。☆115Updated last year
- llama信息抽取实战☆102Updated 2 years ago
- 知网论文数据爬虫☆61Updated 2 years ago
- 中文图书数据集/数据挖掘/自然语言处理/中国图书分类法/图书情报学/数据挖掘/文本分类/☆99Updated 11 months ago
- Q&A based on elasticsearch+langchain+chatglm2 | 基于elasticsearch,langchain,chatglm2的自有知识库问答☆243Updated 2 years ago
- 实现向 ChatGPT 自动提问的脚本。A script that implements automatic questions to ChatGPT.☆63Updated 2 years ago
- 降AIGC率,降低知网、维普、格子达平台的AIGC检测率,降知网AI,降维普AI,降格子达AI。☆60Updated last week
- "桃李“: 国际中文教育大模型☆189Updated 2 years ago
- 基于知识图谱的林业法律法规问答☆20Updated 3 years ago
- 无监督中文关键词抽取(Keyphrase Extraction),基于统计,基于图【LDA与PageRank(TextRank, TPR, Salience Rank, Single TPR等)】,基于嵌入【SIFRank等】,开箱即用!☆109Updated 3 years ago
- 使用python自动构建知识图谱,百万、千万、亿万级别☆45Updated 2 years ago