shangfr / Embedding-AnalysisLinks
nlp分析工具是一款基于NLP开源算法和模型库(jieba、spacy、paddlenlp)对文本数据进行向量化,然后通过机器学习算法(聚类、主成分分析、图网络GraphicalLasso)对文本数据词向量之间进行关联性分析的小工具。
☆18Updated 2 years ago
Alternatives and similar repositories for Embedding-Analysis
Users that are interested in Embedding-Analysis are comparing it to the libraries listed below
Sorting:
- 基于pytorch的中文意图识别和槽位填充☆212Updated 6 months ago
- 超长文本分类(大于1000字);文档级/篇章级文本分类;主要是解决长距离依赖问题☆131Updated 4 years ago
- FAQ智能问答系统。实现FAQ的问题-模板匹配功能。部署轻量级的Web服务应用。☆66Updated last year
- 基于火力发电厂知识问答库的检索式问答系统/问答系统/对话系统☆57Updated 5 years ago
- 基于开源保险产品数据构建的保险知识图谱及简易问答系统☆41Updated 6 years ago
- 中文世界的NLP自动标注开源工具,简单样本,交给LabelFast。☆85Updated 2 months ago
- 基于文本相似度的win10智能客服问答系统☆15Updated 5 years ago
- 🌈 NERpy: Implementation of Named Entity Recognition using Python. 命名实体识别工具,支持BertSoftmax、BertSpan等模型,开箱即用。☆117Updated last year
- 中文文本分类、序列标注工具包(pytorch),支持中文长文本、短文本的多类、多标签分类任务,支持中文命名实体识别、词性标 注、分词、抽取式文本摘要等序列标注任务。 Chinese text classification and sequence labeling toolk…☆354Updated last year
- chatglm-6B for tools application using langchain☆76Updated 2 years ago
- dialogbot, provide search-based dialogue, task-based dialogue and generative dialogue model. 对话机器人,基于问答型对话、任务型对话、聊天型对话等模型实现,支持网络检索问答,领域知识…☆332Updated last year
- 供AI训练的中文数据集(持续更新。。。)与AI公司图谱,目前的数据集餐饮行业8000问,百度知道,Alpaca中文数据集,计算机领域数据集,Vicuna数据集,RedPajama数据集,Wikipedia中文词条数据集,网站论坛问答数据集☆63Updated 2 years ago
- 中文标注工具,支持NER、文本分类、关系标注、对话标注等。☆90Updated last year
- 使用Pytorch框架对NLP方向上的文本分类、实体识别、三元组抽取做代码实战☆202Updated last year
- 天池比赛作品整理。实现从pdf中提取出姓名、出生年月、性别、电话、最高学历、籍贯、落户市县、政治面貌、毕业院校、工作单位、工作内容、职务、项目名称、项目责任、学位、毕业时间、工作时 间、项目时间共18个字段。☆115Updated last year
- 无监督中文关键词抽取(Keyphrase Extraction),基于统计,基于图【LDA与PageRank(TextRank, TPR, Salience Rank, Single TPR等)】,基于嵌入【SIFRank等】,开箱即用!☆109Updated 3 years ago
- Mimix: A Text Generation Tool and Pretrained Chinese Models☆155Updated last year
- 文本相似度,语义向量,文本向量,text-similarity,similarity, sentence-similarity,BERT,SimCSE,BERT-Whitening,Sentence-BERT, PromCSE, SBERT☆75Updated last year
- 地址标准化☆126Updated 2 years ago
- DoTAT 是一款基于web、面向领域的通用文本标注工具,支持大规模实体标注、关系标注、事件标注、文本分类、基于字典匹配和正则匹配的自动标注以及用于实现归一化的标准名标注,同时也支持迭代标注、嵌套实体标注和嵌套事件标注。标注规范可自定义且同类型任务中可“一次创建多次复用”。…☆623Updated 2 years ago
- multi-label,classifier,text classification,多标签文本分类,文本分类,BERT,ALBERT,multi-label-classification☆140Updated 4 years ago
- pytextclassifier is a toolkit for text classification. 文本分类,LR,Xgboost,TextCNN,FastText,TextRNN,BERT等分类模型实现,开箱即用。☆521Updated last year
- 中文、分词、词表、核心词典、事件词表、停用词、敏感词、问答、问答数据、知识图谱、文本语料。☆171Updated 4 years ago
- 使用torch整合两种经典的指针NER抽取范式,分别是SpanBert和苏神的GlobalPointer,简单加了些tricks,配置后一键运行☆133Updated last year
- 一个基于预训练的句向量生成工具☆138Updated 2 years ago
- 文本聚类(Kmeans、DBSCAN、LDA、Single-pass)☆353Updated 4 years ago
- 任务型对话系统(Task-based Dialogue System)☆66Updated 4 years ago
- Minimal keyword extraction with BERT☆89Updated 4 years ago
- 行业知识图谱,关系抽取,数据清洗,ncov,疫情数据,百科,医疗,保险,汽车,垃圾分类,产业链,投资,高考,行业专家圈子,CXO圈子☆119Updated last year
- (1)弹性区间标准化的旋转位置词嵌入编码器+peft LORA量化训练,提高万级tokens性能支持。(2)证据理论解释学习,提升模型的复杂逻辑推理能力(3)兼容alpaca数据格式。☆45Updated 2 years ago