shangfr / Embedding-Analysis
nlp分析工具是一款基于NLP开源算法和模型库(jieba、spacy、paddlenlp)对文本数据进行向量化,然后通过机器学习算法(聚类、主成分分析、图网络GraphicalLasso)对文本数据词向量之间进行关联性分析的小工具。
☆14Updated 11 months ago
Related projects ⓘ
Alternatives and complementary repositories for Embedding-Analysis
- 基于文本相似度的win10智能客服问答系统☆14Updated 4 years ago
- 本项目由三个模块构成。意图识别:判断用户的意图是业务型还是闲聊型;模型检索:该部分构建一个语料库,当用户 发起新的query(通过意图识别判断为业务型对话)时,为用户匹配query检 索的最佳response,使用HSWN进行召回(粗排), 然后构建句子的相似度,并利用Lig…☆10Updated 3 years ago
- NLP tools, word segmentation, sentence segmentation, New-Word-Discovery,新词发现☆24Updated 9 months ago
- 中文新词发现算法PNW算法,可以识别任意长度的新词。☆15Updated last year
- 整理文本分类的比赛和解决方案☆7Updated 3 years ago
- Datafountain-Epidemic government affairs quiz assistant competition. We divided this task into two parts: document retrieval and answer e…☆13Updated 2 years ago
- 别名发现系统☆11Updated 2 years ago
- 手动实现Elasticsearch的倒排索引以及BM25算法☆45Updated 5 years ago
- 基于pytorch的不平衡数据的文本分类☆9Updated 2 years ago
- 基于simcse的中文句向量生成☆15Updated 2 years ago
- 使用BERT构建多标签标注模型☆40Updated 4 years ago
- 基于依存句法与语义角色标注的三元组抽取☆9Updated 6 years ago
- 这个是一个《电商标题数据相似度匹配系统》,使用方法有:tfidf+词袋模型,余弦相似度,word2vec☆25Updated 4 years ago
- 有一个通用实体关系事件抽取的任务,需要使用到UIE模框架,而且需要将起部署到昇腾310服务器上,因为UIE模型底层使用的是ernie3.0,但是目前paddle官方还不支持ernie3.0模型在昇腾310上部署,所以才有了以下的操作,主要过程是,先试用paddle训练处模型…☆17Updated 2 years ago
- FinCUGE Instruction dataset☆10Updated last year
- 一种用于序列标注任务的数据标注(分词,NER)的工具☆11Updated 4 years ago
- 一个使用tensorflow2.3开发的基于Bert的意图识别的自然语言理解任务Demo☆24Updated 5 months ago
- 带拼音、字形特征的文本纠错模型☆11Updated last year
- 使用GENIUS文本生成模型训练自己的数据集。☆8Updated last year
- WoBERT Pytorch 版本,中文词汇级Bert:WoBERT学习☆21Updated 3 years ago
- 基于意图识别和命名实体识别的多轮对话场景设计☆36Updated 5 years ago
- 文本标注工具,给文本打标签☆21Updated 4 years ago
- 用tf实现各种文本分类模型,并且封装restful接口,可以直接工程化☆32Updated 5 years ago
- 开课吧&后厂理工学院_百度NLP项目2:试题数据集多标签文本分类 Models: FastText TextCNN GCN BERT et al.☆48Updated 4 years ago
- ☆13Updated 10 months ago
- 该项目主要是抽取病历文件中的一些关键信息。并将抽取的内容进行streamlit前端的展示。目前支持的文件类型:图片,pdf文件,word文件☆22Updated 2 years ago
- BLOOM 模型的指令微调☆24Updated last year
- 多轮中文聊天机器人,采用GPT2进行微调,清洗聊天数据110w+,采用语义相似度和文本jaccard相似度过滤回话。☆21Updated 2 years ago
- Sentence-Transformers Information Retrieval example on Chinese☆29Updated 8 months ago