hiyoung123 / DuplicateRemove
基于simhash的文本去重算法
☆20Updated 3 years ago
Alternatives and similar repositories for DuplicateRemove:
Users that are interested in DuplicateRemove are comparing it to the libraries listed below
- 时间关键词正则提取以及标准化☆21Updated 3 years ago
- SinglepassTextCluster, an TextCluster tools based on Singlepass cluster algorithm that use tfidf vector and doc2vec,which can be used for…☆62Updated 3 years ago
- 基于向量召回的检索式对话系统解决方案,dense retrieval,FAQ……☆33Updated 3 years ago
- benchmark of KgCLUE, with different models and methods☆27Updated 3 years ago
- 句子匹配模型,包括无监督的SimCSE、ESimCSE、PromptBERT,和有监督的SBERT、CoSENT。☆98Updated 2 years ago
- 基于Pytorch实现的中文文本分类脚手架,以及常用模型对比。☆18Updated 3 years ago
- 长文本相似度模型☆18Updated last year
- 基于PaddleNLP开源的抽取式UIE进行医学命名实体识别(torch实现)☆44Updated 2 years ago
- ☆57Updated 2 years ago
- 文本智能校对大赛(Chinese Text Correction)的baseline☆67Updated 2 years ago
- 基于seq2edit (Gector) 的中文文本纠错。☆28Updated 2 years ago
- 零样本学习测评基准,中文版☆56Updated 3 years ago
- BLOOM 模型的指令微调☆24Updated last year
- RelExt: A Tool for Relation Extraction from Text. 文本实体关系抽取工具。☆50Updated 2 years ago
- using lear to do ner extraction☆29Updated 3 years ago
- 中文bigbird预训练模型☆91Updated 2 years ago
- 时间抽取、解析、标准化工具☆51Updated 2 years ago
- CTC2021-中文文本纠错大赛的SOTA方案及在线演示☆72Updated last year
- ☆17Updated 4 years ago
- 法研杯犯罪金额提取☆12Updated 3 years ago
- 不用tensorflow estimator,分别采用字mask和wwm mask在中文领域内finetune bert模型☆23Updated 4 years ago
- ☆10Updated 5 years ago
- 基于预训练模型的中文关键词抽取方法(论文SIFRank: A New Baseline for Unsupervised Keyphrase Extraction Based on Pre-trained Language Model 的中文版代码)☆12Updated 4 years ago
- 有一个通用实体关系事件抽取的任务,需要使用到UIE模框架,而且需要将起部署到昇腾310服务器上,因为UIE模型底层使用的是ernie3.0,但是目前paddle官方还不支持ernie3.0模型在昇腾310上部署,所以才有了以下的操作,主要过程是,先试用paddle训练处模型…☆17Updated 2 years ago
- 该仓库主要记录 NLP 算法工程师相关的 搜索引擎 学习笔记☆12Updated 2 years ago
- 基于NER的文本纠错☆14Updated last year
- ☆10Updated 2 years ago
- TensorRT☆11Updated 4 years ago
- 2020智源-京东多模态对话(JDDC2020)第三名解决方案分享☆41Updated 4 years ago
- 用bert4keras加载CDial-GPT☆38Updated 4 years ago