chun19920827 / corpusLinks
中文医学语料库
☆13Updated 4 years ago
Alternatives and similar repositories for corpus
Users that are interested in corpus are comparing it to the libraries listed below
Sorting:
- 医学命名实体识别数据集制作☆17Updated 4 years ago
- 收集的各类字典,欢迎大家提交。(专业、中草药、中药、交通、停用词、动物、健康、国家、地名、学校、植物、汽车品牌)☆74Updated 5 years ago
- 发现新词 无监督词库生成 医学词库生成 发现未登录词☆79Updated 4 years ago
- 手工整理医疗行业词汇、术语等语料。可用于语音识别、对话系统等各类nlp模型训练。☆121Updated 5 years ago
- 医学预训练语言模型☆18Updated 4 years ago
- 中文、分词、词表、核心词典、事件词表、停用词、敏感词、问答、问答数据、知识图谱、文本语料。☆171Updated 4 years ago
- 字符串地址查询,支持自定义地址词库,解析地址,地址识别,地址抽取,中文地址.☆96Updated 4 years ago
- self complemented SpellCorrection based pinyin similairity, edit distance ,基于拼音相似度与编辑距离的查询纠错。☆84Updated 3 years ago
- 各大中文分词性能评测☆157Updated 6 years ago
- Chinese clinical named entity recognition using pre-trained BERT model☆125Updated 4 years ago
- 手动实现Elasticsearch的倒排索引以及BM25算法☆47Updated 6 years ago
- NER(命名实体识别)中文语料,一站式获取☆131Updated 6 years ago
- The most complete Chinese dictionaries ever. 史上最全的中文分类词库,包含地理信息、电子游戏、工程应用、农林牧渔、人文科学、社会科学、生活百科、医学医药、艺术设计、娱乐休闲、运动休闲、自然科学等12大类的超级字典。☆81Updated 5 years ago
- 医学问诊问答,NER,关系抽取☆14Updated 5 years ago
- 本NER项目包含多个中文数据集,模型采用BiLSTM+CRF、BERT+Softmax、BERT+Cascade、BERT+WOL等,最后用TFServing进行模型部署,线上推理和线下推理。☆81Updated 4 years ago
- Word similarity computation based on Tongyici Cilin☆121Updated 8 years ago
- 中文医学知识图谱命名实体识别,包括bi-LSTM+CRF,transformer+CRF等模型☆248Updated 6 years ago
- A full-process dialogue system that can be deployed online☆100Updated 3 years ago
- 中文分词工具评估☆63Updated 2 years ago
- A Chinese EHR Bert Pretrained Model.☆266Updated 4 years ago
- WordForm,针对中文词语的笔画拆解,偏旁查询,拼音转换接口☆65Updated 7 years ago
- 本项目是针对医疗数据,进行命名实体识别。项目中有600份标注好的电子病历文本,共需识别含解剖部位、独立症状、症状描述、手术和药物五类实体。该领域的命名实体识别问题是自然语言处理中经典的序列标注问题。☆155Updated 6 years ago
- NER实体识别模型,快速高效简单一键部署docker部署调用模型。能识别:地址、人名、机构名实体。☆36Updated 2 years ago
- 使用sentence-transformers(SBert)训练自己的文本相似度数据集并进行评估。☆50Updated 4 years ago
- 知网相似度计算☆14Updated 8 years ago
- CCKS2019中文命名实体识别任务。从医疗文本中识别疾病和诊断、解剖部位、影像检查、实验室检验、手术和药物6种命名实体。现已实现基于jieba和AC自动机的baseline构建、基于BiLSTM和CRF的序列标住模型构建。bert的部分代码主要源于https://gith…☆355Updated 3 years ago
- 人民日报语料处理工具集 | Tools for Corpus of People's Daily☆285Updated 2 years ago
- 调研药品数据网站。基于网络爬虫爬取药源网药物数据,搭建药品数据库。含中成药和化学药品信息共计10万余条。爬取国家食品药品监督管理局药品数据对药源网数据进行修正。基于Selenium等工具应对反爬,爬取ICD10等数据共研究使用。☆125Updated 6 years ago
- 一个完整的智能分诊系统实现☆18Updated 3 years ago
- WordMultiSenseDisambiguation, chinese multi-wordsense disambiguation based on online bake knowledge base and semantic embedding similarit…☆131Updated 6 years ago