laomagic / THUCNewsProject
THUCNews中文文本分类数据集的处理,该数据集包含84万篇新闻文档,总计14类;在数据集的基础上可以进行文本分类、词向量的训练等任务。
☆16Updated 4 years ago
Alternatives and similar repositories for THUCNewsProject:
Users that are interested in THUCNewsProject are comparing it to the libraries listed below
- 文本热点挖掘,基于DBSCAN聚类模型,对文本的热点事件进行挖掘☆40Updated 4 years ago
- 之江-电商评论观点挖掘的比赛,基于pytorch-transformers版本,暂时只实现了BERT做aspect+opinion+属性分类+情感极性的联合标注,还未加上CRF。☆33Updated 5 years ago
- 本项目的数据来自“互联网新闻情感分析”赛题。基于Transformer2.0库中的中文Bert模型,对新闻语料进行三分类。☆106Updated 5 years ago
- 利用bert预训练模型生成句向量或词向量☆28Updated 4 years ago
- 根据褒贬种子词,利用SO-PMI构建情感词典☆25Updated 9 years ago
- Chinese Sentiment Classification Tool. 情感极性分类,基于知网、清华、BosonNLP情感词典,易扩展,基准方法,开箱即用。☆91Updated last year
- 领域自适应文本挖掘工具(新词发现、情感分析、实体链接等),基于少量种子词和背景知识☆13Updated 5 years ago
- 用gensim训练LDA模型,进行新闻文本主题分析☆76Updated 5 years ago
- 复现了论文《基于主题模型的短文本关键词抽取及扩展》的代码☆30Updated 4 years ago
- Self complemented sentiment words expansion using seed sentiment words and so-pmi , this method is tested to be effective, 基于情感种子词与so-pmi…☆87Updated 6 years ago
- 新闻文本自动摘要, 以Textrank 为基础,融入 标题特征,单句位置特征,重要实体特征,线索词特征,做句子的综合权重计算,并使用MMR算法,兼顾自动摘要的主题相关性和摘要多样性。☆25Updated 2 years ago
- Chinese Subjective Dectection based on subjective knowlegebase, 中文主观性计算。基于中文主观性知识库的句子主观性评定方法。☆57Updated last year
- 提出基于划分的LDA主题模型 (PLDA)。对传统LDA模型进行改进,考虑中长篇文档篇章结构较为清晰,传统LDA在处理中长篇文档时不能识别每个篇章的主题,提出基于划分的LDA主题模型,对中长篇文档如新闻报道】国务院工作报告等按照段落进行划分,先拆后合,并将其效果与传统LDA…☆38Updated 5 years ago
- 百度百科学者词条、知网学者和中文论文元数据开源数据集☆17Updated 4 years ago
- 参考NER,基于BERT的电商评论观点挖掘和情感分析☆41Updated 5 years ago
- 基于关键词的无监督文本分类;Implementation for paper "Text Classification by Bootstrapping with Keywords, EM and Shrinkage" http://www.cs.cmu.edu/~knig…☆28Updated 4 years ago
- 本项目的数据来自“互联网新闻情感分析”赛题。使用Bert-As-Service库中的中文Bert模型进行句向量的提取,加入全连接层后进行三分类。☆25Updated 5 years ago
- 中文情感分析☆18Updated 9 years ago
- Self complemented Key infomation extraction including keywords, abstract from text using algorithm like textrank ,tfidf 基于Textrank算法的文本摘要…☆53Updated 6 years ago
- 该项目是短文本分类,目前应用于新闻标签的分类☆32Updated 7 years ago
- 今日头条中文新闻(文本)分类数据集☆63Updated 6 years ago
- 评论上的情感分析:主题与情感词抽取☆81Updated 4 years ago
- 疫情期间网民情绪识别比赛分享+top1~3解决方案☆51Updated 4 years ago
- 文本聚类、tfidf、lda、doc2vec+kmeans等各种方法实现☆23Updated 5 years ago
- 2020年第八届泰迪杯数据挖掘C题“智慧政务文本挖掘”特等奖作品(论文与代码)☆62Updated 4 years ago
- 第十届大学生服务外包大赛--A01商品短文本分类。基于CNN、Bi-LSTM、Attention、Adversarial等方法实现商品短文本分类任务,并基于Flask开发Web版本的交互演示界面。☆28Updated 2 years ago
- 以聚类算法、LDA主题模型、分类器为基础,完成对Twitter语料的基于地理位置的主题事件挖掘,并对主题事件进行细粒度的情绪分析☆34Updated 6 years ago
- 利用python爬虫从日本雅虎网站获取新闻(政治,经济,体育等类别),对新闻文本做相似度计算,训练新闻分类模型☆19Updated 7 years ago
- 从中文文本中自动提取摘要☆45Updated last year
- 细粒度的情感分析(属性词提取,句法依存分析)☆35Updated last year