speciallurain / CNKI_Patent_SVMView external linksLinks
文本分类是指在给定分类体系下 , 根据文本的内容自动确定文本类别的过程。首先我们根据scrapy爬虫根据中国知网URL的规律,爬取70多万条2014年公开的发明专利,然后通过数据清洗筛选出了60多万条含标签数据。通过TF-IDF对60多万条本文进行词频提取,依照词频排序提取前3000个词语形成语义词典,然后根据观察设置停用词。然后再用TF-IDF的方式对每个摘要进行词频选取,通过布尔模型,对比语义 词典生成文本向量。然后对标签进行数字化转换。取90%的文本为训练集,10%的文本为测试集。用有监督学习的SVM算法对文本进行分类,(人类生活必需品、作业运输、化学冶金、纺织造纸、固定建筑物、机械工程、物理学、电学)分成8类
☆108Mar 14, 2018Updated 7 years ago
Alternatives and similar repositories for CNKI_Patent_SVM
Users that are interested in CNKI_Patent_SVM are comparing it to the libraries listed below
Sorting:
- 爬取专利信息的爬虫☆26Sep 27, 2016Updated 9 years ago
- pytorch版损失函数,改写自科学空间文章,【通过互信息思想来缓解类别不平衡问题】、【将“softmax+交叉熵” 推广到多标签分类问题】☆12Aug 22, 2021Updated 4 years ago
- Evaluate the value of patents through the credits they receive☆10Jul 31, 2017Updated 8 years ago
- Classify international patents into one of eight categories based on the text of their titles & abstracts using DistilBert & ONNX Runtime☆10Jul 21, 2022Updated 3 years ago
- “达观杯”长文本智能处理挑战赛。达观数据提供了一批长文本数据和分类信息,希望选手动用自己的智慧,结合当下最先进的NLP和人工智能技术,深入分析文本内在结构和语义信息,构建文本分类模型,实现精准分类。☆10Jul 20, 2018Updated 7 years ago
- 上市公司年报分析☆12Jul 16, 2019Updated 6 years ago
- 利用支持向量机实现中文文本分类☆29May 28, 2018Updated 7 years ago
- ☆17Dec 16, 2015Updated 10 years ago
- The USPTO Patent Exploring Tool (UPET) provides Python code for downloading, parsing, and loading USPTO patent bulk data into a local MyS…☆34May 5, 2013Updated 12 years ago
- 多标签文本分类☆53Jun 8, 2019Updated 6 years ago
- 基于scikit-learn实现对新浪新闻的文本分类,数据集为100w篇文档,总计10类,测试集与训练集1:1划分。分类算法采用SVM和Bayes,其中Bayes作为baseline。☆110Dec 24, 2018Updated 7 years ago
- The crawler for data on web of science, especially focus on the analysis of citation data☆16Dec 14, 2018Updated 7 years ago
- 一个自然语言处理的可视化系统,实现自动生成词云图、文章关键信息提取、多文档主题分布、文本分类等功能,还有一些业务数据的可视化图表展示。☆37Jan 27, 2021Updated 5 years ago
- 使用了多种主流的文本深度学习模型进行了中文商品金融文本的精细化分类和情感分类,可用于对商品评价进行量化分析☆12Nov 5, 2025Updated 3 months ago
- 百万英雄/冲顶大会/知识超人 答题助手 瞬间使用Chrome打开百度☆101Jan 21, 2018Updated 8 years ago
- ansj_parsing 依存文法&句法分析☆19Jun 27, 2017Updated 8 years ago
- 基于java中文语义分析(jieba+word2vec+libsvm)☆23Jul 31, 2017Updated 8 years ago
- The enhanced RCNN model used for sentence similarity classification☆44May 30, 2021Updated 4 years ago
- 互联网新闻情感分析赛题baseline☆42Sep 18, 2019Updated 6 years ago
- 📃您身边的AI法律顾问(比赛项目)☆23Feb 26, 2024Updated last year
- pyspark+Word2Vec+Tfidf+LSH、文章相似性推荐☆26Mar 5, 2020Updated 5 years ago
- NLP的一些小例子,如:文本分类、文本纠错、关键词提取、自动摘要等☆23Dec 12, 2018Updated 7 years ago
- MAC端看盘工具,自选股,股票,盯盘☆30Apr 4, 2021Updated 4 years ago
- Code for our EMNLP 2021 paper - Large-Scale Relation Learning for Question Answering over Knowledge Bases with Pre-trained Language Model…☆24Dec 8, 2021Updated 4 years ago
- 新闻文本自动摘要, 以Textrank 为基础,融入 标题特征,单句位置特征,重要实体特征,线索词特征,做句子的综合权重计算,并使用MMR算法,兼顾自动摘要的主题相关性和摘要多样性。☆26May 13, 2022Updated 3 years ago
- 基于关键词的无监督文本分类;Implementation for paper "Text Classification by Bootstrapping with Keywords, EM and Shrinkage" http://www.cs.cmu.edu/~knig…☆28Jan 28, 2021Updated 5 years ago
- 基于魔改官方 PaddleHub Baseline 的 2020语言与智能技术竞赛:机器阅读理解任务(DuReader Robust)解决方案(终榜排名 15)| 15th solution of the 2020 language and intelligent tech…☆67Jun 22, 2022Updated 3 years ago
- chrome 插件: 知网(CNKI)文献下载工具☆34Jan 1, 2018Updated 8 years ago
- 复现了论文《基于主题模型的短文本关键词抽取及扩展》的代码☆31Nov 11, 2020Updated 5 years ago
- 使用tf-idf, TextRank4ZH等不同方式从中文文本中提取关键字,从中文文本中提取摘要和关键词☆34Dec 12, 2018Updated 7 years ago
- A python module to scrape patents from 'https://patents.google.com/'.☆94Nov 26, 2023Updated 2 years ago
- Parse and cluster USPTO patent data. Includes applications, grants, assignments, and maintenance.☆140Nov 20, 2023Updated 2 years ago
- 汇总java生态圈常用技术框架、开源中间件,系统架构、项目管理、经典架构案例、数据库、常用三方库、线上运维等知识☆10May 4, 2018Updated 7 years ago
- vue的快速学习教程 start from scratch☆10Mar 5, 2018Updated 7 years ago
- 中医智慧诊疗小程序后端☆10Aug 28, 2022Updated 3 years ago
- 中国机器人及人工智能大赛全地形自适应机器人赛道☆12Apr 26, 2023Updated 2 years ago
- 《2021医学健康数据分析与挖掘》课程论文 -- 基于BERT的20NewsGroups数据集新闻分类实验☆10Jun 22, 2021Updated 4 years ago
- 基于ComNet的短文本匹配网络模型☆11Jul 9, 2019Updated 6 years ago
- 🕵 Given a user query this python module will returns a list of related searches you see on Google search results pages.☆11Sep 28, 2018Updated 7 years ago