zemengchuan / CnkiSpider
CnkiSpider is a package for efficiently crawling articles on CNKI
☆21Updated 2 years ago
Alternatives and similar repositories for CnkiSpider:
Users that are interested in CnkiSpider are comparing it to the libraries listed below
- 中国知网论文数据集,24000+篇论文信息。自然语言处理、信息管理、文本分类、文本摘要、关键词抽取、研究热点分析、数据挖掘、数据分析☆48Updated 3 weeks ago
- 基于论文摘要的文本分类与关键词抽取挑战赛—Task 1☆25Updated last year
- A NLP package for Chinese text:Preprocessing, Tokenization, Chinese Fonts, Word Embeddings, Text Similarity and Sentiment Analysis 轻量级中文自…☆26Updated 4 months ago
- 基于ChatGPT的情感分析☆48Updated last year
- All NLP you Need Here. 目前包含15个NLP demo的pytorch实现(大量代码借鉴于其他开源项目,原先是自己玩的,后来干脆也开源出来)☆271Updated this week
- 人民日报(1946-2024)、习近平系列重要讲话数据库、古诗文☆57Updated last week
- 中文文本相似度计算器☆137Updated 5 months ago
- 知网爬虫,作者、摘要、题目、发表期刊等主要内容的获取☆21Updated last month
- 文本分析包,支持字数统计、可读性、文档相似度、情感分析在内的多种文本分析方法。chinese text sentiment analysis☆329Updated last week
- 中文 小说 多轮对话语料库 ,可以用来训练中文聊天模型,更新中,有想加的语料可以提issue☆21Updated 11 months ago
- 基于scrapy的层次优先队列方法爬取中文维基百科,并自动抽取结构和半结构数据☆144Updated last year
- 常用中文停用词表:包含百度停用词表、哈工大停用词表和四川大学机器智能实验室停用词表。还有整理过的英文停用词表以及其他语言的停用词表☆115Updated last year
- ChatGPT WebUI using gradio. 给 LLM 对话和检索知识问答RAG提供一个简单好用的Web UI界面☆122Updated 7 months ago
- 人民日报爬虫(Python)☆111Updated last month
- 基于Qwen2模型进行通用信息抽取【实体/关系/事件抽取】☆30Updated 8 months ago
- 国内首个全参数训练的法律大模型 HanFei-1.0 (韩非)☆114Updated last year
- BERTopic 中文使用範例☆15Updated 11 months ago
- llama信息抽取实战☆98Updated last year
- 基于 BERT 模型的中文文本分类工具☆62Updated 2 years ago
- 在中文开源大模型的基础上进行定制化的微调,拥有自己专属的语言模型。☆47Updated last year
- 首个金融领域大模型BloombergGPT 论文的中文实现☆56Updated last year
- StyleLLM文风大模型:基于大语言模型的文本风格迁移项目。Text style transfer base on Large Language Model. #文字修饰 # 润色 #风格模仿☆286Updated 9 months ago
- 中文文本分析工具包(包括- 文本分类 - 文本聚类 - 文本相似性 - 关键词抽取 - 关键短语抽取 - 情感分析 - 文本纠错 - 文本摘要 - 主题关键词-同义词、近义词-事件三元组抽取)☆707Updated last year
- ☆148Updated 8 months ago
- GuwenModels: 古文自然语言处理模型合集, 收录互联网上的古文相关模型及资源. A collection of Classical Chinese natural language processing models, including Classical Ch…☆173Updated last year
- <数字人文教程>资源合集☆95Updated 10 months ago
- 中文世界的NLP自动标注开源工具,简单样本,交给LabelFast。☆66Updated 2 months ago
- 知网论文数据爬虫☆53Updated last year
- Legal-Eagle-InternLM 是一个基于商汤科技和上海人工智能实验室推出的书生浦语大模型InternLM的法律问答机器人。旨在为用户提供符合3H(即Helpful、Honest、Harmless)原则的专业、智能、全面的法律服务的法律领域大模型。☆55Updated last year
- [COLING 2022] CSL: A Large-scale Chinese Scientific Literature Dataset 中文科学文献数据集☆613Updated last year