zemengchuan / CnkiSpiderLinks
CnkiSpider is a package for efficiently crawling articles on CNKI
☆20Updated 2 years ago
Alternatives and similar repositories for CnkiSpider
Users that are interested in CnkiSpider are comparing it to the libraries listed below
Sorting:
- text analysis, supporting multiple methods including word count, readability, document similarity, sentiment analysis, Word2Vec/GloVe, an…☆362Updated 4 months ago
- 澎湃新闻,新浪新闻,腾讯新闻,搜狐新闻,新闻联播,泰晤士报,纽约时报,BBCNews,旨在爬取所有新闻门户网站的新闻,禁止将所得数据商用!☆407Updated 2 years ago
- 人民日报爬虫(Python)☆140Updated last month
- 基于论文摘要的文本分类与关键词抽取挑战赛—Task 1☆24Updated 2 years ago
- ☆205Updated last year
- 中文文本相似度计算器☆158Updated 11 months ago
- 常用中文停用词表:包含百度停用词表、哈工大停用词表和四川大学机器智能实验室停用词表。还有整理过的英文停用词表以及其他语言的停用词表☆147Updated 2 years ago
- ChatGPT WebUI using gradio. 给 LLM 对话和检索知识问答RAG提供一个简单好用的Web UI界面☆133Updated last year
- AGI拓展工具,支持AI搜索&爬虫&数据清洗,开箱即用。tavily、天工、百度百科、百家号、360百科、头条、微信公众号、搜狐百科、腾讯新闻、网易新闻、马蜂窝、小红书☆151Updated 3 months ago
- 自己手写的百度搜索接口的封装,pip安装,支持命令行执行。Baidu Search unofficial API for Python with no external dependencies☆146Updated 9 months ago
- 利用LLM+敏感词库,来自动判别是否涉及敏感词。☆127Updated 2 years ago
- A NLP package for Chinese text:Preprocessing, Tokenization, Chinese Fonts, Word Embeddings, Text Similarity and Sentiment Analysis 轻量级中文自…☆30Updated 10 months ago
- 夫子•明察司法大模型是由山东大学、浪潮云、中国政法大学联合研发,以 ChatGLM 为大模型底座,基于海量中文无监督司法语料与有监督司法微调数据训练的中文司法大模型。该模型支持法条检索、案例分析、三段论推理判决以及司法对话等功能,旨在为用户提供全方位、高精准的法律咨询与解答…☆356Updated last month
- Your all-in-one port for papers, citations, and research insights.☆109Updated last month
- 携程评论爬虫,使用线程池来爬取热门景区评论,简单易用。一键爬取任意省的所有热门景区并分析评论数据,可视化展示。☆128Updated 4 months ago
- 中国知网论文数据集,24000+篇论文信息。自然语言处理、信息管理、文本分类、文本摘要、关键词抽取、研究热点分析、数据挖掘、数据分析☆53Updated 6 months ago
- ☆67Updated 11 months ago
- 中英文停用词表(3076,包含部分特殊符号)☆21Updated 8 months ago
- 降AIGC率,降低知网、维普、格子达平台的AIGC检测率,降知网AI,降维普AI,降格子达AI。☆41Updated last month
- 基于Python爬虫技术的中国知网(CNKI)文献检索与下载程序,能够便利文献的检索与信息下载!☆15Updated 2 years ago
- 中文情感分析库(Chinese Sentiment))可对文本进行情绪分析、正负情感分析。Text analysis, supporting multiple methods including word count, readability, document simil…☆563Updated 2 years ago
- 古诗词爬虫和文本挖掘,含13个朝代的3万多条诗人数据、85万多条诗词数据,包括主题聚类、相关诗词推荐、藏头诗生成、诗词翻译等算法实现☆31Updated 2 years ago
- [ICLR'24 Spotlight] The official codes of our work on AIGC detection: "Multiscale Positive-Unlabeled Detection of AI-Generated Texts"☆309Updated last week
- [COLING 2022] CSL: A Large-scale Chinese Scientific Literature Dataset 中文科学文献数据集☆639Updated 2 years ago
- 爬取指定关键词的微博数据☆55Updated last year
- 基于Qwen2模型进行通用信息抽取【实体/关系/事件抽取】☆35Updated last year
- Legal-Eagle-InternLM 是一个基于商汤科技和上海人工智能实验室推出的书生浦语大模型InternLM的法律问答机器人。旨在为用户提供符合3H(即Helpful、Honest、Harmless)原则的专业、智能、全面的法律服务的法律领域大模型。☆60Updated last year
- 中文文本分析工具、语料、预训练模型相关资源汇总。☆142Updated 4 months ago
- 关键词爬虫,根据关键词爬取微博、bilibili、知乎、今日头条、微信公众号、抖音、快手、YouTube的图片以及视频,并记录在excel中,可用于构造深度学习的数据集☆111Updated 2 years ago
- 黄帝(Huang-Di)模型仓库,基于Ziya-LLaMA-13B-V1的中医古籍知识问答大模型。☆138Updated 8 months ago