endNone / stopwordsLinks
Chinese–English Stopword List (3,076 entries, including special symbols)
☆22Updated last month
Alternatives and similar repositories for stopwords
Users that are interested in stopwords are comparing it to the libraries listed below
Sorting:
- cntext 是一个专为社会科学实证研究设计的中文文本分析 Python 库。它不仅提供传统的词频统计和情感分析,还支持词嵌入训练、语义投影计算等高级功能,帮助研究者从大规模非结构化文本中测量抽象构念——如态度、认知、文化观念与心理状态。☆425Updated 2 months ago
- 人民日报(1946-2024)、习近平系列重要讲话数据库、古诗文☆80Updated 10 months ago
- 常用中文停用词表:包含百度停用词表、哈工大停用词表和四川大学机器智能实验室停用词表。还有整理过的英文停用词表以及其他语言的停用词表☆166Updated 2 years ago
- ☆411Updated 6 months ago
- 中文文本相似度计算器☆169Updated last year
- 【逐条处理完成】人为审核+修改每一条的弱智吧精选问题QA数据集☆243Updated 9 months ago
- 爬取bilibili视频下的评论,最新出品!!!⚠本代码只适用于学习,做其他事情概不负责!!!☆65Updated last month
- 人民日报爬虫(Python)☆157Updated 6 months ago
- BERTopic 中文使用範例☆22Updated last year
- ☆248Updated last year
- A Chinese NLP library based on BERT for sentiment analysis and general-purpose Chinese word segmentation. | 基于 BERT 的中文 NLP 库,用于中文情感倾向分析、…☆223Updated 6 months ago
- 一个面向中文文本纠错任务的综合平台,集学术研究、模型训练、模型评测和推理部署于一体,覆盖拼写纠错与语法纠错两个核心方向。☆485Updated this week
- PDF解析(文字,章节,表格,图片,参考),基于大模型(ChatGLM2-6B, RWKV)+langchain+streamlit的PDF问答,摘要,信息抽取☆213Updated 2 years ago
- doc2x docs☆74Updated last year
- <数字人文教程>资源合集☆111Updated last year
- CnkiSpider is a package for efficiently crawling articles on CNKI☆21Updated 2 years ago
- AM (Advanced Mathematics) Chat is a large language model that integrates advanced mathematical knowledge, exercises in higher mathematics…☆226Updated last year
- This is a code example repo for the NLP course offered by the Institute of Chinese Information Processing of BNU.☆50Updated 9 months ago
- [ICLR'24 Spotlight] The official codes of our work on AIGC detection: "Multiscale Positive-Unlabeled Detection of AI-Generated Texts"☆372Updated 5 months ago
- Legal-Eagle-InternLM 是一个基于商汤科技和上海人工智能实验室推出的书生浦语大模型InternLM的法律问答机器人。旨在为用户提供符合3H(即Helpful、Honest、Harmless)原则的专业、智能、全面的法律服务的法律领域大模型。☆65Updated last year
- 利用LLM+敏感词库,来自动判别是否涉及敏感词。☆136Updated 2 years ago
- 中国知网论文数据集,24000+篇论文信息。自然语言处理、信息管理、文本分类、文本摘要、关键词抽取、研究热点分析、数据挖掘、数据分析☆53Updated 11 months ago
- 收集 NLP 领域的高质量中文数据集☆56Updated 9 months ago
- 中文情感词典汇总(台湾大学NTUSD简体中文情感词典,清华大学李军中文褒贬义词典,知网Hownet情感词典等)☆209Updated 10 months ago
- 中文自然语言处理数据集,平时做做实验的材料。欢迎补充提交合并。☆37Updated 4 years ago
- 基于bert-base-chinese微调的中文情感分析任务,在WeiboSenti100k 数据集上训练5个epoch并且收敛☆40Updated 2 years ago
- 大模型相关实践记录☆158Updated 10 months ago
- 中文情感分析库(Chinese Sentiment))可对文本进行情绪分析、正负情感分析。Text analysis, supporting multiple methods including word count, readability, document simil…☆580Updated 3 years ago
- 古诗词爬虫和文本挖掘,含13个朝代的3万多条诗人数据、85万多条诗词数据,包括主题聚类、相关诗词推荐、藏头诗生成、诗词翻译等算法实现☆32Updated 3 years ago
- 中文停用词/常用汉字/生僻字集合☆178Updated 6 years ago