endNone / stopwordsLinks
中英文停用词表(3076,包含部分特殊符号)
☆21Updated 8 months ago
Alternatives and similar repositories for stopwords
Users that are interested in stopwords are comparing it to the libraries listed below
Sorting:
- 常用中文停用词表:包含百度停用词表、哈工大停用词表和四川大学机器智能实验室停用词表。还有整理过的英文停用词表以及其他语言的停用词表☆147Updated 2 years ago
- text analysis, supporting multiple methods including word count, readability, document similarity, sentiment analysis, Word2Vec/GloVe, an…☆362Updated 4 months ago
- TXT文本语料数据清洗(Text corpus data cleaning):1> 合并TXT文件;2> 过滤干扰字符串;3> 对人名、地名、组织机构进行遮码处理;4> 将其他编码格式统一转换为UTF-8☆18Updated 2 years ago
- ☆390Updated last month
- 【逐条处理完成】人为审核+修改每一条的弱智吧精选问题QA数据集☆222Updated 4 months ago
- Legal-Eagle-InternLM 是一个基于商汤科技和上海人工智能实验室推出的书生浦语大模型InternLM的法律问答机器人。旨在为用户提供符合3H(即Helpful、Honest、Harmless)原则的专业、智能、全面的法律服务的法律领域大模型。☆60Updated last year
- 爬取bilibili视频下的评论,最新出品!!!⚠本代码只适用于学习,做其他事情概不负责!!!☆65Updated last month
- 中文文本相似度计算器☆158Updated 11 months ago
- BERTopic 中文使用範例☆22Updated last year
- ☆205Updated last year
- Uncovering AIGC Texts with Machine Learning☆177Updated last year
- 人民日报爬虫(Python)☆140Updated last month
- CnkiSpider is a package for efficiently crawling articles on CNKI☆20Updated 2 years ago
- A Chinese NLP library based on BERT for sentiment analysis and general-purpose Chinese word segmentation. | 基于 BERT 的中文 NLP 库,用于中文情感倾向分析、…☆216Updated last month
- 由中国政法大学和北京航空航天大学共同设计,基于GLM-9B的法律文书处理和判决预测模型☆27Updated last year
- [ICLR'24 Spotlight] The official codes of our work on AIGC detection: "Multiscale Positive-Unlabeled Detection of AI-Generated Texts"☆309Updated 2 weeks ago
- 一个面向中文文本纠错任务的综合平台,集学术研究、模型训练、模型评测和推理部署于一体,覆盖拼写纠错与语法纠错两个核心方向。☆370Updated 2 weeks ago
- 知网爬虫,作者、摘要、题目、发表期刊等主要内容的获取☆30Updated 6 months ago
- 降AIGC率,降低知网、维普、格子达平台的AIGC检测率,降知网AI,降维普AI,降格子达AI。☆42Updated last month
- A NLP package for Chinese text:Preprocessing, Tokenization, Chinese Fonts, Word Embeddings, Text Similarity and Sentiment Analysis 轻量级中文自…☆30Updated 10 months ago
- 中文:方便好用的文本分类模型训练加推理全公开!欢迎star后礼貌获取!大体上本项目采用ERINE3.0的base版本将文本转换为语义向量而后做特征进行分类,实测上限极高可以优化后在61分类任务中达到92%准确率。☆49Updated last year
- 中文情感词典汇总(台湾大学NTUSD简体中文情感词典,清华大学李军中文褒贬义词典,知网Hownet情感词典等)☆194Updated 5 months ago
- 知乎热门话题,记录从 2021-12-6 日开始的知乎热门话题。每小时抓取一次数据,按天归档。☆32Updated 4 months ago
- 从小说中提取对话数据集☆240Updated last year
- 自己手写的百度搜索接口的封装,pip安装,支持命令行执行。Baidu Search unofficial API for Python with no external dependencies☆146Updated 9 months ago
- 一个爬取微博热榜,并进行可视化展示及推送的小工具☆31Updated 6 months ago
- 自动读取本地pdf文献并提取标题、作者、摘要和结论生成综述。Read and translate English literature to generate review automatically.☆161Updated 3 years ago
- <数字人文教程>资源合集☆102Updated last year
- PDF解析(文字,章节,表格,图片,参考),基于大模型(ChatGLM2-6B, RWKV)+langchain+streamlit的PDF问答,摘要,信息抽取☆206Updated last year
- 用于SenseVoice的api项目,输出带时间戳字幕☆39Updated 10 months ago