wanghaitao93 / text_filterLinks
文本敏感词过滤(附1w+的词敏感词库)
☆24Updated 5 years ago
Alternatives and similar repositories for text_filter
Users that are interested in text_filter are comparing it to the libraries listed below
Sorting:
- 基于分词原理修改写的一个过滤敏感词库,可以改成动态,支持返回敏感词,高亮敏感词,替换敏感词等操作,本敏感词收集了5W多个违法词、敏感词、违禁词,已去重,最新追加了将近1W个最新词,几十个矫正词、变异词。☆196Updated 5 years ago
- 收集的一些敏感词汇,挺全的,还细分了暴恐词库、反动词库、民生词库、色情词库、贪腐词库、其他词库等☆434Updated 8 years ago
- 敏感词库整理☆177Updated 9 years ago
- 中文 小说 多轮对话语料库 ,可以用来训练中文聊天模型,更新中,有想加的语料可以提issue☆21Updated last year
- 整理开发中常用的各类API接口,当前有4大类:微信相关、数据及分析、开发专用、生活服务,如:天气预报、文档生成、身份证识别、代理IP等; 整理各种数据包,如:中华古诗词数据、词库、敏感词表、医学词表、四六级英汉词典数据等☆66Updated 6 years ago
- mirror of dongxiexidian/Chinese☆302Updated 6 years ago
- 文本关键词提取,且词云可视化☆28Updated 3 years ago
- 基于 Simhash 的论文查重系统☆81Updated 3 years ago
- 敏感词过滤系统☆60Updated 9 years ago
- 中文、分词、词表、核心词典、事件词表、停用词、敏感词、问答、问答数据、知识图谱、文本语料。☆171Updated 4 years ago
- 中文语料库-每日自动更新版 ── 语料文件☆160Updated 4 years ago
- 停用词和敏感词库☆17Updated 4 years ago
- dialogbot, provide search-based dialogue, task-based dialogue and generative dialogue model. 对话机器人,基于问答型对话、任务型对话、聊天型对话等模型实现,支持网络检索问答,领域知识…☆333Updated last year
- 使用scrapy从全国六大较权威的新闻网站(澎湃新闻、新华网、新京报、凤 凰网、光明网、人民网)爬取最近15天内的新闻,利用爬取数据提取省份信息、计算新闻热点值、使用预训练模型生成新闻类别后存入Mysql数据库,网页使用HTML、CSS、JavaScript进行编写,采用开…☆29Updated 3 years ago
- 中国知网论文数据集,24000+篇论文信息。自然语言处理、信息管理、文本分类、文本摘要、关键词抽取、研究热点分析、数据挖掘、数据分析☆53Updated 7 months ago
- Mimix: A Text Generation Tool and Pretrained Chinese Models☆158Updated 11 months ago
- 利用LLM+敏感词库,来自 动判别是否涉及敏感词。☆129Updated 2 years ago
- 文本查重SDK,可用于论文查重、标书查重、文档查重、作业查重、合同查重、防串标等场景。关联:duplicate check☆148Updated 5 months ago
- pytorch-based, RNN,中文古诗词、歌词、散文自动生成☆64Updated 6 years ago
- 基于ChatGLM-6b+langchain实现本地化知识库检索与智能答案生成☆23Updated last year
- 收录常见业务安全场景中文脏词,如广告引流、辱骂、暴恐、黄赌毒政类。☆63Updated 2 years ago
- <数字人文教程>资源合集☆104Updated last year
- 情感词典、停用词典、同义词典、程度词典、否定词典、敏感词典☆150Updated 4 years ago
- 供AI训练的中文数据集(持续更新。。。)与AI公司图谱,目前的数据集餐饮行业8000问,百度知道,Alpaca中文数据集,计算机领域数据集,Vicuna数据集,RedPajama数据集,Wikipedia中文词条数据集,网站论坛问答数据集☆61Updated last year
- 中文图书数据集/数据挖掘/自然语言处理/中国图书分类法/图书情报学/数据挖掘/文本分类/☆91Updated 7 months ago
- 一个短视频app文本审核模块的实现思路及demo☆122Updated 7 years ago
- 中文文本相似度计算器☆160Updated last year
- 使用python开发的极简的敏感词过滤系统☆31Updated 7 years ago
- 通过机器学习进行敏感词的识别☆29Updated 7 years ago
- 澎湃新闻,新浪新闻,腾讯新闻,搜狐新闻,新闻联播,泰晤士报,纽约时报,BBCNews,旨在爬取所有新闻门户网站的新闻,禁止将所得数据商用!☆411Updated 2 years ago