jiangnanboy / text_security_auditLinks
text security audit 安全审核-语义模型过滤 敏感内容检测系统
☆34Updated 10 months ago
Alternatives and similar repositories for text_security_audit
Users that are interested in text_security_audit are comparing it to the libraries listed below
Sorting:
- 利用LLM+敏感词库,来自动判别是否涉及敏感词。☆136Updated 2 years ago
- 基于Qwen2模型进行通用信息抽取【实体/关系/事件抽取】☆40Updated last year
- 本项目旨在识别长短文本中的敏感词,并对整段/句文本进行语义分类,从而达到文本审核的目的☆71Updated 5 years ago
- 大模型预训练中文语料清洗及质量评估 Large model pre-training corpus cleaning☆74Updated last year
- YiZhao: A 2TB Open Financial Corpus. Data and tools for generating and inspecting YiZhao, a safe, high-quality, open-source bilingual fin…☆36Updated 5 months ago
- 打造人人都会的NLP,开源不易,记得star哦☆102Updated 2 years ago
- 大语言模型训练和服务调研☆37Updated 2 years ago
- 属于每个人的公众号”查特查特“上线啦!新问题、新方法、新发现,欢迎提PR!☆47Updated 2 years ago
- "桃李“: 国际中文教育大模型☆188Updated 2 years ago
- 千问14B和7B的逐行解释☆63Updated 2 years ago
- 收录常见业务安全场景中文脏词,如广告引流、辱骂、暴恐、黄赌毒政 类。☆67Updated 3 years ago
- Python3 package for Chinese/English OCR,use paddleocr-v5 onnx model(~20MB), with ultra-fast inference speed. 基于ppocr-v5-onnx模型推理,中英文OCR开源…☆122Updated 5 months ago
- ☆13Updated 9 months ago
- 一套代码指令微调大模型☆38Updated 2 years ago
- 中文世界的NLP自动标注开源工具,简单样本,交给LabelFast。☆85Updated last month
- Tracking the hot Github repos and update daily 每天自动追踪Github热门项目☆50Updated this week
- 使用Qwen1.5-0.5B-Chat模型进行通用信息抽取任务的微调,旨在: 验证生成式方法相较于抽取式NER的效果; 为新手提供简易的模型微调流程,尽量减少代码量; 大模型训练的数据格式处理。☆15Updated last year
- Legal-Eagle-InternLM 是一个基于商汤科技和上海人工智能实验室推出的书生浦语大模型InternLM的法律问答机器人。旨在为用户提供符合3H(即Helpful、Honest、Harmless)原则的专业、智能、全面的法律服务的法律领域大模型。☆64Updated last year
- 通用简单工具项目☆22Updated last year
- 大语言模型ChatGLM-6B为基座,接入文档阅读功能进行实时问答,可上传txt/docx/pdf多种文件类型。☆43Updated 2 years ago
- ChatGPT WebUI using gradio. 给 LLM 对话和检索知识问答RAG提供一个简单好用的Web UI界面☆139Updated last year
- GoGPT中文指令数据集构造☆10Updated last year
- 基于qlora对baichuan-7B大模型进行指令微调。☆23Updated 2 years ago
- A repo for update and debug Mixtral-7x8B、MOE、ChatGLM3、LLaMa2、 BaChuan、Qwen an other LLM models include new models mixtral, mixtral 8x7b, …☆47Updated 3 months ago
- 基于多模态特征融合的即时社交软件违规图片检测系统。通过结合图像和文本信息,系统支持对OCR后的文本进行高效的敏感词检测,并允许用户自定义敏感词词库。此外,系统能够自动识别图片中的二维码并提取域名进行安全检测,实现对图片的三分类,包括正常、涉黄和敏感信息,并支持建立图片黑白名…☆72Updated last year
- 供AI训练的中文数据集(持续更新。。。)与AI公司图谱,目前的数据集餐饮行业8000问,百度知道,Alpaca中文数据集,计算机领域数据集,Vicuna数据集,RedPajama数据集,Wikipedia中文词条数据集,网站论坛问答数据集☆62Updated 2 years ago
- 通用版面分析 | 中文文档解析 |Document Layout Analysis | layout paser☆48Updated last year
- 有一个通用实体关系事件抽取的任务,需要使用到UIE模框架,而且需要将起部署到昇腾310服务器上,因为UIE模型底层使用的是ernie3.0,但是目前paddle官方还不支持ernie3.0模型在昇腾310上部署,所以才有了以下的操作,主要过程是,先试用paddle训练处模型…☆20Updated 3 years ago
- 文本相似度,语义向量,文本向量,text-similarity,similarity, sentence-similarity,BERT,SimCSE,BERT-Whitening,Sentence-BERT, PromCSE, SBERT☆75Updated last year
- ChatGLM2-6B微调, SFT/LoRA, instruction finetune☆109Updated 2 years ago