mireshghallah / neighborhood-curvature-miaLinks

☆23

Alternatives and similar repositories for neighborhood-curvature-mia

Users that are interested in neighborhood-curvature-mia are comparing it to the libraries listed below

Sorting:

weichen-yu / LM-Extraction
☆43Updated 2 years ago
Vaidehi99 / InfoDeletionAttacks
☆47Updated 9 months ago
ethz-spylab / rlhf-poisoning
Code for paper "Universal Jailbreak Backdoors from Poisoned Human Feedback"
☆62Updated last year
VITA-Group / Robust_Weight_Signatures
[ICML 2023] "Robust Weight Signatures: Gaining Robustness as Easy as Patching Weights?" by Ruisi Cai, Zhenyu Zhang, Zhangyang Wang
☆16Updated 2 years ago
skywalker023 / confaide
🤫 Code and benchmark for our ICLR 2024 spotlight paper: "Can LLMs Keep a Secret? Testing Privacy Implications of Language Models via Con…
☆48Updated last year
Jayfeather1024 / Backdoor-Enhanced-Alignment
☆23Updated 11 months ago
UCSC-VLAA / AttnGCG-attack
☆20Updated 5 months ago
Princeton-SysML / FILM
Official repo for the paper: Recovering Private Text in Federated Learning of Language Models (in NeurIPS 2022)
☆61Updated 2 years ago
shizhediao / Black-Box-Prompt-Learning
Source code for the TMLR paper "Black-Box Prompt Learning for Pre-trained Language Models"
☆56Updated 2 years ago
SafeAILab / RAIN
[ICLR'24] RAIN: Your Language Models Can Align Themselves without Finetuning
☆99Updated last year
pratyushmaini / llm_dataset_inference
Official Repository for Dataset Inference for LLMs
☆43Updated last year
thunlp / NeuBA
☆25Updated 4 years ago
yjw1029 / Self-Reminder-Data
Data for our paper "Defending ChatGPT against Jailbreak Attack via Self-Reminder"
☆20Updated 2 years ago
xinleihe / toxic-prompt
☆27Updated 2 years ago
papersPapers / BadPrompt
Code for the paper "BadPrompt: Backdoor Attacks on Continuous Prompts"
☆40Updated last year
JasonForJoy / Model-Editing-Hurt
EMNLP 2024: Model Editing Harms General Abilities of Large Language Models: Regularization to the Rescue
☆37Updated 5 months ago
VITA-Group / DP-OPT
[ICLR'24 Spotlight] DP-OPT: Make Large Language Model Your Privacy-Preserving Prompt Engineer
☆46Updated last year
princeton-nlp / benign-data-breaks-safety
☆41Updated last year
zjysteven / mink-plus-plus
[ICLR'25 Spotlight] Min-K%++: Improved baseline for detecting pre-training data of LLMs
☆50Updated 5 months ago
mireshghallah / ft-memorization
☆13Updated 3 years ago
xiangyue9607 / Sentence-LDP
Code for the WWW'23 paper "Sanitizing Sentence Embeddings (and Labels) for Local Differential Privacy"
☆12Updated 2 years ago
AlexWan0 / Poisoning-Instruction-Tuned-Models
☆56Updated last year
ejones313 / auditing-llms
☆59Updated 2 years ago
Princeton-SysML / kNNLM_privacy
Official implementation of Privacy Implications of Retrieval-Based Language Models (EMNLP 2023). https://arxiv.org/abs/2305.14888
☆37Updated last year
yaojin17 / Unlearning_LLM
[ACL 2024] Code and data for "Machine Unlearning of Pre-trained Large Language Models"
☆63Updated last year
lancopku / RAP
Code for the paper "RAP: Robustness-Aware Perturbations for Defending against Backdoor Attacks on NLP Models" (EMNLP 2021)
☆26Updated 4 years ago
wyshi / lm_privacy
☆21Updated 4 years ago
XuandongZhao / DRW
[EMNLP 2022] Distillation-Resistant Watermarking (DRW) for Model Protection in NLP
☆13Updated 2 years ago
lancopku / Embedding-Poisoning
Code for the paper "Be Careful about Poisoned Word Embeddings: Exploring the Vulnerability of the Embedding Layers in NLP Models" (NAACL-…
☆43Updated 4 years ago
decoding-comp-trust / comp-trust
Codebase for decoding compressed trust.
☆25Updated last year