cliang1453 / SAGELinks

No Parameters Left Behind: Sensitivity Guided Adaptive Learning Rate for Training Large Transformer Models (ICLR 2022)

☆30

Alternatives and similar repositories for SAGE

Users that are interested in SAGE are comparing it to the libraries listed below

Sorting:

gucci-j / light-transformer-emnlp2021
EMNLP 2021 - Frustratingly Simple Pretraining Alternatives to Masked Language Modeling
☆31Updated 3 years ago
qqaatw / pytorch-realm-orqa
PyTorch reimplementation of REALM and ORQA
☆22Updated 3 years ago
cindyxinyiwang / expand-via-lexicon-based-adaptation
Code for ACL 2022 paper "Expanding Pretrained Models to Thousands More Languages via Lexicon-based Adaptation"
☆30Updated 3 years ago
jxhe / efficient-knnlm
Pytorch implementation of paper "Efficient Nearest Neighbor Language Models" (EMNLP 2021)
☆73Updated 3 years ago
kernelmachine / demix
DEMix Layers for Modular Language Modeling
☆53Updated 3 years ago
frankxu2004 / knnlm-why
Repo for ICML23 "Why do Nearest Neighbor Language Models Work?"
☆58Updated 2 years ago
jungokasai / deep-shallow
☆44Updated 4 years ago
CAMTL / CA-MTL
Conditionally Adaptive Multi-Task Learning: Improving Transfer Learning in NLP Using Fewer Parameters & Less Data
☆56Updated 3 years ago
jungokasai / twist_decoding
☆29Updated 3 years ago
princeton-nlp / ShortcutGrammar
EMNLP 2022: Finding Dataset Shortcuts with Grammar Induction https://arxiv.org/abs/2210.11560
☆58Updated 4 months ago
facebookresearch / ELECTRA-Fewshot-Learning
This repository contains the code for paper Prompting ELECTRA Few-Shot Learning with Discriminative Pre-Trained Models.
☆48Updated 3 years ago
ghomasHudson / muld
The Multitask Long Document Benchmark
☆39Updated 2 years ago
gmftbyGMFTBY / MomentumDecoding
Momentum Decoding: Open-ended Text Generation as Graph Exploration
☆19Updated 2 years ago
ahmetustun / hyperx
☆20Updated 2 years ago
AkariAsai / evidentiality_qa
The official implemetation of "Evidentiality-guided Generation for Knowledge-Intensive NLP Tasks" (NAACL 2022).
☆44Updated 2 years ago
microsoft / AMOS
[ICLR 2022] Pretraining Text Encoders with Adversarial Mixture of Training Signal Generators
☆24Updated last year
uds-lsv / MCSE
NAACL 2022: MCSE: Multimodal Contrastive Learning of Sentence Embeddings
☆55Updated last year
INK-USC / ReCross
ReCross: Unsupervised Cross-Task Generalization via Retrieval Augmentation
☆24Updated 3 years ago
microsoft / KID
Knowledge Infused Decoding
☆71Updated last year
rabeehk / vibert
Implementation for Variational Information Bottleneck for Effective Low-resource Fine-tuning, ICLR 2021
☆40Updated 4 years ago
jacobandreas / geca
☆42Updated 4 years ago
yxuansu / Contrastive_Search_versus_Contrastive_Decoding
An Empirical Study On Contrastive Search And Contrastive Decoding For Open-ended Text Generation
☆27Updated last year
RobertCsordas / ndr
The official repository for our paper "The Neural Data Router: Adaptive Control Flow in Transformers Improves Systematic Generalization".
☆33Updated last month
yasumasaonoe / ecbd
☆11Updated 2 years ago
nyu-mll / SQuALITY
Query-focused summarization data
☆42Updated 2 years ago
yumeng5 / SuperGen
[NeurIPS 2022] Generating Training Data with Language Models: Towards Zero-Shot Language Understanding
☆67Updated 2 years ago
ghrua / NgramRes
☆21Updated 2 years ago
shuo-git / InfECE
☆20Updated 4 years ago
MichaelZhouwang / Sequence_Span_Rewriting
Code for EMNLP 2021 paper: Improving Sequence-to-Sequence Pre-training via Sequence Span Rewriting
☆17Updated 3 years ago
machelreid / m2d2
M2D2: A Massively Multi-domain Language Modeling Dataset (EMNLP 2022) by Machel Reid, Victor Zhong, Suchin Gururangan, Luke Zettlemoyer
☆54Updated 2 years ago