Ping-C / optimizerLinks

This repository includes code to reproduce the tables in "Loss Landscapes are All You Need: Neural Network Generalization Can Be Explained Without the Implicit Bias of Gradient Descent"

☆40

Alternatives and similar repositories for optimizer

Users that are interested in optimizer are comparing it to the libraries listed below

Sorting:

shikaiqiu / compute-better-spent
☆61Updated last year
ethancaballero / broken_neural_scaling_laws
Code Release for "Broken Neural Scaling Laws" (BNSL) paper
☆59Updated 2 years ago
aks2203 / deep-thinking
A centralized place for deep thinking code and experiments
☆87Updated 2 years ago
stanislavfort / dissect-git-re-basin
Replicating and dissecting the git-re-basin project in one-click-replication Colabs
☆36Updated 3 years ago
tml-epfl / why-weight-decay
Why Do We Need Weight Decay in Modern Deep Learning? [NeurIPS 2024]
☆69Updated last year
taufeeque9 / codebook-features
Sparse and discrete interpretability tool for neural networks
☆64Updated last year
JeanKaddour / NoTrainNoGain
Revisiting Efficient Training Algorithms For Transformer-based Language Models (NeurIPS 2023)
☆81Updated 2 years ago
gregorbachmann / scaling_mlps
☆52Updated last year
KellerJordan / REPAIR
Code release for REPAIR: REnormalizing Permuted Activations for Interpolation Repair
☆51Updated last year
tml-epfl / sharpness-vs-generalization
A modern look at the relationship between sharpness and generalization [ICML 2023]
☆43Updated 2 years ago
MadryLab / modeldiff
ModelDiff: A Framework for Comparing Learning Algorithms
☆58Updated 2 years ago
JeanKaddour / LAWA
Latest Weight Averaging (NeurIPS HITY 2022)
☆32Updated 2 years ago
noranta4 / ASIF
Personal implementation of ASIF by Antonio Norelli
☆26Updated last year
locuslab / edge-of-stability
☆73Updated 11 months ago
epfml / schedules-and-scaling
Code for NeurIPS 2024 Spotlight: "Scaling Laws and Compute-Optimal Training Beyond Fixed Training Durations"
☆85Updated last year
wesg52 / universal-neurons
Universal Neurons in GPT2 Language Models
☆31Updated last year
JonasGeiping / dataaugs
☆18Updated 3 years ago
AndyShih12 / LongHorizonTemperatureScaling
PyTorch implementation for "Long Horizon Temperature Scaling", ICML 2023
☆20Updated 2 years ago
edwardjhu / TP4
Code accompanying our paper "Feature Learning in Infinite-Width Neural Networks" (https://arxiv.org/abs/2011.14522)
☆63Updated 4 years ago
MadryLab / datamodels-data
Data for "Datamodels: Predicting Predictions with Training Data"
☆97Updated 2 years ago
AllanYangZhou / universal_neural_functional
☆53Updated last year
js-d / sim_metric
☆37Updated 2 years ago
adamkarvonen / SAE_BoardGameEval
☆23Updated 10 months ago
oripress / EntropyEnigma
Official code for the ICML 2024 paper "The Entropy Enigma: Success and Failure of Entropy Minimization"
☆55Updated last year
bilal-chughtai / rep-theory-mech-interp
☆27Updated 2 years ago
AhmedImtiazPrio / grok-adversarial
Deep Networks Grok All the Time and Here is Why
☆38Updated last year
tdooms / bilinear-decomposition
Official repo for the paper "Bilinear MLPs enable weight-based mechanistic interpretability".
☆24Updated 4 months ago
KindXiaoming / Omnigrok
Omnigrok: Grokking Beyond Algorithmic Data
☆62Updated 2 years ago
formll / resolving-scaling-law-discrepancies
☆20Updated last month
DeqingFu / transformers-icl-second-order
Official repository for our paper, Transformers Learn Higher-Order Optimization Methods for In-Context Learning: A Study with Linear Mode…
☆20Updated last year