evalplus / repoqaLinks

RepoQA: Evaluating Long-Context Code Understanding

☆113

Alternatives and similar repositories for repoqa

Users that are interested in repoqa are comparing it to the libraries listed below

Sorting:

facebookresearch / cruxeval
CRUXEval: Code Reasoning, Understanding, and Execution Evaluation
☆151Updated 9 months ago
qishenghu / InstructCoder
InstructCoder: Instruction Tuning Large Language Models for Code Editing | Oral ACL-2024 srw
☆62Updated 10 months ago
gonglinyuan / safim
☆36Updated 2 months ago
amazon-science / llm-code-preference
Training and Benchmarking LLMs for Code Preference.
☆34Updated 8 months ago
r2e-project / r2e
r2e: turn any github repository into a programming agent environment
☆129Updated 3 months ago
crux-eval / eval-arena
☆28Updated 2 weeks ago
Ablustrund / APPS_Plus
StepCoder: Improve Code Generation with Reinforcement Learning from Compiler Feedback
☆67Updated 11 months ago
ntunlp / xCodeEval
xCodeEval: A Large Scale Multilingual Multitask Benchmark for Code Understanding, Generation, Translation and Retrieval
☆86Updated 10 months ago
Leolty / repobench
✨ RepoBench: Benchmarking Repository-Level Code Auto-Completion Systems - ICLR 2024
☆169Updated 11 months ago
bigcode-project / astraios
Astraios: Parameter-Efficient Instruction Tuning Code Language Models
☆59Updated last year
CodeEditorBench / CodeEditorBench
☆51Updated last year
evo-eval / evoeval
EvoEval: Evolving Coding Benchmarks via LLM
☆75Updated last year
SparksofAGI / MHPP
☆32Updated last month
hughbzhang / o1_inference_scaling_laws
Replicating O1 inference-time scaling laws
☆89Updated 8 months ago
AlexCuadron / ThinkingAgent
Systematic evaluation framework that automatically rates overthinking behavior in large language models.
☆91Updated 2 months ago
THUDM / SWE-Dev
[ACL25' Findings] SWE-Dev is an SWE agent with a scalable test case construction pipeline.
☆50Updated 2 weeks ago
amazon-science / cceval
CrossCodeEval: A Diverse and Multilingual Benchmark for Cross-File Code Completion (NeurIPS 2023)
☆153Updated last year
jeffreysijuntan / lloco
The official repo for "LLoCo: Learning Long Contexts Offline"
☆118Updated last year
InternLM / SWE-Fixer
☆108Updated 2 months ago
zorazrw / odex
[EMNLP'23] Execution-Based Evaluation for Open Domain Code Generation
☆48Updated last year
ConsequentAI / fneval
Functional Benchmarks and the Reasoning Gap
☆88Updated 10 months ago
bigcode-project / selfcodealign
[NeurIPS'24] SelfCodeAlign: Self-Alignment for Code Generation
☆309Updated 5 months ago
R2E-Gym / R2E-Gym
Official repository for R2E-Gym: Procedural Environment Generation and Hybrid Verifiers for Scaling Open-Weights SWE Agents
☆136Updated 3 weeks ago
nuprl / CanItEdit
Can It Edit? Evaluating the Ability of Large Language Models to Follow Code Editing Instructions
☆45Updated 11 months ago
nyu-mll / ILF-for-code-generation
☆78Updated 4 months ago
felipemaiapolo / tinyBenchmarks
Evaluating LLMs with fewer examples
☆160Updated last year
princeton-nlp / USACO
Can Language Models Solve Olympiad Programming?
☆119Updated 6 months ago
commit-0 / commit0
Commit0: Library Generation from Scratch
☆160Updated 2 months ago
gonglinyuan / ast_t5
☆66Updated last year
aorwall / moatless-tree-search
☆99Updated last month