haohaoXhang / RLHF_learnLinks
这是一个从零开始构建的强化学习人类反馈(RLHF)学习代码库,实现了 PPO、GRPO、GSPO 以及相关的策略优化算法,并提供了清晰、可复现的训练流程。由于文档是由latex文件转译过来,如果md文件渲染异常,请用VScode的md插件打开
☆30Updated last week
Alternatives and similar repositories for RLHF_learn
Users that are interested in RLHF_learn are comparing it to the libraries listed below
Sorting:
- llm相关内容,包括:基础知识、八股文、面经、经典论文☆273Updated last year
- ☆602Updated last week
- 一个简单的多模态RAG项目☆271Updated 7 months ago
- ☆467Updated 5 months ago
- 收集大语言模型的学习路径和各种最佳实践☆315Updated last year
- 大模型算法岗面试题(含答案):常见问题和概念解析 "大模型面试题"、"算法岗面试"、"面试常见问题"、"大模型算法面试"、"大模型应用基础"☆1,501Updated 4 months ago
- 《EasyOffer》(<大模型面经合集>)是针对LLM宝宝们量身打造的大模型暑期实习Offer指南,主要记录大模型暑期实习和秋招准备的一些常见大厂手撕代码、大厂面经经验、常见大厂思考题等;小白一个,正在学习ing......有问题各位大佬随时指正,希望大家都能拿到心仪Of…☆602Updated 9 months ago
- LLM大模型(重点)以及搜广推等 AI 算法中手写的面试题,(非 LeetCode),比如 Self-Attention, AUC等,一般比 LeetCode 更考察一个人的综合能力,又更贴近业务和基础知识一点☆458Updated 11 months ago
- Multi-Modal-AI-Orchestrator (Reset version),AI Full-modal Full-agent:Text → Image → Music → Lights → Video, Includes "Scenario Director,…☆65Updated last month
- ☆75Updated 3 weeks ago
- ☆60Updated 6 months ago
- 本项目设计了一个基于 RAG 与大模型技术的医疗问答系统,利用 DiseaseKG 数据集与 Neo4j 构 建知识图谱,结合 BERT 的命名实体识别和 34b 大模型的意图识别,通过精确的知识检索和问答生成, 提升系统在医疗咨询中的性能,解决大模型在医疗领域应用的可…☆976Updated last year
- ☆252Updated 6 months ago
- 2024年第八届招商银行数字/科技金融训练营 FinTech 线上复赛☆16Updated 7 months ago
- ☆17Updated 7 months ago
- 整理算法岗面试八股☆67Updated 11 months ago
- 一些大模型相关的开源网站☆71Updated last month
- Learning Large Language Model (LLM)(大语言模型学习)☆860Updated 8 months ago
- 本仓库旨在记录和分享我在 LLM 和 Agent 领域的学习历程,并通过实践项目深入理解相关技术。通过从零开始构建基于 LLM 和 Agent 的应用,学习LLM原理和Agent开发经验。☆24Updated 8 months ago
- ☆404Updated last year
- 从零预训练LLM、SFT、RLHF、DPO笔记整理+面试问题☆14Updated last year
- 复现大模型相关算法及一些学习记录☆2,713Updated last week
- 【三年面试五年模拟】AIGC算法工程师面试秘籍。涵盖AIGC、传统深度学习、自动驾驶、AI Agent、机器学习、计算机视觉、自然语言处理、强化学习、大数据挖掘、具身智能、元宇宙、AGI等AI行业面试笔试干货经验与核心知识。☆2,684Updated this week
- An awesome resume template.☆189Updated 10 months ago
- 算法岗笔试面试大全,励志做算法届的《五年高考,三年模拟》!☆679Updated 9 months ago
- 理工科-大模型入门实训课程☆114Updated 4 months ago
- awesome LLM papers! 🚀 🚀 🚀☆32Updated 5 months ago
- 一个用于预防经济诈骗的文本分类检测微调项目。☆69Updated 10 months ago
- 夏令营截止日期DDL静态网页☆331Updated 3 months ago
- DL & ML & RS☆623Updated last year