Breeze648 / WeakWater-30MView external linksLinks
本项目从零开始构建并优化了一个千万参数级别的大规模预训练语言模型,涵盖预训练、有监督微调(SFT)和R1推理蒸馏三个阶段。项目采用自定义Transformer架构(包括RMSNorm、分组注意力、多Query机制、SwiGLU激活和RoPE位置编码),实现高效的长文本处理和自回归生成。同时,开发了基于BBPE编码的分词器,针对中文进行了优化,构建了轻量级词表。预训练阶段通过混合精度训练、梯度累积和Cosine Annealing学习率调度,实现全流程训练;微调阶段则利用开源SFT数据集,通过特殊损失掩码优化指令遵循;R1推理蒸馏阶段采用Deepseek-R1数据及损失加权策略,赋予模型逐步推理(慢思考)的能力,显著提升复杂任务的回答质量。
☆22Mar 10, 2025Updated 11 months ago
Alternatives and similar repositories for WeakWater-30M
Users that are interested in WeakWater-30M are comparing it to the libraries listed below
Sorting:
- 大模型API企业网关,公司内部API管理,分发聚和系统,支持将多种大模型转换成统一的OpenAI兼容接口,尤其对国内开源模型deepseek,qwen,kimi,glm提供特别支持 可供个人或者企业内部大模型API统一管理和渠道分发使用(key管理与二次分发),长期更新,支…☆36Sep 12, 2025Updated 5 months ago
- Y-Agent Studio 是一 个面向 企业级应用 的Agent开发套,Y-Agent是其中的核心模块。 包含了:支持智能体编排、RAG、流程日志、单元测试、流程测试、语料生产等垂直领域非常需要的功能。 智能体编排可以在同一个流程中,同时支持多智能体协作和流程混合编排…☆25Oct 4, 2025Updated 4 months ago
- 一个基于FastAPI和React的智能体系统,支持多智能体管理、mcp管理、知识库、聊天对话等功能。An intelligent agent system based on FastAPI and React, supporting multi-agent managem…☆21Jan 25, 2026Updated 3 weeks ago
- OpenHIS医院系统(信创版)集十大核心模块于一体,涵盖目录管理、基础数据配置、个性化设置、门诊/住院全流程管理、药房药库智能管控、精细化耗材管理、财务核算体系、医保合规对接及多维报表分析等功能模块,共计372项标准化功能。☆13Feb 5, 2026Updated last week
- 基于modelscope(魔搭社区)阿里大模型的语音转文本工具☆10Feb 2, 2024Updated 2 years ago
- 基于检索增强生成(RAG)技术的ICD-10医 疗诊断内容标准化工具,支持中文医学术语的智能匹配和标准化。☆17Aug 12, 2025Updated 6 months ago
- ☆13Mar 16, 2025Updated 10 months ago
- 一个强大的、由 AI 驱动的演示文稿(PPt)自动化生成工具,真正生产化的工具,全流程可控,帮助用户快速制作出符合需求的 PPt。☆26Sep 23, 2025Updated 4 months ago
- GoGPT中文指令数据集构造☆10Jan 29, 2024Updated 2 years ago
- 🏆 SUCCESS-GS: Survey of Compactness and Compression for Efficient Static and Dynamic Gaussian Splatting☆18Feb 4, 2026Updated last week
- How to use ProtocolBuffer☆10Apr 4, 2017Updated 8 years ago
- 北京邮电大学网络工程嵌入式系统实验报告☆12Jan 7, 2021Updated 5 years ago
- BUPT神经网络与深度学习课设☆10Dec 29, 2023Updated 2 years ago
- Third Party RDP Wrapper Library☆23Feb 2, 2026Updated last week
- [ICCV25] MGSR: 2D/3D Mutual-boosted Gaussian Splatting for High-fidelity Surface Reconstruction under Various Light Conditions☆19Oct 14, 2025Updated 4 months ago
- [npj Digital Medicine] An In-Depth Evaluation of Federated Learning on Biomedical Natural Language Processing for Information Extraction☆10May 1, 2024Updated last year
- 本项目对Deepseek-R1-Distill-Qwen-7B进行心理咨询CoT数据的LoRA微调,以进一步提升Deepseek-R1-Distill-Qwen-7B在心理咨询领域的慢思考能力。☆12Mar 11, 2025Updated 11 months ago
- AI医生☆11May 27, 2020Updated 5 years ago
- AI写作小工具方案:让2个智能体合作写出真正可用的图文并茂的帖子(微信公众号,小红书,博客)。1,写作智能体,2,知识库智能体。☆19Jun 8, 2025Updated 8 months ago
- 本项目旨在利用LangChain和大语言模型(如ZhipuAI)开发一个智能数据库问答系统。 该系统能够通过自然语言理解用户的查询请求,自动生成相应的SQL语句并执行,最后将查询结果以自然语言 形式返回用户。☆17Jul 31, 2024Updated last year
- flutter lib android e ios salvar e abrir documents tipo pdf, ppt e excel ...etc☆12Jun 18, 2024Updated last year
- ☆11May 20, 2023Updated 2 years ago
- ffmpeg 4.0+ijkplayer 0.8 + 能本地调试运行C++,支持本地录制成Mp4,支持截图jpg☆12Oct 18, 2024Updated last year
- An automated pipeline for scraping, processing, and visualizing medical Q&A data to build high-quality datasets. Includes a comprehensive…☆23Dec 24, 2024Updated last year
- 使用Decoder-only的Transformer进行时序预测,包含SwiGLU和RoPE(Rotary Positional Embedding),Time series prediction using Decoder-only Transformer, Includ…☆16Jan 25, 2024Updated 2 years ago
- ☆11Jun 5, 2021Updated 4 years ago
- Fruit Hunt - an AR shooting game on Android☆12Mar 21, 2020Updated 5 years ago
- DocuGen = 你的知识库 + AI大模型 = AI自动生成专业文档☆21Jan 26, 2026Updated 2 weeks ago
- 文件快传是基于C++ QT的Windows HTTP 服务器,用到了QtWebApp,可以与客户端实现数据收发。这个是自定义文件传输软件系统的一部分---电脑的服务器端,可以在局域网内基于HTTP协议,实现电脑,安卓,网页浏览器三端数据互通,其他关联项目具体看README☆11Dec 9, 2022Updated 3 years ago
- bupt nlp第二次作业:分别基于SVD分解以及基于SGNS两种方法构建汉语子词向量并进行评测☆10May 16, 2023Updated 2 years ago
- 创意宝是一款融合了前沿人工智能技术的多功能应用,以创新为核心,为用户打造一个集时尚、智能、创意于一体的数字化平台。通过强大的 AI 技术,实现了 AI 试衣、数字人互动、智能短剧编写等特色功能,同时涵盖了丰富的语音、话术及商品管理等实用工具,旨在满足用户在时尚穿搭、内容创作…☆18Feb 17, 2025Updated 11 months ago
- ☆13Feb 25, 2022Updated 3 years ago
- Intelligent Robot Interaction Lab Assignment, SAI of BUPT. 北邮智能机器人交互实验仿真作业☆12Mar 17, 2025Updated 10 months ago
- [AAAI' 26]SparseSurf: Sparse-View 3D Gaussian Splatting for Surface Reconstruction☆26Nov 19, 2025Updated 2 months ago
- 基于LLaVA1.6微调的Xray识别的多模态大模型☆10Oct 22, 2024Updated last year
- Image captioning with a locally stored Large Language Model (LLM)☆16Updated this week
- llms related stuff , including code, docs☆13Feb 25, 2025Updated 11 months ago
- learn with ipython notebook and stepby step. 用 ipython notebook 来学各种算法, 力争做到小步学习☆11Mar 6, 2019Updated 6 years ago
- 77,370条敏感文本和22,823个敏感词的高质量数据集,并进行分类☆14Mar 18, 2025Updated 10 months ago