FunnySaltyFish / bilibili_comments_crawlLinks
基于 B 站评论区数据构建大语言模型训练用对话数据集
☆59Updated last year
Alternatives and similar repositories for bilibili_comments_crawl
Users that are interested in bilibili_comments_crawl are comparing it to the libraries listed below
Sorting:
- 从小说中提取对话数据集☆318Updated 4 months ago
- 【逐条处理完成】人为审核+修改每一条的弱智吧精选问题QA数据集☆242Updated 9 months ago
- Train an LLM LoRA using a specific dataset to enable the LLM to continue stories in a specific style based on the plot and background.通过特…☆46Updated last year
- Chat-甄嬛是利用《甄嬛传》剧本中所有关于甄嬛的台词和语句,基于ChatGLM2进行LoRA微调得到的模仿甄嬛语气的聊天语言模型。☆782Updated 8 months ago
- 基于ChatGLM3基座模型和LLAMA-Factory框架进行微调的一个中医问答机器人☆106Updated 2 years ago
- 大语言模型微调,Qwen2VL、Qwen2、GLM4指令微调☆595Updated 8 months ago
- FinQwen: 致力于构建一个开放、稳定、高质量的金融大模型项目,基于大模型搭建金融场景智能问答系统,利用开源开放来促进「AI+金融」。☆427Updated last year
- 从0开始,将chatgpt的技术路线跑一遍。☆271Updated last year
- ChatGPT WebUI using gradio. 给 LLM 对话和检索知识问答RAG提供一个简单好用的Web UI界面☆139Updated last year
- RAG-QA-Generator 是一个用于检索增强生成(RAG)系统的自动化知识库构建与管理工具。该工具通过读取文档数据,利用大规模语言模型生成高质量的问答对(QA对),并将这些数据插入数据库中,实现RAG系统知识库的自动化构建和管理。☆261Updated last year
- 💼法律AI助手,法律RAG,通过全部200+本法律手册📖、网页搜索内容💻结合LLM回答你的问题,并且给出相应的法规和网站,基于⚡️ langchain,Gradio,openai,chroma,duckduckgo-search☆200Updated 2 years ago
- 通义千问VLLM推理部署DEMO☆637Updated last year
- [EMNLP'24] CharacterGLM: Customizing Chinese Conversational AI Characters with Large Language Models☆490Updated 3 months ago
- Phi2-Chinese-0.2B 从0开始训练自己的Phi2中文小模型,支持接入langchain加载本地知识库做检索增强生成RAG。Training your own Phi2 small chat model from scratch.☆585Updated last year
- 专为新手设计!Chatbot Trainer 是一个基于开源语言模型(GLM4)的聊天机器人训练项目。你可以轻松训练出一个拥有你自己语气性格的聊天机器人,或训练任何你感兴趣的人物 ,包括名人、历史人物、动漫角色或电影小说中的虚拟人物。 通过项目内置的数据集问答对制作指导,你…☆45Updated last year
- RAG兴趣小组,全手写的一个RAG应用。Langchain的大部分库会很方便,但是你不一定理解其中原理,所以代码尽可能展现基本算法,主打理解RAG的原理☆250Updated last year
- qwen ai agent☆146Updated last year
- 中文对话0.2B小模型(ChatLM-Chinese-0.2B),开源所有数据集来源、数据清洗、tokenizer训练、模型预训练、SFT指令微调、RLHF优化等流程的全部代码。支持下游任务sft微调,给出三元组信息抽取微调示例。☆1,667Updated last year
- Retriever-0.1B☆96Updated last year
- PDF解析(文字,章节,表格,图片,参考),基于大模型(ChatGLM2-6B, RWKV)+langchain+streamlit的PDF问答,摘要,信息抽取☆214Updated 2 years ago
- RAGOnMedicalKG,将大模型RAG与KG结合,完成demo级问答,旨在给出基础的思路。☆338Updated last year
- 对llama3进行全参微调、lora微调以及qlora微调。☆214Updated last year
- 对话集提取器是一个基于chatglm模型的工具,用于从文本中提取对话集。该工具可以帮助用户从小说、剧本等文本中自动提取出对话,以便进行分析、标注或其他应用。☆12Updated last year
- 本项目旨在分享人工智能相关应用技术以及实战经验,包括大模型、语音合成、数字人、图像生成等。☆275Updated last year
- 从0到1构建一个MiniLLM (pretrain+sft+dpo实践中)☆517Updated 10 months ago
- A script that can be used to capture various porn novels for machine learning / 一个可以用于抓取各类色情小说用于机器学习的脚本☆78Updated last year
- LLaMA-Factory使用经验记录☆41Updated last year
- 在本项目中模拟健康档案私有知识库构建和检索全流程,通过一份代码实现了同时支持多种大模型(如OpenAI、阿里通义千问等)的RAG(检索增强生成)功能:(1)离线步骤:文档加载->文档切分->向量化->灌入向量数据库;在线步骤:获取用户问题->用户问题向量化->检索向量数据库…☆225Updated last year
- 手把手带你从0到1实现大模型agent☆122Updated last year
- Alpaca Chinese Dataset -- 中文指令微调数据集☆217Updated last year