Karpathy 的“疯狂工作”：花费 100 美元和 4 小时训练你自己的“迷你 GPT”

新智慧报告编辑：鼎辉【新智慧简介】AI传奇人物、前特斯拉AI总监Karpathy推出了一个新的开源项目——nanochat。它可以用不到 8000 行代码重现整个 ChatGPT 流程，需要 GPU，大约需要 4 小时，成本仅为 100 美元。该项目在 GitHub 上发布后 12 小时内就获得了 4,200 颗星。人工智能传奇人物、特斯拉前人工智能总监卡帕西 (Karpathy) 宣布启动他的新 Nanochat 项目。一个简约而全面的“从头开始构建的 ChatGPT”培训框架。卡帕西说这是他写过的最疯狂的项目之一。这相当于每个人都有自己的ChatGPT。项目上线不到12小时，GitHub上的星星就超过了4.2kStar。（还在继续暴涨）GitHub项目：https://github.com/karpathy/nanochat都是社区流量。这就是Kalpathy在AI领域的魅力！与之前的nanoGPT不同，nanochat不仅涵盖了pre-tra训练，还包括从数据准备、预训练、训练中期（交互、选择题、工具使用）、SFT、RL 调优到推理实现的整个过程。整个系统只有大约8000行干净的代码。启动 GPU 机器并运行脚本。 4小时后，你就可以在网页界面中与你训练的“小ChatGPT”聊天了。 Karpathy称其为LLM101n的“顶点工作”，它也可能成为开源社区未来的研究基地或实验平台。如何在短短 8000 行内“克隆”ChatGPT 让我们仔细看看。使用新的 Rust 实现训练分词器。在 FineWeb 上预训练 TransformerLLM 并评估多个指标的 CORE 分数。内部培训调解与用户助理的对话、多项选择题和 SmolTalk 工具的使用数据。参加 SFT 的世界知识、多项选择题（AR C-E/C、MMLU）、数学（GSM8K）、代码（HumanEval）。性能rm 在 GSM8K 中对模型进行强化学习 (RL) 调整。 “GRPO”。使用 KV 缓存、简单的预取/解码、工具（轻量级沙箱中的 Python 解释器）以及通过 CLI 或 ChatGPT 等 Web 界面进行交互，在引擎中进行高效推理。创建一个单一的 Markdown 记录，总结并游戏化整个过程。整个项目仅花费约100美元（在8XH100节点上训练约4小时）。您可以训练和复制一个小型 ChatGPT，它可以说话、撰写故事和诗歌以及回答简单的问题。只需要大约 12 个小时的培训即可通过基本的 GPT-2 指标。进一步扩展，只需 1000 美元（大约 41.6 小时的培训），您的模型将很快变得更加一致，并且能够解决简单的数学/代码问题并提出多项选择题。训练24小时的模型（其FLOPs大致相当于GPT-3Small125M，约为GPT-3的1/1000）可以在MMLU中输入40个段，在ARC-Easy中输入70个段，在ARC-Easy中输入20个段GSM8K 等中的 ts。总计：100 美元 → 你可以训练一个“小 ChatGPT”，与 OpenAI 相同的模型，可以写诗和回答基本问题。 1000 美元 → 实现比 GPT-2 更高的性能，并提供基本的推理和代码生成。该项目旨在“减少法学硕士研究和复制的障碍，允许任何人训练自己的模型。”这体现了其“让人们自我感觉更好”的核心理念。这一民主化路线与anoGPT时代所捍卫的“从头开始实现Transformer”如出一辙。项目地址：https://github.com/karpathy/nanoGPT Karpathy 表示，他的目标是将一个完整的“坚实的基础”堆栈整合为一个连贯、极简、可读、最大限度可修改和可衍生的仓库系统。 nanochat将是LLM101n的最终项目（仍在开发中）。 Karpathy 认为，nanochat 与 nanoGPT 一样，有潜力发展成为研究工具和基准。 nanoGPT教你你如何构建大脑，nanochat 教你如何构建 ChatGPT。如果nanoGPT是一个“Transformer源代码的教育项目”。而nanochat是一个“缩小版的LLM生态系统”，与OpenAI相同的模型，你自己的AI。两者之间的关系可以理解为“从神经网络基础知识到产品级对话系统”的两阶段闭环。从 Vibe 编码到 nanoGPT 再到现在的 nanochat，Karpathy 是“人工智能教育者”的完美代言人。这项“疯狂的工作”并不是白日梦，而是卡帕蒂的人工智能开放、易学、可复制理想的又一实现。 ChatGPT 的小效果表明 Karpathy 在 WebUI 中实现了 nanochat 项目。他还提供了一个“在 NanoChat 上进行对话的例子，花费 100 美元，持续四个小时”。非常…有趣！下图展示了 Karpathy 在 nanochat 的“$100 Speed Run”实验中生成的部分“成绩单”（即在单个 GPU 约 4 小时），显示模型大小、训练时间和多个标准基准测试的性能。字符数：333989 – 代码中的字符总数。行数：8304：大约 8300 行干净、注释良好的代码。文件：44——项目文件数量。令牌：大约 83,497 – 代码中的令牌数量（相当于大约 80,000 个单词）。依赖项： uv.lock 依赖项列表第 2004 行：依赖项很少，表明项目结构较轻。这些数字体现了 Nanochat 的“极简”精神。 nanochat 用不到 8000 行代码完全实现了 ChatGPT 的训练、调优和推理。参考文献：https://x.com/karpathy/status/1977755427569111362https://github.com/karpathy/nanochat
特别提示：以上内容（包括图片、视频，如有）由自有媒体平台“网易账号”用户上传发布。本平台仅提供信息存储服务。
注：以上内容（包括图片和视频，如有）仅由提供信息存储服务的社交媒体平台网易号用户上传和发布。

你可能也会喜欢...

国内外客商云集“世界客都”梅州，共植“商林”

翻译错误：解析值时遇到意外字符：<。路径 ''，第 0 行，位置 0。

尼泊尔巴士坠入河中； 1名中国人死亡、1人受伤

发表回复 取消回复

发表回复取消回复