新智慧报告编辑:鼎辉 【新智慧简介】AI传奇人物、前特斯拉AI总监Karpathy推出了一个新的开源项目——nanochat。它可以用不到 8000 行代码重现整个 ChatGPT 流程,需要 GPU,大约需要 4 小时,成本仅为 100 美元。该项目在 GitHub 上发布后 12 小时内就获得了 4,200 颗星。人工智能传奇人物、特斯拉前人工智能总监卡帕西 (Karpathy) 宣布启动他的新 Nanochat 项目。一个简约而全面的“从头开始构建的 ChatGPT”培训框架。卡帕西说这是他写过的最疯狂的项目之一。这相当于每个人都有自己的ChatGPT。项目上线不到12小时,GitHub上的星星就超过了4.2kStar。 (还在继续暴涨)GitHub项目:https://github.com/karpathy/nanochat都是社区流量。这就是Kalpathy在AI领域的魅力!与之前的nanoGPT不同,nanochat不仅涵盖了pre-tra训练,还包括从数据准备、预训练、训练中期(交互、选择题、工具使用)、SFT、RL 调优到推理实现的整个过程。整个系统只有大约8000行干净的代码。启动 GPU 机器并运行脚本。 4小时后,你就可以在网页界面中与你训练的“小ChatGPT”聊天了。 Karpathy称其为LLM101n的“顶点工作”,它也可能成为开源社区未来的研究基地或实验平台。如何在短短 8000 行内“克隆”ChatGPT 让我们仔细看看。使用新的 Rust 实现训练分词器。在 FineWeb 上预训练 TransformerLLM 并评估多个指标的 CORE 分数。内部培训调解与用户助理的对话、多项选择题和 SmolTalk 工具的使用数据。参加 SFT 的世界知识、多项选择题(AR C-E/C、MMLU)、数学(GSM8K)、代码(HumanEval)。性能rm 在 GSM8K 中对模型进行强化学习 (RL) 调整。 “GRPO”。使用 KV 缓存、简单的预取/解码、工具(轻量级沙箱中的 Python 解释器)以及通过 CLI 或 ChatGPT 等 Web 界面进行交互,在引擎中进行高效推理。创建一个单一的 Markdown 记录,总结并游戏化整个过程。整个项目仅花费约100美元(在8XH100节点上训练约4小时)。您可以训练和复制一个小型 ChatGPT,它可以说话、撰写故事和诗歌以及回答简单的问题。只需要大约 12 个小时的培训即可通过基本的 GPT-2 指标。进一步扩展,只需 1000 美元(大约 41.6 小时的培训),您的模型将很快变得更加一致,并且能够解决简单的数学/代码问题并提出多项选择题。训练24小时的模型(其FLOPs大致相当于GPT-3Small125M,约为GPT-3的1/1000)可以在MMLU中输入40个段,在ARC-Easy中输入70个段,在ARC-Easy中输入20个段GSM8K 等中的 ts。 总计:100 美元 → 你可以训练一个“小 ChatGPT”,与 OpenAI 相同的模型,可以写诗和回答基本问题。 1000 美元 → 实现比 GPT-2 更高的性能,并提供基本的推理和代码生成。该项目旨在“减少法学硕士研究和复制的障碍,允许任何人训练自己的模型。”这体现了其“让人们自我感觉更好”的核心理念。这一民主化路线与anoGPT时代所捍卫的“从头开始实现Transformer”如出一辙。项目地址:https://github.com/karpathy/nanoGPT Karpathy 表示,他的目标是将一个完整的“坚实的基础”堆栈整合为一个连贯、极简、可读、最大限度可修改和可衍生的仓库系统。 nanochat将是LLM101n的最终项目(仍在开发中)。 Karpathy 认为,nanochat 与 nanoGPT 一样,有潜力发展成为研究工具和基准。 nanoGPT教你你如何构建大脑,nanochat 教你如何构建 ChatGPT。如果nanoGPT是一个“Transformer源代码的教育项目”。而nanochat是一个“缩小版的LLM生态系统”,与OpenAI相同的模型,你自己的AI。两者之间的关系可以理解为“从神经网络基础知识到产品级对话系统”的两阶段闭环。从 Vibe 编码到 nanoGPT 再到现在的 nanochat,Karpathy 是“人工智能教育者”的完美代言人。这项“疯狂的工作”并不是白日梦,而是卡帕蒂的人工智能开放、易学、可复制理想的又一实现。 ChatGPT 的小效果表明 Karpathy 在 WebUI 中实现了 nanochat 项目。他还提供了一个“在 NanoChat 上进行对话的例子,花费 100 美元,持续四个小时”。非常…有趣!下图展示了 Karpathy 在 nanochat 的“$100 Speed Run”实验中生成的部分“成绩单”(即在单个 GPU 约 4 小时),显示模型大小、训练时间和多个标准基准测试的性能。字符数:333989 – 代码中的字符总数。行数:8304:大约 8300 行干净、注释良好的代码。文件:44——项目文件数量。令牌:大约 83,497 – 代码中的令牌数量(相当于大约 80,000 个单词)。依赖项: uv.lock 依赖项列表第 2004 行:依赖项很少,表明项目结构较轻。这些数字体现了 Nanochat 的“极简”精神。 nanochat 用不到 8000 行代码完全实现了 ChatGPT 的训练、调优和推理。参考文献:https://x.com/karpathy/status/1977755427569111362https://github.com/karpathy/nanochat
特别提示:以上内容(包括图片、视频,如有)由自有媒体平台“网易账号”用户上传发布。本平台仅提供信息存储服务。
注:以上内容(包括图片和视频,如有)仅由提供信息存储服务的社交媒体平台网易号用户上传和发布。