365beat版app✿ღ◈◈,排气设备✿ღ◈◈!beat365入口✿ღ◈◈,体育下注✿ღ◈◈,beat·365✿ღ◈◈,近日✿ღ◈◈,技术博主 Hrishbh Dalal 的实践表明✿ღ◈◈,这个问题的答案是肯定的✿ღ◈◈。并且他在这个过程中用到了 DeepSeek 开发的 GRPO 算法✿ღ◈◈,最终他「成功在一个小型数独数据集上实现了高奖励和解答」✿ღ◈◈。
现在的语言模型已经能完成很多任务了✿ღ◈◈,包括写论文✿ღ◈◈、生成代码和解答复杂问题✿ღ◈◈。但是✿ღ◈◈,如何让它们学会解答需要结构化思维✿ღ◈◈、空间推理和逻辑推理的难题呢?这就是我最近的实验的切入点 —— 通过强化学习教语言模型解决数独问题✿ღ◈◈。
遵循严格的规则(每行✿ღ◈◈、每列和每框必须包含数字 1-9✿ღ◈◈,且不能重复)保持一致的网格格式应用逐步的逻辑推理理解网格元素之间的空间关系得出一个正确的解答
有趣的是✿ღ◈◈,语言模型并不是为结构化问题设计的✿ღ◈◈。它们的训练目标是预测文本✿ღ◈◈,而不是遵循逻辑规则或维持网格结构✿ღ◈◈。然而✿ღ◈◈,通过正确的方法✿ღ◈◈,它们可以学会这些技能✿ღ◈◈。
本实验使用了来自 Kaggle 的包含 400 万数独的数据集✿ღ◈◈,其中有非常简单的✿ღ◈◈,也有非常困难的✿ღ◈◈。准备数据集的过程包含几大关键步骤✿ღ◈◈:
Level 1(非常简单)✿ღ◈◈:50-81 条线 条线 条线 条线✿ღ◈◈、每个数独一开始都被表示成了 81 个字符的字符串✿ღ◈◈。这里将其转换为具有适当行✿ღ◈◈、列和框分隔符的网格格式✿ღ◈◈:
对于初始实验✿ღ◈◈,我创建了一个包含 400 个训练样本的聚焦数据集✿ღ◈◈,这主要是使用更简单的数独来为学习构建一个基线✿ღ◈◈。这个数据集被刻意选得较小✿ღ◈◈,目的是测试模型使用有限样本学习的效率✿ღ◈◈。加上我的资源有限✿ღ◈◈:如果使用 unsloth grpo 训练✿ღ◈◈,24GB RTX 4090 大约最多只能放入 3000 上下文长度出气吧✿ღ◈◈。因此我只能选择更简单的问题以避免内存溢出(OOM)✿ღ◈◈,因为困难的问题及其推理链更长✿ღ◈◈。
我决定探索强化学习(尤其是 GRPO)能否让语言模型变成数独求解器✿ღ◈◈。我实验了两种不同的模型大小✿ღ◈◈:
重要的是✿ღ◈◈,我没有使用冷启动数据或从 DeepSeek R1 等较大模型中蒸馏的数据✿ღ◈◈。这里会从基础指令微调版模型开始✿ღ◈◈,单纯使用强化学习✿ღ◈◈。训练配置包括✿ღ◈◈:
批量大小✿ღ◈◈:1梯度累积步骤✿ღ◈◈:8学习率✿ღ◈◈:3e-4(Karpathy 常数)最大部署✿ღ◈◈:500每 10 步评估一次最大序列长度✿ღ◈◈:3000 token
强化学习的核心是奖励函数 —— 可以告诉模型它何时表现良好✿ღ◈◈。我设计了一个多分量奖励系统✿ღ◈◈,它具有几个专门的功能✿ღ◈◈:
为了实现良好的解析bet亚洲365欢迎投注✿ღ◈◈,模型应该始终记得使用正确的思考和答案标签(分别是 和 标签)✿ღ◈◈。这些标签有两个关键目的✿ღ◈◈:
第一个函数(tags_presence_reward_func)为出现的每个标签提供部分 credit✿ღ◈◈,其作用是鼓励模型包含所有必需的标签✿ღ◈◈。第二个函数(tags_order_reward_func)则用于确保这些标签以正确的顺序出现 —— 先思考再回答✿ღ◈◈。它们一起可教会模型保持将推理与解答分开的一致结构✿ღ◈◈。
为了让我们读懂数独的解答✿ღ◈◈,必须以特定的网格格式呈现它✿ღ◈◈。该奖励函数的作用便是评估模型维持正确网格结构的能力✿ღ◈◈:
该函数会将网格格式分解为多个部分 —— 正确的行数✿ღ◈◈、正确的分隔符位置✿ღ◈◈、适当使用分隔符✿ღ◈◈。模型每个方面正确了都会获得一些奖励✿ღ◈◈。这种细粒度的方法有助于模型学习数独网格的特定空间结构✿ღ◈◈。
第一个函数 (exact_answer_reward_func) 会为完全正确的解答提供大奖励 (5.0)✿ღ◈◈,从而为模型提供正确解答数独的强大动力✿ღ◈◈。
严格强制模型保留原始线索(如果任何线索发生变化✿ღ◈◈,则给予零奖励)✿ღ◈◈;对于模型正确填充的每个空单元格✿ღ◈◈,都按比例给予奖励✿ღ◈◈。
该函数会检查每行✿ღ◈◈、每列和每 3×3 框是否有重复项✿ღ◈◈,模型满足每个约束时都能获得一些奖励✿ღ◈◈。这能让模型学会数独的基本规则✿ღ◈◈,鼓励它生成有效的解答✿ღ◈◈,即使它们与预期答案不完全匹配✿ღ◈◈。
保持了稳定的完成长度✿ღ◈◈,约为 1000 token能生成格式一致的解答奖励指标稳步提升在整个训练过程中保持了策略稳定性
训练期间出现灾难性的不稳定性出现巨大的策略分歧(KL 飙升至 80✿ღ◈◈!)未能保持一致的性能最终崩溃✿ღ◈◈,无法恢复
图表清楚地说明了这一点✿ღ◈◈:7B 模型(粉色线)保持了稳定的性能✿ღ◈◈,而 3B 模型(绿色线)则出现了剧烈波动✿ღ◈◈,并且最终完全失败✿ღ◈◈。
对于 7B 模型✿ღ◈◈,精确答案奖励增长意味着模型能给出完全匹配的答案✿ღ◈◈,但 3B 则出现崩溃情况✿ღ◈◈。这证明7B 模型学会了用很少的数据解决数独问题✿ღ◈◈,并且学习速度很快✿ღ◈◈!
1✿ღ◈◈、Deepseek R1 论文中提到✿ღ◈◈,在没有冷启动数据的情况下✿ღ◈◈,复杂推理存在一个最小规模阈值✿ღ◈◈。
有些任务需要一定的模型能力才能稳定学习✿ღ◈◈。3B 模型的失败表明✿ღ◈◈,数独解题可能就是这样一种任务✿ღ◈◈。
在模型学会正确解题之前✿ღ◈◈,它需要保持稳定的训练动态✿ღ◈◈。7B 模型始终如一的指标使其能够取得稳步进展✿ღ◈◈。
与单一的通过 / 失败信号相比✿ღ◈◈,将奖励细分为格式合规性✿ღ◈◈、规则遵守性和解题准确性有助于更有效地指导学习过程✿ღ◈◈。
尽管困难重重✿ღ◈◈,GRPO 还是成功地教会了 7B 模型保持正确的格式并开始解题✿ღ◈◈,这些技能并不是语言模型所固有的✿ღ◈◈。
增加难度✿ღ◈◈:引入更具挑战性的谜题来测试模型的推理能力扩大计算规模✿ღ◈◈:使用更多计算资源✿ღ◈◈,进行更长时间和更大批次的训练探索模型架构✿ღ◈◈:测试 7B 模型的 LoRA rank 32✿ღ◈◈,看更高的 rank 是否能提高性能蒸馏法✿ღ◈◈:从 DeepSeek R1 等大型模型中提炼出冷启动数据集✿ღ◈◈,然后在此基础上应用 GRPO高级奖励函数✿ღ◈◈:实施我已经设计好但尚未在训练中部署的更细致入微的奖励机制评估框架✿ღ◈◈:开发更复杂的评估指标✿ღ◈◈,以评估推理质量✿ღ◈◈,而不仅仅是解决方案的准确性
我未来工作中最重要的一个方面就是实现我已经设计好的更复杂的奖励函数✿ღ◈◈。目前的简单奖励函数是有效的✿ღ◈◈,但增强版包含了几项关键改进✿ღ◈◈,可以显著提高学习效率✿ღ◈◈。
渐进式奖励优于二元反馈✿ღ◈◈:我不会简单地将答案标记为正确或错误✿ღ◈◈,而是为部分解答提供部分奖励✿ღ◈◈。这能创造一个更平滑的学习梯度✿ღ◈◈,有助于模型渐进式改进✿ღ◈◈。难度感知型扩展✿ღ◈◈:这些增强过的函数会将问题难度作为一个乘数✿ღ◈◈,这能为解决更难的问题提供更高的奖励bet亚洲365欢迎投注✿ღ◈◈。这能鼓励模型解决更难的问题出气吧✿ღ◈◈,而不仅仅是优化简单的问题✿ღ◈◈。严格的线索保存✿ღ◈◈:所有奖励函数都执行了一条不可协商的规则✿ღ◈◈,即必须保留原始问题线索✿ღ◈◈。这可以防止模型通过更改问题本身来「作弊」bet亚洲365欢迎投注✿ღ◈◈。额外奖励阈值✿ღ◈◈:这些经过增强的函数包括当模型超过某些性能阈值(75%✿ღ◈◈、85%出气吧✿ღ◈◈、95% 正确)时的额外奖励✿ღ◈◈。当模型走上正轨时✿ღ◈◈,这些作为激励里程碑✿ღ◈◈,可以加速学习✿ღ◈◈。最低奖励底线(我最关注的一点)✿ღ◈◈:即使是部分正确的解答也会获得较小的最低奖励(0.05)✿ღ◈◈,确保模型即使进展很小✿ღ◈◈,也能获得一些反馈bet亚洲365欢迎投注✿ღ◈◈。
当前的简单函数侧重于最关键的方面(线索保存和部分 credit)✿ღ◈◈,而这里增强后的版本则通过难度调整和渐进奖励增加了复杂性✿ღ◈◈。在未来的训练中✿ღ◈◈,我计划实现这些更微妙的奖励函数✿ღ◈◈,看看它们能否进一步提高学习效率和解答质量✿ღ◈◈。
我设计奖励函数的关键见解是✿ღ◈◈:基于过程的奖励(奖励旅程✿ღ◈◈,而不仅仅是目的)对于模型学习复杂的推理任务至关重要✿ღ◈◈。通过提供中间步骤和部分解答的反馈出气吧✿ღ◈◈,可创建一个比二元成功 / 失败信号更有效的学习环境✿ღ◈◈。
编程✿ღ◈◈:教模型编写遵循严格语法和逻辑约束的代码数学问题求解✿ღ◈◈:实现复杂数学问题的分步解答科学推理✿ღ◈◈:帮助模型理解和应用科学方法和原理形式验证✿ღ◈◈:训练模型根据既定规则检查自己的成果
这个实验只是我通过强化学习让语言模型学习结构化推理的探索的开始bet亚洲365欢迎投注✿ღ◈◈。虽然 7B 模型的初步结果很有希望✿ღ◈◈,但仍有许多需要学习和改进的地方✿ღ◈◈。
3B 和 7B 模型性能之间的明显差异凸显了一个重要的教训✿ღ◈◈:对于某些任务✿ღ◈◈,要实现稳定学习✿ღ◈◈,对基础模型有最低的尺寸要求✿ღ◈◈。随着我继续使用更多数据✿ღ◈◈、更好的奖励函数和更大的模型来改进方法✿ღ◈◈,我期望看到更出色的结果✿ღ◈◈。
随着新发现的出现✿ღ◈◈,我将定期更新这个项目✿ღ◈◈。教机器逻辑思考和解决结构化问题的旅程充满挑战但又令人着迷 —— 我很期待其未来走向✿ღ◈◈。
03月04日中新健康丨今冬最大寒潮来袭✿ღ◈◈!冻伤记得挂烧伤科澳门网投网站88娱1手机备用网址杏耀官方网站九五至尊线日新疆阿勒泰强降雪致游客滞留 部分道路已抢通鸭脖官网最新地址伟德体育登录官网亚新官方网站斗地主赢线日农业农村部✿ღ◈◈:着重保障粮食和重要农产品稳定安全供给博鱼网页版环球下载地址老虎机在线大厅纬来体育怎么开户……
03月04日✿ღ◈◈,手写比键盘打字更能增强大脑连通性✿ღ◈◈,asiAGame官网✿ღ◈◈,火狐快速登陆✿ღ◈◈,新濠天地之前登录网址✿ღ◈◈,电玩平台游戏大厅
03月04日✿ღ◈◈,天舟七号货物上新✿ღ◈◈!航天员的龙年盲盒即将配送✿ღ◈◈,必威首页体育✿ღ◈◈,千亿真人百家乐✿ღ◈◈,日博最新✿ღ◈◈,凯时国际网站官网
03月04日✿ღ◈◈,香港人才服务办公室线万人次观看✿ღ◈◈,UED体育✿ღ◈◈,明博体育网✿ღ◈◈,正版的捕鱼上下分✿ღ◈◈,AG线日✿ღ◈◈,辐射新疆南部五地州 南疆农副产品集散中心试运营✿ღ◈◈,天地棋牌✿ღ◈◈,百老汇官网地址✿ღ◈◈,e乐彩老版本✿ღ◈◈,m6vip米乐官网
03月04日珠江流域北江将发生特大洪水 水利部将水旱灾害防御应急响应提升至Ⅲ级老开元棋脾皇马对凯尔特人新万博 篮球新闻火狐体育最新版ios
03月04日江西全省高等级航道通航总里程达960.6公里沙巴体育盘口欢迎你杏彩网页版地址AG真人是真的假的银河下载app彩金
03月04日家庭“大件儿”加速迭代和记娱乐登录官网金沙娱城官方心经点码a(新图)乐鱼登录网址是多少
周游记出气吧✿ღ◈◈,Rap: Public南昌高新区经济运行稳中向好 今年前三季度GDP达739.4亿元在哪可以赌篮球亚美Ag澳门网上葡京开户亚娱注册彩金
苹果已付清12亿卢布反垄断罚款出气吧✿ღ◈◈,B站回应短片被举报涉嫌洗稿越剧史诗《胆剑千秋》✿ღ◈◈:回眸文脉传承的“精神丰碑”edf138苹果版下载九游会j92020葡京大转盘官网入口棋牌游戏之火凤凰游戏
维和防暴队开分5.6✿ღ◈◈,太阳耀斑会影响正常生活吗情牵两岸滇台同行 台湾网络新媒体人“寻宝”云南ag捕鱼平台的小窍门美高梅注册游戏篮球竞彩app下载皇冠江南足球app下载是
关雪 晴川✿ღ◈◈,台湾花莲县海域5.0级地震“集章”游四方 中国游客注重仪式感现金游艺app365bet官网客户端澳门永利真人国际娱乐平台鸭脖体育娱乐地址
女主播模仿吴艳妮或构成侵犯肖像权✿ღ◈◈,南航吧主考上北航广西帆船赛事“出海” 深化与东盟体育交流合作天博注册账号威尼斯在线娱乐网址bob综合ios博狗网好不好
生灵奇旅✿ღ◈◈,王健林王思聪父子重回创富榜前10中新教育丨教育部部署加强中小学人工智能教育天博全网官方网站必发官网百灵百人斗牛牛ca88ios下载