首页 > 游戏攻略 >360gpt2-o1 上线：“会思考”的国产大模型，探索 AI 推理新极限

360gpt2-o1 上线：“会思考”的国产大模型，探索 AI 推理新极限

2024-12-14 17:06:24板才软件园

感谢本站网友有鲫雪狐的线索投递！

本站 12 月 14 日消息，“360 智脑”官方公众号昨日（12 月 13 日）发布博文，宣布推出 360 自研 AI 大模型 360gpt2-o1，推理能力显著提升，在数学和逻辑推理任务上表现出色。

该模型通过合成数据优化、模型后训练和“慢思考”范式实现了技术突破，并在多项权威评测中取得了优异成绩。

在多项基础数学评测（如 MATH、高考数学）以及权威数学竞赛（包括 AIME24、AMC23）中，360gpt2-o1 均取得了显著的成绩，不仅超越了前代模型 360gpt2-pro，也优于 GPT-4o 模型。

在数学竞赛评测中，360gpt2-o1 超过了阿里巴巴最新开源的 o1 系列模型 QWQ-32B-preview。本站附上该模型整体架构如下：

优化合成数据

该模型通过指令合成、质量 / 多样性筛选等方法，解决了高质量数学与逻辑推理数据稀缺的问题，有效扩充了训练数据集。

模型后训练

该模型采用两阶段训练策略，先用小模型生成多样化的推理路径，再用大模型进行 RFT 训练和强化学习训练，提升模型推理能力和反思纠错能力。

“慢思考”范式

利用蒙特卡洛树搜索探索多样化解决方案，并引入 LLM 进行错误验证和纠错，模拟人类逐步推理和反思的过程，最终形成包含反思、验证、纠错和回溯的长思维链。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表本站立场。文章及其配图仅供学习分享之

9408

910

上一篇：小youyou萝交HD是如何在年轻人中流行起来的？下一篇：小黄鸭app：如何成为孩子们的汉字学习小助手？

相关资讯更多

同类推荐更多

如何平衡爽、躁多水、快与深点老，避免生活中的压力和焦虑？

如何平衡爽、躁多水、快与深点老，避免生活中的压力和焦虑？

最火的游戏攻略

2024-12-06

“爽”字在我们生活中用得最多，往往是指瞬间的愉悦、满足和享乐。无论是吃到美食，还是体验到放松的时刻，爽感总是让人心情愉悦。然而，爽并不总是意味着长久的幸福。它更多是一种瞬间的快感，快速而直接。这种爽感背后可能有复杂的情感或者生理反应，比如快速的满足欲望或短暂的逃避压力。对生活的爽感可以追溯到一种不断

新品榜/热门榜

资讯推荐更多