多个证据表明,北京大学与阿里巴巴的研究团队联合推出了专门用于评估大型语言模型在奥林匹克数学竞赛中的推理能力的评测基准——Omni-MATH。这一评测基准旨在测试AI在解决高难度数学问题上的表现。
在最新的评测中,OpenAI发布的o1系列模型表现出色,其中o1-mini的表现尤其引人注目。o1-mini不仅在速度和成本效益上优于o1-preview,而且在某些情况下甚至超越了o1本身。例如,在高中AIME数学竞赛中,o1-mini取得了70%的准确率,而o1的准确率为74.4%,这表明o1-mini在某些任务上可能比o1更有效。 具体来说,o1-mini在奥数评测中的分数超过了o1-preview,这一结果得到了多方面的报道和确认。例如,有报道称o1-mini在MATH-500评测中获得了94.8分,并且在更难的奥数邀请赛AIME 2024中也表现不俗,准确率达到83.3%。这些成绩显示了o1-mini在处理复杂推理任务时的强大能力。 此外,o1系列模型的推出打破了传统数学评测基准的局限性,使得现有的评测集逐渐显得不够用。随着AI技术的进步,人们开始好奇大模型是否能够胜任更具挑战性的数学竞赛,甚至是奥林匹克数学竞赛。 总之,o1-mini在北大AI奥数评测中的优异表现标志着AI在数学推理领域的重大突破,同时也为未来AI的发展提供了新的方向和标准。 |