IneqMath 评测标准-精彩世界

大语言模型离“数学证明高手”还有多远？斯坦福、伯克利、MIT 团队提出 IneqMath 评测标准

360热点新闻⋅ 2025-07-19 ⋅ 2366 阅读

斯坦福大学、加利福尼亚大学伯克利分校和麻省理工学院的研究团队提出了一个新的评测标准——IneqMath，旨在评估大语言模型在解决数学证明问题方面的能力，该标准涵盖了数学证明中的不等式证明，并包括一系列难度递增的题目，以测试模型在逻辑推理、模式识别、数学符号理解和应用等方面的表现，IneqMath的提...