AI 中的编程竞赛问题可用于评估程序员处理人工任务的能力并测试当前算法的边界。因此来自麻省理工学院、微软研究院和艾伦人工智能研究所的一个研究团队开源了 Python 编程谜题 (P3)。P3是一款全新的编程挑战套件 ,可以捕捉谜题的本质,用于教授和评估人工智能编程的熟练程度。
以下是该团队的贡献列表:
建议的谜题是用 Python 编写的,即 Python 函数,并以 answer 作为参数。目的是找到一个使函数的输出为真的输入 x,即满足 f(x) == True 的可接受答案 x。换句话说,解决问题需要找到一个返回“true”的解决方案。
受维基百科和编程竞赛启发的开源 P3 数据集包括难度级别、领域和算法工具方面的各种难题。
一些经典的谜题/问题是:
问题集允许进行客观评估。这些问题不会增加知道任何答案关键偏差的负担,因为在不咨询答案关键的情况下评估候选答案是否有效很简单。
研究人员进行了广泛的测试/实验,以检查基于随机森林、转换器和各种形式的 GPT-3 提示的几个参数化枚举自顶向下求解器。他们还进行了一项用户调查,看看这些谜题是否能准确评估编程能力。
实验结果表明,人类程序员始终胜过 GPT-3 和枚举方法等 AI 求解器。例如,引导 GPT-3 解决了 60% 的难题,而新手和有经验的人类参与者分别为 76% 和 87%。研究人员还发现了 AI 求解器性能与人类程序员难度之间的相关性。
Github:
https://github.com/microsoft/PythonProgrammingPuzzles
论文:
https://arxiv.org/pdf/2106.05784.pdf