最近大家是否发现ChatGPT似乎变笨了,执行任务并不那么顺利。这不是你的prompt的问题。这篇论文发现了近半年来GPT3.5和GPT-4执行任务时的变化,尤其是生成的代码可执行性大幅度下跌论文:https://arxiv.org/pdf/2307.09009.pdf主要结论与发现:1. 两模型在多个任务上的表现出现显著变化:- GPT-4在判断一个整数是否为素数的任务准确率从97.6%急剧下降到2.4%- GPT-3.5在该任务的准确率从7.4%大幅提高到86.8%- GPT-4直接回答敏感问题的比例从21.0%下降到5.0%- 两模型生成的代码可直接执行比例明显下降(GPT-4从52.0%到10.0%,GPT-3.5从22.0%到2.0%)2. 随时间推移,GPT-4在回复敏感问题时更加谨慎,但解释减少;GPT-3.5情况相反。3. 在视觉推理任务上,GPT-4和GPT-3.5整体表现略有提升,但大多数样例生成没有变化。
领取专属 10元无门槛券
私享最新 技术干货