首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    每日论文速递 | Next Token Prediction 陷阱

    摘要:单纯的下一个next-token predictor能否真正地模拟人类智能?我们将这一文献中支离破碎的直观问题具体化。作为出发点,我们认为必须区别对待下一个标记预测中两个经常被混淆的阶段--自回归推理和教师强迫训练。流行的批评认为,在自回归推理过程中错误可能会加剧,而这一批评的关键在于假设教师强制训练已经学会了准确的下一个标记预测器。这一假设回避了我们所揭示的一个更深层次的问题:在某些任务中,教师强制可能根本无法学习到准确的下一个标记预测器。我们描述了teacher-forcing fail的一般机制,并设计了一个最小规划任务,在这个任务中,Transformer 和 Mamba 架构都以这种方式失败了--令人惊讶的是,尽管这个任务是简单易学的。我们提供的初步证据表明,在训练提前预测多个标记时,这种失败是可以解决的。我们希望这一发现能为未来的争论提供依据,并激发对下一个标记预测范式之外的探索。

    01
    领券