公路
人工智能可以轻松地在 SAT 考试中取得好成绩,击败国际象棋大师,并像没事一样调试代码。但如果让人工智能在拼字比赛中与一些中学生较量,它就会被淘汰,速度比你所说的扩散还要快。
尽管我们在人工智能领域看到了所有进步,但它仍然无法拼写。如果您要求像 DALL-E 这样的文本到图像生成器为墨西哥餐厅创建菜单,您可能会在一堆其他乱码中发现一些开胃菜,例如“taao”、“burto”和“enchida”。
虽然 ChatGPT 或许能够为你写论文,但当你提示它想出一个不带字母“A”或“E”的 10 个字母的单词(它告诉我,“balaclava”)时,它就显得很无能。与此同时,当一位朋友试图使用 Instagram 的人工智能生成一张写着“新帖子”的贴纸时,它创建了一张图片,似乎在说一些我们不允许在家庭网站 TechCrunch 上重复的内容。
Lesan联合创始人兼DAIR 研究所研究员 Asmelash Teka Hadgu 表示:“图像生成器在处理汽车和人脸等伪像时往往表现更好,而在手指和手写等较小物体上则表现较差。”
图像和文本生成器背后的底层技术是不同的,但这两种模型在拼写等细节方面都有类似的困难。图像生成器通常使用扩散模型,该模型从噪声中重建图像。当谈到文本生成器时,大型语言模型(LLM)可能看起来像人脑一样阅读并响应你的提示,但实际上它们使用复杂的数学来将提示的模式与其潜在空间中的模式相匹配,让它继续这个模式并给出答案。
“扩散模型是用于图像生成的最新算法,正在重建给定的输入,”Hagdu 告诉 TechCrunch。“我们可以假设图像上的文字是非常非常小的部分,因此图像生成器会学习覆盖更多这些像素的模式。”
这些算法被激励去重新创建看起来像在训练数据中看到的东西,但它本身并不知道我们认为理所当然的规则——“hello”不拼写为“heeelllooo”,而人类的手通常有五指。
微软的DALL-E 3绘制
领取专属 10元无门槛券
私享最新 技术干货