Loading [MathJax]/jax/input/TeX/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >食物图片变菜谱:这篇CVPR论文让人人都可以学习新料理

食物图片变菜谱:这篇CVPR论文让人人都可以学习新料理

作者头像
磐创AI
发布于 2019-07-10 04:23:44
发布于 2019-07-10 04:23:44
6830
举报

根据 Facebook 的统计,Instgram 上的美食图片数量已经超过 3 亿张。然而,获取食物烹饪方法的途径依然有限,例如,通过烹饪网站或相关教程。怎样能够挖掘丰富食物图片背后的烹饪方法,让每个人都可以在家方便地学习新菜式呢? Facebook 研究团队最近在 CVPR 2019 发表论文,提出了一种新思路。用户可以输入食物图片,并获得对应的食材和制作方法。在用户实验上的结果说明,用这种方法烹饪食物的成功率,比传统检索方法成功率更高。

看美食图片就能知道食谱?这个 AI 比美食家还灵么?

喜欢研究吃的人经常会在看到美味食物甚至食物图片时垂涎不已,甚至千方百计想弄明白怎么才能做出这道美食。

最近,Facebook 提出了一种 AI 方法,能够根据美食图片直接生成食谱!天啊,简直满足了天下爱吃且爱做饭的人的心愿啊~

这张图片中左侧为原图;右侧显示了食物名称、原料,甚至还有操作说明。有了这个 AI,只需要有美食图,就可以准备做饭,不用再费力查找食谱啦~

目前,Facebook 已经把这个项目开源了:

GitHub 地址:https://github.com/facebookresearch/inversecooking

reddit 用户 JonathanFly 将该项目做成了一个 Colab demo,参见:

https://gist.github.com/JonathanFly/33946a08080041e90e8360b25e263a4e#file-facebook-cooking-demo-ipynb

还用非食物的图片进行了尝试,结果令人捧腹。

比如,如果你使用皮卡丘的图片,这个系统会告诉你「皮卡丘的食谱」:

「皮卡丘」竟然被认成了万圣节幽灵饼干!原来皮卡丘是烤制而成的~

从图像到食谱,如何实现?

从图片中生成食谱需要同时理解组成食材和制作的过程(如切片、和其他材料搅拌等)。传统方法将这个问题视为检索任务,基于输入图片和数据集图片的相似度计算,将食谱从一个固定的数据集中检索出来。很明显,传统方法在数据集缺少某种食物制作方法的情况下就会失败。

有一种方法可以克服这一数据局限,即将图片到菜谱的问题视为一个条件生成任务。研究人员认为,与其直接从图片中获取菜谱,不如首先预测食物的材料,然后基于图像和食材生成食物制作方法。这样可以利用图片和食材的中间过程获取一些额外信息。

模型

模型主要由两部分构成,首先研究人员预训练一个图片编码器和一个食材解码器(ingredients decoder),提取输入图像的视觉特征来预测食材。然后训练一个食材编码器(ingredient encoder)和烹饪流程解码器(instruction decoder),根据输入图片的图像特征和已经预测到的食材,生成食物的名称和烹饪流程。

模型架构如下图所示:

图 2:模型的结构。模型的输入是食物图片,输出的是烹饪方法序列,而中间一步是基于图像生成食材清单。

具体来讲,烹饪流程解码器使用了三种不同的注意力策略:

图 3:烹饪流程解码器使用的注意力策略。Transformer 模型(a)中的注意力模块被替换成了三种不同的注意力模块(b-d),用于多种条件下的烹饪说明。

效果如何?

研究人员使用 Recipe1M [45] 数据集来训练和评估模型。该数据集包括从烹饪网站上爬取的 1,029,720 个食谱。在实验中,研究者仅使用了包含图片的食谱,并移除了使用少于两种食材或两道流程的食物。最终,实验使用了 252,547 个训练样本、54,255 个验证样本和 54,506 个测试样本。

研究人员对比了传统的检索方法和该研究提出的新方法,结果如下:

表 3:基线方法和论文方法的对比。左图为 IoU 和 F1 分数,右图为食材在烹饪指南上的精确率和召回率。

研究人员还进行了用户测试。他们从测试集中随机选择了 15 张图片,让用户根据提供的图片选择 20 种食材,并写下可能图片对应的菜谱。为了减少人类任务的复杂度,研究人员提高食材使用频率的阈值,减少了食材的选择数量。

表 4:用户测试。左图为基线方法、人类和论文方法判断食材的 IoU 和 F1 分数,右图为根据人类判断,这三种方法生成食谱的成功率。

实验结果说明,使用 AI 生成的食谱比检索方法生成的食谱效果更好。

这样的研究只是造福吃货吗?

这项研究通过对食物图片的研究,可以进一步猜测其食材和加工方式。这可以进一步方便人们学习新的食物制作、协助计算食物中每种成分的卡路里、创造新的菜谱。同时,该研究采用的方法可以进一步启发「根据图片预测长文本」的研究。

更何况,再也不用看着社交媒体上的美食流口水了。扫图出菜谱,人人都可以学着做~

参考链接:https://ai.facebook.com/blog/inverse-cooking/

https://www.reddit.com/r/MachineLearning/comments/c1tb5m/p_using_ai_to_generate_recipes_from_food_images/

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2019-06-27,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 磐创AI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
Facebook最新研究:逆烹饪!从食物照片倒推食谱
通过一张简单的食物照片你能看到什么?当时和你一起吃饭的人?用餐的那个餐馆播放的爵士乐?或者是怀念那一口美味的,自己却做不出吃不到的家乡菜?
大数据文摘
2019/06/20
6790
Facebook最新研究:逆烹饪!从食物照片倒推食谱
人工智能进军餐饮:AI调酒,越喝越有
人类文明的发展,食物和烹饪的意义重大。从食用熟食、耕作农作物,到加入调料、丰富烹饪方式、发明冷藏等,一些列的饮食工具和手段的发明,都是为了提高生活水平。
AI科技大本营
2019/07/12
5270
人工智能进军餐饮:AI调酒,越喝越有
MIT要用人工智能帮你做菜:上传美食照片,给你一份菜谱
李林 编译整理 量子位 报道 | 公众号 QbitAI 在朋友圈看见美食照片总想自己做一份?MIT来帮忙了。 MIT的计算机科学及人工智能实验室(CSAIL)本周和卡塔尔计算机研究中心(QCRI)一起训练了一个人工智能系统,名叫Pic2Recipe。给这个系统一张食物照片,它会告诉你该怎么做出来。 视频内容 Pic2Recipe能通过食物照片推断出面粉、鸡蛋、黄油等食材,然后从它的数据库中选出几份与图片最相似的菜谱推荐给你。 据CSAIL团队介绍,因为训练数据集中甜点很
量子位
2018/03/28
1.3K0
MIT要用人工智能帮你做菜:上传美食照片,给你一份菜谱
经典解读 | CVPR TOP10 论文盘点
如果你没能亲临CVPR(IEEE国际计算机视觉与模式识别会议)的现场,无需担心。本文将列出广受关注的前十篇论文,包括深度伪造、面部识别、重建等话题。
昱良
2019/11/07
8400
经典解读 | CVPR TOP10 论文盘点
从十篇热门学术论文看计算机视觉的未来
原标题 | Ten Trending Academic Papers on the Future of Computer Vision
AI科技评论
2019/08/21
7290
从十篇热门学术论文看计算机视觉的未来
【深度学习】吃得满意又健康?AI 营养师比人类营养师更懂你
内容提要:合理膳食、营养均衡的重要性已不必多说,但具体如何落实,却不简单。为了得到搭配更合理、更健康、更符合人们口味的食谱,AI 也加入了营养师的队伍。
黄博的机器学习圈子
2021/02/08
2.3K1
科技井喷时代,我们与食物正越走越近还是渐行渐远?
本文探讨了科技快速发展对人们饮食习惯的影响。随着科技的发展,人们越来越依赖科技来改变饮食方式。文章提到了一些科技应用,例如利用机器学习算法根据个人口味定制食谱、使用3D食品打印机制作定制食物等。然而,这些科技的应用也引发了一些问题,例如人们是否真的需要这些技术来提高饮食的质量和效率。总的来说,科技的发展对人们的饮食习惯产生了深远的影响,我们需要认真思考如何利用科技来改善饮食习惯,同时也需要警惕科技可能带来的负面影响。
企鹅号小编
2017/12/29
8060
科技井喷时代,我们与食物正越走越近还是渐行渐远?
AI炒菜、配料、开发新口味……人类终于可以只负责吃了?
在深圳举行的第22届中国国际高新技术成果交易会上,煲仔饭机器人、汉堡机器人、五谷豆浆机器人、棉花糖机器人、冰淇淋机器人等多款智能餐饮机器人云集,引起参展民众争相拍照、体验。
用户2908108
2020/11/30
7140
AI炒菜、配料、开发新口味……人类终于可以只负责吃了?
利用 Coze 搭建专属 AI 厨师助手
官方文档也给出了更加全面的介绍以及他的特点: www.coze.cn/docs/guides…
心安事随
2024/07/29
2860
利用 Coze 搭建专属 AI 厨师助手
LLM 大语言模型定义以及关键技术术语认知
LLM(Large Language Models)是基于 Transformer 架构(可以理解为不同寻常的大脑)的深度神经网络,通过海量文本数据训练获得语言理解和生成能力。其核心特征包括:
山河已无恙
2025/03/03
1680
LLM 大语言模型定义以及关键技术术语认知
AI 技术讲座精选:迁移学习——让机器学习投资回报率加倍
Google 曾训练出一台智能计算机,打败了围棋世界冠军李世石。 这对今天的商业有什么样的指导意义呢? 目前,研究人员正在借助机器学习(ML)来挖掘计算机让人不可思议的潜力。 这项研究非常激动人心,
AI科技大本营
2018/04/26
6220
AI 技术讲座精选:迁移学习——让机器学习投资回报率加倍
利用机器学习探索食物配方:通过Word2Vec模型进行菜谱分析
食物是我们生活中不可分割的一部分。据观察,当一个人选择吃东西时,通常会考虑食材和食谱。受食材和烹饪风格的影响,一道菜可能有数百或数千种不同的菜谱。网站上的菜谱展示了做一道菜所需要的食材和烹饪过程。但问题是,用户无法识别哪些菜可以用自己现有的食材烹饪。为了克服这些问题,机器学习方法能够根据用户可用的材料提出菜谱。
deephub
2020/07/17
2.2K0
大规模食品图像识别:T-PAMI 2023论文解读
美团基础研发平台视觉智能部与中科院计算所展开科研课题合作,共同构建大规模数据集Food2K,并提出渐进式区域增强网络用于食品图像识别,相关研究成果已发表于T-PAMI 2023。
美团技术团队
2023/02/28
1.1K0
大规模食品图像识别:T-PAMI 2023论文解读
LeCun 70页长篇巨作!自监督学习「葵花宝典」,手把手教你学会
---- 新智元报道   编辑:编辑部 【新智元导读】自监督学习入门指南,LeCun 70页论文都讲透了。 一本自监督学习全套攻略来了! 今天,Yann LeCun、田渊栋等机构的研究者共同发表了一篇70页论文「自监督学习的食谱」。 LeCun称,你曾经想知道,却又不敢问的自监督学习内容全在这儿了。 先来看看这篇论文阵容有多强大,除了Meta AI的研究员,还汇集了纽约大学、马里兰大学、加利福尼亚大学戴维斯分校、蒙特利尔大学等6所大学研究人员的智慧。 可想而知,这篇论文含金量有多足了。 论文地址:
新智元
2023/05/09
2610
LeCun 70页长篇巨作!自监督学习「葵花宝典」,手把手教你学会
为什么有的机器学习应用公司必将失败?
作者 | Cassie Kozyrkov 编译 | Leo 出品 | 人工智能头条 告诉大家一个秘密:当人们说起“ 机器学习 ”时,听起来好像只是在谈论一门学科,但其实是两门。如果企业不了解其中的差异,那么就可能招惹来满世界的麻烦。 ▌两个关于机器学习的故事 在机器学习方面,企业经常犯的错误类似于:请一位厨师来制造烤箱或请一位电气工程师去烘烤面包。 假设你是一家面包店的店主,你需要聘请的是一位经验丰富的面包师,他需要精通的是制作各种美味面包和糕点的技艺,而不是制造烤箱的方法。虽然烤箱是制作面包的一
用户1737318
2018/07/20
4340
必看,10篇定义计算机视觉未来的论文
导语:如果你没能参加 CVPR 2019 , 别担心。本文列出了会上人们最为关注的 10 篇论文,覆盖了 DeepFakes(人脸转换), Facial Recognition(人脸识别), Reconstruction(视频重建)等等。
AI科技大本营
2019/08/20
5680
必看,10篇定义计算机视觉未来的论文
AI画画催生新职业:现在出售DALL·E 2提示词就能赚钱,平台抽成20%
衡宇 发自 凹非寺 量子位 | 公众号 QbitAI DALL·E 2、GPT-3提示词在线交易平台,了解一下? 最近,一家初创公司PromptBase,允许用户在该平台买卖提示词(Prompt),提示词售价为1.99美元。PromptBase将向卖家抽成20%。 平台上已上架不少提示词,生成内容范围从新闻标题、运动队标志、针织娃娃到动物的正装照,应有尽有。 △用户尝试用DALL·E 2生成包含皮卡丘形象的图片 拿“Knitted Doll”这款来说,它能保证让AI生成可爱且风格一致的针织娃娃,但每次生成
量子位
2022/08/26
4060
AI画画催生新职业:现在出售DALL·E 2提示词就能赚钱,平台抽成20%
微软亚研院:Language Is Not All You Need
鱼羊 发自 凹非寺 量子位 | 公众号 QbitAI 还记得这张把谷歌AI搞得团团转的经典梗图吗? 现在,微软亚研院的新AI可算是把它研究明白了。 拿着这张图问它图里有啥,它会回答:我看着像鸭子。 但如果你试图跟它battle,它就会改口:看上去更像兔子。并且还解释得条条是道: 图里有兔子耳朵。 是不是有点能看得懂图的ChatGPT内味儿了? 这个新AI名叫Kosmos-1,谐音Cosmos(宇宙)。AI如其名,本事确实不小:图文理解、文本生成、OCR、对话QA都不在话下。 甚至连瑞文智商测试题都hol
量子位
2023/03/04
3940
微软亚研院:Language Is Not All You Need
AI看视频自动找“高能时刻”|字节&中科院自动化所@AAAI 2024
字节跳动联合中科院自动化研究所提出新方法,用AI快速检测出视频中的高光片段,对输入视频的长度以及期望提取的高光长度都具有极高的灵活性,相关论文已被AAAI 2024收录。
量子位
2024/01/23
6700
AI看视频自动找“高能时刻”|字节&中科院自动化所@AAAI 2024
深夜放毒,AI 下面给你吃呀?
因为你的 AI 机器人,正在烤制一份美味的披萨,放满了你爱吃的焦香的培根,肥厚的香肠,还有满满的芝士,口感一流的饼皮。而且这样一份披萨,不需要米其林大厨,也不需要在网红餐厅门口排队预约,就可以在家享用。
HyperAI超神经
2019/11/30
6090
推荐阅读
相关推荐
Facebook最新研究:逆烹饪!从食物照片倒推食谱
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档