首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Flink 从0到1实战实时风控系统-无密超清完结

下载看水印

在本研究中,我们引入了两项从食材层面理解中国菜食材的任务,即食材检测(任务1)和跨模态食材检索(任务2)。任务1的重点是识别食材并在图像中标注准确的位置信息,任务2旨在研究图像与食材组成之间的复杂关系。对于任务1,我们使用现有目标检测模型在CMIngre数据集上进行微调,构建有关中国菜品理解的新基准;对于任务2,我们在现有跨模态检索方法的基础上,提出了一些创新性的做法,填补了有关中国菜品食材粒度理解的空白。

3.1 食材检测

与传统的目标检测数据集相比,CMIngre数据集具有极其详细的食材分类和密集的边界框注释,因此直接利用现存的目标检测算法进行拟合是一件非常具有挑战的事情。直接对现有的大规模目标检测模型[1]在原始边界框注释上进行微调的效果并不让人满意,因此我们采用融合和过滤策略来缓解边界框密集和尺寸较小带来的问题。

具体而言,我们首先按照融合前后的边界框面积百分比 不低于阈值τ的规则,对同一类别的多个边界框进行融合,在实验中这个阈值被设置为0.6。接下来,我们对融合后的边界框进行排序,并将边界框的三个最大区域保留为真值。此外,我们将食材树层级结构的最低级标签都转换为第三级标签,例如“紫菜”和“海带”都融合为“藻类”,“冬笋”和“酸笋”都融合为“笋”,这样可以避免模型无法识别同一分支中高度相似的类别的问题。根据这种转换,类别总数从429减少到67个。在这种设置下,我们使用如下的两种不同的基线方法进行实验。

3.1.1 基于CNN的方法:Faster R-CNN[47]和YOLO v5[48]

Faster R-CNN是一种经典的基于卷积神经网络(CNN)的两阶段目标检测框架。在第一阶段,Faster R-CNN利用CNN提取输入图像的特征映射,然后利用区域提名网络(RPN)生成候选目标区域。在第二阶段,基于候选目标区域,利用图像区域边界框回归以及区域食材识别两个约束进行网络参数的整体更新。相比之下,YOLO(You Only Look Once)是一种单阶段目标检测算法,以其速度和效率而闻名。与Faster R-CNN不同,YOLO在一次评估中处理整个图像,同时预测多个对象的分类概率和边界框。

3.1.2 DINO[1]

DINO(DETR with Improved deNoising anchOr boxes)是一个融合对比降噪训练(contrastive way for denoising training),混合查询选择锚点初始化(mixed query selection method for anchr initialization),前向两次预测(look forward twice scheme for box prediction)的端到端Transformer框架。相比于Faster R-CNN,DINO是一个参数量更大且更高效的目标检测模型。

评估方案:使用平均精度(AP)来评估基线模型的检测性能。对于Faster R-CNN,YOLO和DINO,分别评估了不同IoU阈值(0.5、0.75和0.5:0.95)下的标准平均精度结果。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OrrPLN-3NDfcQoX0UfSHcGqA0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券