首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    Transformers 4.37 中文文档(六十四)

    YOSO 模型在顶部具有用于提取问答任务(如 SQuAD)的跨度分类头(在隐藏状态输出顶部的线性层上计算span start logits和span end logits)。...loss (torch.FloatTensor,形状为(1,),可选,当提供labels时返回) — 总跨度抽取损失是起始和结束位置的交叉熵之和。...当在 ImageNet-1K 和 CIFAR-100 上进行微调时,它们的性能优于原始模型(ViT)以及数据高效图像变换器(DeiT)。...您可以查看关于推理以及在自定义数据上进行微调的演示笔记本这里(您只需将 ViTFeatureExtractor 替换为 BeitImageProcessor,将 ViTForImageClassification...返回的 logits 不一定与作为输入传递的pixel_values具有相同的大小。这是为了避免进行两次插值并在用户需要将 logits 调整为原始图像大小时丢失一些质量。

    15610

    Transformers 4.37 中文文档(九十二)

    将 OwlViTForObjectDetection.image_guided_detection()的输出转换为 COCO api 期望的格式。...然后可以类似于 BERT,通过沿序列维度取平均值将潜在变量的最后隐藏状态转换为分类 logits,并在其上放置一个线性层,将d_latents投影到num_labels。...将 Perceiver 编码器的输出(形状为(batch_size,num_latents,d_latents))转换为形状为(batch_size,num_labels)的张量。...loss(形状为(1,)的torch.FloatTensor,可选,在提供labels时返回) — 分类(如果config.num_labels==1则为回归)损失。...如论文所示,该模型在 ImageNet 上可以达到 79.0 的 top-1 准确率,在大规模数据集(即 JFT)上预训练时可以达到 84.5 的准确率。

    34110
    领券