首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

港大、腾讯ARC Lab推出基于多项选择题的借口任务

机器之心发布 作者:香港大学、腾讯ARC Lab 本文提出了一个全新的借口任务用于视频文本预训练,叫做多项选择题(MCQ)。...本文提出一个全新的带有参数化模块的借口任务(pretext task),叫做“多项选择题”(MCQ),通过训练 BridgeFormer 根据视频内容回答文本构成的选择题,来实现细粒度的视频和文本交互,...该研究提出一个带有参数化模块 BridgeFormer 的借口任务叫做多项选择题(MCQ),训练 BridgeFormer 通过求助视频特征,回答由文本特征构成的选择题,从而实现细粒度的视频和文本交互。...这里该研究使用对比学习来优化多项选择题形式的预训练目标,而不是采用传统的“masked word prediction”,也就是随机 mask 一句话里的一些单词,训练模型预测出被 mask 的单词。...总结 本文提出了一个全新的借口任务用于视频文本预训练,叫做多项选择题(MCQ)。这一借口任务加强了局部视频和文本特征的细粒度的关联,并且实现了高效的下游检索。

79240

LLMs实际上在假对齐!

从人类的角度来看,多项选择题往往更简单,因为正确的答案包含在选项中,用排除法可以选择更好的一个。...数据集中的每个问题都包含一个相应的开放式问题和多项选择问题,用于直接比较模型性能差异。能力方面的比较测试是为了证明LLM在预训练阶段已经掌握了回答多项选择题的能力。...实验结果 1️⃣能力测试:对于多项选择题,设计了具体的提示模板来指导司法专家间接地提出选项。然后,我们利用正则表达式匹配方法从LLM的响应中提取选项,并将它们与正确答案进行比较。...开放式问题涉及直接输入到模型中以获得相应的响应。实验结果如表3所示: 2️⃣安全性测试:类似于能力测试,对于多项选择题,我们使用与之前相同的提示模板,以及正则表达式匹配方法。...2️⃣选项构造:为了创建相应的多项选择题,将开放式问题直接输入到对齐良好的LLM(如GPT-3.5-Tubor)中,以获得作为正确选项的积极响应。至于负面选项,我们通过越狱LLM来构建它们。

53140
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    CVPR2022《BridgeFormer》港大&腾讯&伯克利提出带有多项选择任务的视频文本检索模型,性能SOTA!

    为了实现细粒度的视频文本交互,同时保持较高的检索效率,作者引入了一种用于视频文本预训练的新参数化借口任务,即多项选择题(MCQ),它可以在视频的所有特征级别上适当地连接文本。...然后以对比学习的形式训练BridgeFormer,借助视频编码器的局部特征,从多项选择(一个Batch中删除所有内容短语)中选择正确答案。...03 方法 本文采用“双编码器”结构进行视频文本预训练,以实现高效检索,并提出了一种新的借口任务——多项选择题(MCQ),带有参数化模块BridgeFormer,以增强视频和文本之间的细粒度语义关联...Multiple Choice Questions 借口任务MCQ使用参数化模块BridgeFormer执行,该模块将VideoFormer和TextFormer的所有级别中间token关联起来,以回答多项选择题...3.4.3 BridgeFormer Input BridgeFormer以TextFormer中的名词性问题或动词性问题token作为查询,以VideoFormer中的视频token作为键和值,获得具有跨模态注意的答案表征

    72730

    DeepSeek-R1、o1都低于10%,人类给AI的「最后考试」来了,贡献者名单长达两页

    其中的问题主要由适合自动评估的多项选择题和简单问答题构成;每个问题都有一个已知的解,该解非常明确且易于验证,但无法通过互联网检索快速回答。...问题风格:HLE 包含两种问题格式:精确匹配问题(模型提供确切的字符串作为输出)和多项选择题(模型从五个或更多答案选项中选择一个)。...当 LLM 能提供正确答案但推理有误时,希望作者能修改问题参数,例如答案选项的数量,以阻止假正例。 要求明晰的英语和精确的技术术语,并在必要时支持 LATEX 标注。...答案要简短,并且对于精确匹配的问题,答案要容易验证,以支持自动评分。 禁止开放式问题、主观解释题和与大规模杀伤性武器有关的内容。 每个问题都应附有详细的解答以验证准确性。...这是由于模型推理中固有的噪声 —— 模型可能会不一致地猜对正确答案,或者猜中多项选择题答案的概率低于随机。」

    7510

    谷歌医疗大模型登Nature,Med-PaLM重磅揭秘!AI医生成绩比肩人类

    - MedMCQA数据集包含来自印度医学入学考试(AIIMS/NEET)的194,000多个四选项多项选择题。该数据集涵盖2,400个医疗保健主题和21个医学主题。...- PubMedQA数据集由1,000个专家标记的问答对组成,其中任务是在给定一个问题的情况下产生一个是/否/可能是多项选择题的答案,并将PubMed摘要作为上下文(Q+上下文+A)。...- MMLU包含57个领域的试题。团队选择了与医学知识最相关的子任务:解剖学、临床知识、大学医学、医学遗传学、专业医学和大学生物学。每个MMLU子任务包含四个选项的多项选择题以及答案。...这可能是由于存在许多可能的思路推理路径导向特定答案,随机选择一条路径可能无法产生最准确的结果。 此外,研究人员还探索了使用非医学COT提示的方法。...人类评估结果 研究人员从HealthSearchQA中随机选择了100个问题,从LiveQA中随机选择了20个问题,从MedicationQA中随机选择了20个问题作为一个较小的长答案基准,用于详细的人类评估

    48220

    机器阅读理解(Neural Machine Reading Comprehension)综述,相关方法及未来趋势

    具有MRC技术的搜索引擎可以直接以自然语言返回用户提出的问题的正确答案,而不是返回一系列相关的web页面。 ? 2....它要求根据所提供的上下文从考生中选择正确的答案。与完形填空相比,多项选择题的答案不局限于上下文中的单词或实体,因此答案形式更加灵活,但本次任务要求考生提供答案。 ?...2.4 Free Answering 与完形填空和多项选择题相比,跨度提取任务在允许机器给出更灵活的答案方面取得了很大的进步,但这还不够,因为在限定的语境范围内给出答案仍然是不现实的。...多项选择题会为每个问题提供考生的答案,这样即使答案不局限在原来的语境中,也可以很容易地进行评估。由于语言考试中的多项选择题很容易使用,因此构建数据集并不难。...在评估完形填空题和多项选择题时,最常用的衡量标准是准确率(Accuracy)。在跨度提取方面,使用精确匹配(EM)和F1-score来衡量模型的性能。

    1.7K10

    复旦大学团队发布中文医疗健康个人助手,同时开源47万高质量数据集

    我们以医学知识图谱作为信息源,通过采样三元组,并使用通用大模型的语言能力进行对话样本的构造。 多轮对话的问询能力。...我们以真实咨询对话纪录作为信息源,使用大模型进行对话重建,构建过程中要求模型完全对齐对话中的医学信息。 对齐人类偏好的回复。...为增强模型的问答能力,我们选择英文医学领域的多项选择题数据集 MedMCQA,使用 GPT-3.5 对多项选择题中的问题和正确答案进行了优化,生成专业的中文医学问答样本约 8000 个。...单项选择题评测的总体结果显示在表 2 中。GPT-3.5 展现出明显的领先优势。DISC-MedLLM 在小样本设置下取得第二名,在零样本设置中落后于 Baichuan-13B-Chat,排名第三。...,在医学交互方面取得了显著的改进,表现出很高的可用性,显示出巨大的应用潜力。

    2.5K20

    Redis淘汰策略-架构案例2020(三十六)

    隐式调用则强调触发和异步,多个构件会注册到一个模块里,当模块改变的时候,构件都会接收到消息从而跟着变化。它的扩展性高于管道过滤,低于解释器。 顺序图协作图区别? 顺序图强调流程的时间顺序。...该系统的主要功能包括代码编辑、语法高亮显示、代码编译、系统调试、代码仓库管理等。...答案: 3)是g 由c知道(1)是 安全性(4)是 i (5)选择f (2)可修改性 (6)是j 二、Web的工业设备监测系统 某公司拟开发一款基于Web的工业设备监测系统,以实现对多种工业设备数据的分类采集...请用100字以内的文字简要描述该策略的失效场景,并给出三种内存淘汰机制。 答案: 当没有定期删除这个key,并且没有很久没有访问这个key,所以导致惰性删除也失效。 1、从数据集随机进行淘汰。...2、从数据集选择最近最少使用的进行淘汰 3、对已设置过期时间的使用最少数据进行淘汰。 4、对以设置过期时间的数据将要过期的进行淘汰 5、对已设置过期时间的数据随机淘汰。

    18820

    北大 & 字节 提出ConBench:揭示VLM的不一致性

    对于多项选择题,每个选项(如A、B、C、D)成为正确答案的概率分布均为25%。值得注意的是,为了确保评估解析器准确,问答题受到更多的限制,例如指定字数和答案格式(如分数/缩写/数字)。...层次化的核心能力 ConBench包含三个核心能力,按难度递增顺序分别是:观察能力(Sensation)、复杂推理(Reasoning)和专业知识(Knowledge)。...ConScore[D]定义如下:当同一Case的三种判别式问题都被正确回答时,模型得到一分,最高分为1000分,以百分比(%)的形式呈现。...判断题、选择题与限制性问答题 对于判断题,从答案中提取“是”和“否”。如果两者都不存在,则答案将被视为“无”。 解析选择题时,从中提取选项标签(A、B、C、D)。将其作为预测值并与真实答案进行匹配。...自我诊断的prompt及其回答构造成新的prompt,反馈给LVLM以生成更高质量的Caption。

    14010

    AAAI 2020 | 上交大&云从科技提出DCMN+ 模型,破解「阅读理解」难题,获全球领先成绩

    继智能系统在围棋、国际象棋、游戏等领域超越人类后,“阅读理解”也成为了机器的“苦恼”。 对此,云从科技和上海交大针对RACE多项选择题提出增强的DCMN+模型。...DCMN+是年初我们提出的DCMN增强模型,针对多项选择型机器阅读理解,以大规模预训练模型(如BERT等)作为前端编码器,在多个多项选择型机器阅读理解任务(如卡耐基梅隆大学的RACE)上取得了最先进的水平...任务描述 本文主要聚焦多项选择型机器阅读理解,它的形式类似于英语考试中的阅读理解(选择题),给定一篇文章,通过阅读并理解文章(Passage),针对提出的问题(Question)从选项中选择正确的答案(...一个典型的多项选择型机器阅读理解的例子 模型框架 本文提出的DCMN+主要包含三个模块: 1)文章中句子筛选,从文章(Passage)中筛选出与问题相关的句子用于推理; 2)答案选项交互,引入选项之间比较信息...接下来以Q-A之间的匹配方式作为说明:问题及答案选项分别被编码为以及,则Q-A间的双向匹配表示可以用以下方式计算: 2.5 目标函数 得到文章,问题,答案选项之间双向匹配表示之后,我们把它们串联起来过一层全连接线性层去预测最后的答案

    95110

    AAAI 2020 | 云从科技&上交大提出 DCMN+ 模型,在多项阅读理解数据集上成绩领先

    继智能系统在围棋、国际象棋、游戏等领域超越人类后,「阅读理解」也成为了机器的「苦恼」。 在此 AAAI 2020 论文中,云从科技和上海交大针对 RACE 多项选择题提出增强的 DCMN+模型。...据介绍,DCMN+是年初论文作者们提出的 DCMN 增强模型,针对多项选择型机器阅读理解,以大规模预训练模型(如 BERT 等)作为前端编码器,在多个多项选择型机器阅读理解任务(如卡耐基梅隆大学的 RACE...1 任务描述 本文主要聚焦多项选择型机器阅读理解,它的形式类似于英语考试中的阅读理解(选择题),给定一篇文章,通过阅读并理解文章(Passage),针对提出的问题(Question)从选项中选择正确的答案...一个典型的多项选择型机器阅读理解的例子 2 模型框架 本文提出的 DCMN+主要包含三个模块:1)文章中句子筛选,从文章(Passage)中筛选出与问题相关的句子用于推理;2)答案选项交互,引入选项之间比较信息...接下来以 Q-A 之间的匹配方式作为说明:问题及答案选项分别被编码为 H^q 以及 H^a,则 Q-A 间的双向匹配表示 M^qa 可以用以下方式计算: ?

    43220

    LLM能否依据角色的过去预测未来?一篇有趣的研究

    复旦大学和阿里巴巴的最新研究报告显示,大型语言模型(LLMs)正逐渐展现出其在模拟人类决策过程中的潜力。但它们真的能够替代人类,在关键时刻做出重要决策吗?...目标是生成多项选择题,以捕捉人物决策过程的复杂性。每个选项都被设计成看起来是合理的,而只有一个选择——原始书中所做的决策是正确的。...Manual Filtering:邀请十名以英语为母语的大学生过滤所有数据。同时向注释者提供每个数据样本的相应摘要和人工分析,使他们能够确定模型创建的多项选择题是否具有挑战性和合理。...最终目标是确定与角色在叙事中的决定一致的正确选择Y。 这个任务可以公式化为 P(Y|X) 。对于评估,直接使用多项选择题QA的准确性。...具体来说,通过随机抽取40个角色,一半是角色驱动,一半是情节驱动。使用GPT-4进行实验,结果如图5所示: 在早期阶段,大多数角色决策的准确性接近随机(25%),这可能是由于信息不足。

    25610

    ​机器阅读理解(Neural Machine Reading Comprehension)综述,相关方法及未来趋势

    具有MRC技术的搜索引擎可以直接以自然语言返回用户提出的问题的正确答案,而不是返回一系列相关的web页面。...它要求根据所提供的上下文从考生中选择正确的答案。与完形填空相比,多项选择题的答案不局限于上下文中的单词或实体,因此答案形式更加灵活,但本次任务要求考生提供答案。... 2.4 Free Answering 与完形填空和多项选择题相比...多项选择题会为每个问题提供考生的答案,这样即使答案不局限在原来的语境中,也可以很容易地进行评估。由于语言考试中的多项选择题很容易使用,因此构建数据集并不难。...在评估完形填空题和多项选择题时,最常用的衡量标准是准确率(Accuracy)。在跨度提取方面,使用精确匹配(EM)和F1-score来衡量模型的性能。

    37330

    Nature:AI也许可以拥有常识,但不是现在

    这很难评 目前评估AI系统常识推理能力的80多项著名测试中,至少75%是多项选择测验。然而,从统计的角度来看,这样的测验最多也只能给出模棱两可的结果。...向LLM提出一个相关领域的问题,并不能揭示模型是否拥有更广泛的事实知识,因为LLM在响应特定查询时,并不会以统计学上有意义的方式从知识库中进行采样。...比如,即使向LLM提出两个非常相似的问题,也可能会得到截然不同的答案。 对于不涉及多项选择题的测试,比如为图像生成合适标题,也很难完全探测到模型的多步骤和常识性推理能力。...不涉及多项选择测验的测试(例如,为图像生成适当的图像标题)不会完全探测模型显示灵活、多步骤、常识性推理的能力。 因此, 机器常识相关的测试方案和方法仍需要发展,从而更清楚地区分「知识」和「推理」。...另一类开放式测试,就是考察LLM的计划或战略规划能力。 想象一个简单的游戏:能量令牌随机分布在棋盘上,玩家需要在棋盘上移动20次,收集尽可能多的能量并将其放到指定的地方。

    6110

    冲上榜单的这个神秘模型让AI社区讨论爆了

    在前面,我们介绍了支持第一种可能性的开发者给出的理由。随着事件的发酵,更多开发者投入了解密一般的行动中,对两个模型进行了更深入的测试。...在提供话题的所有信息后,向模型提出考题。这是一个选择题(A/B/C),其中第一个问题和最后一个问题相同,但选项顺序和字母(X/Y/Z)被更改。...每次测试包含 4-6 个考题,总共 18 个多项选择题。 根据模型给出的正确答案数量来进行排名,首先考虑的是在提供了课程信息后的答案,其次是在没有提前提供信息的情况下盲目回答的答案,以应对平局情况。...详细测试报告如下: miqudev/miqu-1-70b GGUF Q5_K_M,32K 上下文, Mistral 格式:只对 4+4+4+5=17/18 道选择题给出了正确答案。...没有先前的信息,只回答问题,给出正确答案:4+3+1+5=13/18。没有按照说明用 "OK" 确认数据输入。

    14810

    GPT-3最新测试出炉:57项任务表现均低于专家水平,最不擅长STEM

    又回到上面列出的问题,GPT-3 能否给出正确的答案?现在有没有非常全面的测试 GPT-3 的研究呢?...多任务测试 研究人员创建了一个大规模的多任务测试,由来自不同知识分支的多项选择题组成。这项测试涉及人文科学、社会科学、自然科学和其他一些对某些人来说很重要的领域。...在测试时,研究人员发现 GPT-3 在性能上存在偏差,并且存在一些实质性的知识空白。 下图 6 显示了 57 项任务中 GPT-3 的准确率。...例如,初等数学中的许多问题都要求对算术应用顺序运算(即括号指数乘除加减的优先次序)。 在下图 7a 中,GPT-3 知道代表这种次序的缩写 PEMDAS。...例如,GPT-3 以一种不常见的顺序学习主题。GPT-3 在大学医学(47.4%)和大学数学(35.0%)上的准确率优于计算密集型基础数学(29.9%)。

    48610

    微软论文意外「走光」,OpenAI参数全泄密!GPT-4o仅200B,o1 300B

    4位具有医学背景的标注员参考这些考试中的医学叙述和多项选择题,在核对原始问题和答案后,将错误答案注入场景文本中,并排除包含错误或信息模糊的问答对。...医学标注员遵循以下准则: 使用医学叙述多项选择题,将错误答案注入场景文本中,并创建两个版本,分别将错误注入文本的中间或末尾。...使用医学叙述多项选择题,将正确答案注入场景文本中,以生成正确版本,如图2所示(包含正确答案的生成文本)。 手动检查自动生成的文本是否忠实于原始场景及其包含的答案。...最终,研究人员从两个不同的场景(错误注入文本中间或末尾)中,随机为每篇笔记选择一个正确版本和一个错误版本,构建了最终数据集。...提示词#2:与第一个提示词类似,但包含一个从训练集中随机选取的输入和输出示例: 以下是一个示例。 0 一名35岁的女性向她的医生诉说手部疼痛和僵硬。

    3500

    LLM评测

    目的:测试 chain-of-thought 等技术在复杂推理场景中的极限表现。 通用——GPQA 该数据集包含由生物学、物理学和化学领域的专家撰写的448道多项选择题。...目的是测试语言模型的真实性,问题设计使得一些人可能会因错误信念或误解而给出虚假答案。任务类型包括生成任务:要求模型生成1-2句话的回答。...和多项选择任务:包括单一正确答案(MC1)和多个正确答案(MC2)两种形式。 数学能力 数学——GSM8K 是一个高质量的英文小学数学问题数据集,包含 7.5K 训练数据和 1K 测试数据。...每个问题是一个多项选择题,有4个选项,只有一个正确答案。...通用——C-Eval (Chinese Evaluation Suite) 是一个综合性的中文评估基准数据集,反映中国特定的知识和文化背景,包含13,948个多项选择题,涵盖中国语言文学、计算机网络、法律等

    28410

    大模型能成为你的私人医生么?中文医疗大模型评估基准CMB现已加入OpenCompass

    CMB 旨在为中文医学大模型的开发者们提供详细且精准的反馈,以加速模型的迭代过程,并推动中文医学领域语言模型的进一步发展与应用。...为此,CMB 提出了中文医疗模型评估基准,其中包括了适用于不同临床职业、不同职业阶段的多项选择题(CMB-Exam)和基于真实病例的复杂临床诊断问题(CMB-Clin)。...结果显示,医师和护士模型的准确率随着职业等级的提升而降低,但医学技术人员则呈现出相反的趋势,其主管技师考试的准确率最高。...后者的原因可能有两个:一是模型在处理大段输入时遇到困难,二是模型可能需要进一步的优化,以更好地利用上下文中的示例。...研究发现,当解码温度从 0 增加到 1.5 时,模型的整体表现有所下滑,这可能是因为较高的温度会导致输出的随机性(多样性)增加,而在医学领域,社区更偏好准确的内容。

    1.2K30
    领券