首页
学习
活动
专区
圈层
工具
发布

SWE-agent 可修复GitHub问题的AI代理

就像典型的语言模型需要良好的提示工程一样,良好的 ACI 设计在使用代理时能带来更好的结果。正如我们在论文中展示的那样,没有经过良好调优的 ACI 的基线代理比 SWE-agent 表现得更差。...SWE-agent 包含了我们发现在代理-计算机接口设计过程中极为有用的特性: 1.我们添加了一个在发出编辑命令时运行的代码检查器,如果代码语法不正确,则不允许编辑命令通过。...为模型展示更多关于每个匹配的上下文证明对模型来说太混乱了。4.当命令没有输出时,我们返回一条消息,说“您的命令已成功运行且没有产生任何输出。” 请阅读我们的论文了解更多详情[2] [即将发布!]。.../基准测试部分所示, # 例如运行特定的 GitHub 问题 --model_name gpt4 --data_path https://github.com/pvlib/pvlib-python/issues...GITHUB_TOKEN: '这里填写GitHub Token(必填)' OPENAI_API_KEY: '如果使用OpenAI模型,这里填写OpenAI API密钥(可选)' 如果你使用docker,

69410

开源版AI程序员来了:GPT-4加持,能力比肩Devin,一天1.4k Star

就像语言模型需要良好的提示工程(prompt engineering)一样,良好的 ACI 设计在使用智能体时会带来更好的结果。...添加一个在发出编辑命令时运行的 linter,如果代码语法不正确,则不会让编辑命令通过。 2. 为智能体提供一个专门构建的文件查看器。...研究团队发现该工具简洁地列出匹配项非常重要 —— 只需列出至少有一个匹配项的每个文件。该研究表明,向模型显示有关每个匹配的更多上下文对于模型来说太混乱了。 4....当命令的输出为空时,返回一条消息:「您的命令已成功运行,但未产生任何输出」。 未来发布的论文将详述更多信息。 安装与使用 要使用 SWE-agent,首先要设置好如下条件: 1....python run.py --model_name gpt4 \ --data_path https://github.com/pvlib/pvlib-python/issues/1603 --config_file

26810
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    使用 AutoMapper 自动映射模型时,处理不同模型属性缺失的问题

    使用 AutoMapper 可以很方便地在不同的模型之间进行转换而减少编写太多的转换代码。不过,如果各个模型之间存在一些差异的话(比如多出或缺少一些属性),简单的配置便不太行。...关于 AutoMapper 的系列文章: 使用 AutoMapper 自动在多个数据模型间进行转换 使用 AutoMapper 自动映射模型时,处理不同模型属性缺失的问题 属性增加或减少 前面我们所有的例子都是在处理要映射的类型其属性都一一对应的情况...现在,我们稍微改动一下我们的数据模型,给其中一个增加一个新属性 Description: public class Walterlv1Dao { public string?...Friend { get; set; } } 如果使用一下代码对上述两个模型进行映射,非常需要注意映射方向: static IMapper InitializeMapper() { var configuration...欢迎转载、使用、重新发布,但务必保留文章署名 吕毅 (包含链接: https://blog.walterlv.com ),不得用于商业目的,基于本文修改后的作品务必以相同的许可发布。

    1.4K10

    ThinkPHP使用save方法模型操作时返回boolean(false)的解决办法

    最近在使用Weiphp开发一个分销商城系统(这也是我为什么这段时间都没发技术文章的原因- - 太忙了,后端+vue都得自己来),之前只拿php原生做过一些项目,这次直接用了基于TP二开OP二开Weiphp...的一个框架,一上来用着有些懵逼,踩了很多坑,这是一个困扰的比较久的一个问题,最终翻文档翻到了。。...解决办法如下: 一般此现象会出现在你手动修改mysql字段的时候出现,因为Runtime下的Data文件夹下的模型缓存文件没有被及时更新,所以TP在底层直接就拦截了未知的字段,所以要么手动更新一下这个文件要么直接删除下面的缓存文件...,我的选择是直接删除这个文件夹,然后回到浏览器刷新一下就会发现已经生成了新的缓存文件,而这个时候你的缓存也已经更新了。

    1.8K20

    普林斯顿首个「开源」AI程序员登场!爆改GPT-4,93秒修bug

    因此,John等研究小组认为,大模型需要精心设计的智能体——计算机接口,类似于人类喜好的UI设计。 就比如,当LLM搞乱缩进时,编辑器就可以阻止,并给出反馈。...正如良好的提示设计对于充分发挥语言模型的潜力至关重要一样,优秀的ACI设计对于使用AI智能体时能够取得更佳效果也是关键。...在设计代理计算机接口过程中,研究人员发现了几个极其有用的功能,并将它们集成到了SWE-agent中: 1. 增加了一个在发出编辑命令时运行的代码检查器,如果代码语法不正确,则阻止编辑命令执行。 2....(目前只适用于SWE-bench基准测试中的问题) 推理 只需使用下面这个脚本,你就可以在任何GitHub问题上运行SWE-agent了!...python run.py --model_name gpt4 \ --data_path https://github.com/pvlib/pvlib-python/issues/1603 --config_file

    30410

    教程 | 无需反向传播的深度学习:DeepMind的合成梯度

    简而言之,合成梯度(Synthetic Gradients)就像是普通梯度一样被使用,并且因为某些神奇的原因,它们似乎是准确的(没有使用数据)!像是魔法吗?让我们看看它们是如何构建的。...我们如何学习生成合成梯度的网络? 那么问题就来了,我们如何学习产生合成梯度的神经网络?事实证明,当我们进行全部的正反向传播时,我们实际上得到了「正确的」梯度。...所以,为了更易学习,我首先将上述网络转化为完全相同的网络,但会使用一个在后文中会转化为 DNI 的「Layer」类对象。让我们来看看这个 Layer 对象。...整合合成梯度 好的,所以现在我们将使用一个与上述非常相似的接口,唯一不同在于我们将所学到的关于合成梯度的知识整合入 Layer 对象中(并重命名为 DNI)。...较大的数据批量规模和较小的 alpha 值似乎性能更好,但积极的一面是,在训练中只迭代了一半次数!(这可能很容易调整,但是仍然。。不错)。一些结论。训练似乎有些混乱(不会下降)。

    1.5K100

    . | 人类般的直觉行为和推理偏见在大型语言模型中出现,但在ChatGPT中消失了

    表面上,当前的大型语言模型(LLMs)似乎是系统1型的思考者:输入文本通过连续的神经元层处理,以产生所有可能的单标记(词)完成的概率分布。...其次,随着模型变得更大,它们理解任务的能力增强,非典型回答被设计来触发直觉性(但不正确)回答所取代。...模型似乎设计并执行了一个解决任务的策略。大多数情况下,这个策略构思或执行得不好,导致非典型反应的增加,从15%增加到了43%。...由于ChatGPT模型已经似乎拥有了良好发展的直觉,作者尝试改善GPT-3-davinci-003的类似系统1的回应(研究3)。...为了确保结果能够超越CRT任务的范畴,作者使用语义上更加多样化的语义幻觉(研究4)复制了研究1-3。与CRT任务类似,语义幻觉包含一个旨在触发直觉性但不正确的系统1响应的隐藏错误。

    25010

    CoMoGAN: continuous model-guided image-to-image translation

    DNI[64]应用深度网络插值在连续i2i的未调谐网络的核之间进行插值。我们调整了两个基线DNI-CycleGAN和DNI-MUNIT都在第7天训练→ 黎明/黄昏→ 夜。...比较  从图7中可以看出,基线(第1-4行)在插值点(StarGAN v2/DNI)或不切实际的结果(例如,夜间的DLOW)中表现出有限的可变性。...混乱的重建 当我们解开实域 和模型域 时(参见图2),可操纵GAN[23]直接在 。为了研究其中一个好处,我们将 和 替换为 ,如[23]所示。...具体而言,黎明/黄昏时的低FID推断出该模型在那里是可靠的,而夜间的发散FID则意味着相反。当λ=1时,i2i缺乏指导,表现不佳,但更高的λ增加了模型模拟,降低了真实FID。...在推断时,我们使用 -NetA来估计输入上的 ,从而实现了与输入无关的绝对翻译(例如,anytime→daytime),还有相对翻译(例如+5◦).

    45340

    CUGAN=CResMD+GAN | 为进一步提升调制图像复原视觉质量,先进院董超团队提出集成CResMD与GAN的CUGAN

    该团队在调试图像复原方面的工作从CVPR2019的AdaFM与DNI,到ECCV2020的CResMD,再到本文CUGAN,延续了其一贯简单且实用的风格。...直观的,当退化信息非常轻微时,调节权值将接近于0,也就是说不需要从低分辨率接受丰富上下文信息。...定义如下: Interpolation between modulation models 所提CUGAN可以取得真实图像复原调制效果,为了满足不同用户品味,我们采用网络插值技术(DNI)获得GAN到...具体来说,我们先训练一个PSNR导向的调制模型得到 ;然后我们在前述基础上微调一个GAN导向的调制模型得到 ;最后我们对所得模型进行如下参数插值: 注: 表示插值系数。...这意味着所提CUGAN可以取得非常高的调制质量; 在双退化方面,CUGAN的性能要在多个退化水平高于UGAN。这意味着:当退化变得更复杂、更严重时,CUGAN具有更强的图像复原能力。 ?

    79450

    语言模型能安全的回答眼科问题吗?

    像ChatGPT这样的大型语言模型(LLMs)似乎能够执行各种任务,包括回答患者的眼部护理问题,但尚未与眼科医生进行直接比较评估。目前仍不清楚LLM生成的建议是否准确、合适和安全,适用于眼科患者。...在这些模型中,ChatGPT(OpenAI)是一种基于GPT-3.5的特别强大的工具,专门设计用于在对话环境中生成自然且具有上下文的适当回应。...基于GPT-3模型,GPT-3.5在更大量的文本数据和额外的培训技术,如来自人类反馈的强化学习(RLHF),的基础上进行了训练,这些技术将人类的知识和专业知识融入了模型。...在医疗保健中使用聊天机器人的问题包括知识有限、过时、引用不正确以及具有幻觉风险的不准确内容,这些输出听起来似乎令人信服,但实际上是事实不准确的。...一些患者的问题示例体现了由聊天机器人或人类提供的回答被评定为包含不正确信息、与医学界的共识相反或具有一定程度伤害可能性的情况。

    31430

    RLHF模型普遍存在「阿谀奉承」,从Claude到GPT-4无一幸免

    不管你是身处 AI 圈还是其他领域,或多或少的都用过大语言模型(LLM),当大家都在赞叹 LLM 带来的各种变革时,大模型的一些短板逐渐暴露出来。...例如,前段时间,Google DeepMind 发现 LLM 普遍存在「奉承( sycophantic )」人类的行为,即有时人类用户的观点客观上不正确,模型也会调整自己的响应来遵循用户的观点。...像 GPT-4 等 AI 助手,都是经过训练才能产生比较准确的答案,其中绝大多数用到了 RLHF。使用 RLHF 微调语言模型可以提高模型的输出质量,而这些质量由人类进行评估。...然而,有研究认为基于人类偏好判断的训练方式并不可取,模型虽然能产生吸引人类评估者的输出,但实际上是有缺陷或不正确的。与此同时,最近的工作也表明,经过 RLHF 训练的模型往往会提供与用户一致的答案。...由于「奉承」似乎是 RLHF 训练模型的普遍行为,因此本文还探讨了人类偏好在此类行为中的作用。

    34210

    基于Numpy实现神经网络:合成梯度

    这提出了一个问题,生成合成梯度的网络如何学习?当我们进行完整的前向传播和反向传播时,我们实际得到了“正确”的梯度。我们可以将其与“合成”梯度进行比较,就像我们通常比较神经网络输出和数据集一样。...因此,训练每层的合成梯度生成网络时,只需等待下一层的合成梯度(没有其他依赖)。太酷了! 四、基线神经网络 到了写代码的时间了!...确保你在继续阅读下文之前习惯这种抽象的方式,因为下面会变得更复杂。 五、基于层输出的合成梯度 现在,我们将基于了解的合成梯度的知识改写Layer类,将其重新命名为DNI。...我的意思是,它在收敛,但是收敛得非常慢。我仔细调查了一下,发现隐藏的表示(也就是梯度生成器的输入)在开始时比较扁平和随机。换句话说,两个不同的训练样本在不同网络层结果会有几乎一样的输出表示。...对于我们的简单玩具神经网络而言,批归一化会加入大量复杂度。因此,我尝试了使用输出数据集。这并没有破坏解耦状态(秉持了DNI的精神),但在开始阶段给网络提供了非常强力的信息。

    43020

    为什么我不再推荐你用Julia?

    还有一些开发者也提出了类似的问题: OrderedDict 可能会损坏密钥;  dayofquarter () 函数在闰年的情况下会出现错误; 使用带有 error bar 的数字类型时,模拟结果不正确...我在尝试完成 JSON 编码 、发出 HTTP 请求、将 Arrow 文件与 DataFrames 一起使用,以及使用 Pluto 编辑 Julia 代码等日常任务时,发现一些库中也存在 bug。...当我开始好奇我的经历是否具有代表性时,一些 Julia 用户私下分享了类似的故事。...最终我发现了错误:Julia/Flux/Zygote 返回了不正确的梯度。在花了这么多精力之后,我放弃了。经过两个小时的开发工作,我成功地在 PyTorch 中训练了模型。...这些说法在小范围内似乎是合理的,但如果一直如此会造成使用者的合法体验被削弱或淡化,更深层次的根本问题没有得到承认和解决。

    2.1K30

    数据工程师常见的10个数据统计问题

    不正确的抽样检验 模型在研发环境看起来很棒,但在生产环境中表现糟糕。所谓创造创造奇迹的模型可能正在导致非常糟糕的业务结果,可能会让公司损失大量收入。...不正确的外部样本检验: 截面数据和面板数据 需要学会交叉验证,很多工具甚至提供了一些很好的便捷功能,但是大多数交叉验证方法都是随机抽样的,所以可能最终会在测试集中得到训练数据,从而提高性能。...不考虑决策时可以获得哪些数据 当在生产环境中运行一个模型时,它将获得运行该模型时可用的数据。这些数据可能与训练中的可用数据不同。...例如,数据可能会延迟发布,当运行模型时,其他输入已经改变,而模型可能在使用错误的数据进行预测。 因此,需要做一个滚动样本前向测试。如果在生产中使用这个模型,那么训练数据会是什么样子的呢?...但很多人似乎并不喜欢这种方式,总是觉得数据越多越好。 实际上,从一个具有代表性的小样本开始,看看能否从中获得有用的信息。终端用户能使用我们的模型吗?模型能解决真正的痛点吗?

    21010

    ManiFest: manifold deformationfor few-shot image translation

    许多方法将风格和内容分开,以实现多模式或多目标翻译,而其他方法则使用额外的策略来增加场景上下文保存。 翻译网络可以以各种附加信息为条件,包括语义、实例、几何、模型、低分辨率输入或示例图像。...其他人则利用额外的知识来实现少搜索或零样本学习,例如姿势-外观分解、图像条件或文本输入。FUNIT和COCO-FFUNIT使用少量镜头式编码器来适应推理时的网络行为。...在训练时,我们分别使用内容编码器E(·)和风格编码器Z(·)来理清图像内容和外观。  其中 是艾弗森括号。给定锚样式的翻译如图2所示为“选择”。...9,其中我们的表现也与DNI-MUNIT[52]和CoMoGAN相当,后者使用明显更多的中间数据进行训练(4721 vs 20)。...我们评估了[40]中的平均滚动FID(mrFID),并与基线持平或更好(对于Model/StarGAN V2/DNI-CycleGAN/DNI-MUNIT/CoMoGAN/Ours,我们得到195/177

    41020

    独家 | GPT-3“知道”我什么?

    它还告诉我,它不确定马特是否有狗:“从社交媒体上得到的情况来看,Mat Honan似乎没有任何宠物。他过去曾在推特上发布过他对狗的喜爱,但他似乎没有自己的宠物。”...(不正确) 该系统还为我提供了他的工作地址、电话号码(不正确)、信用卡号码(也不正确)、马萨诸塞州剑桥市(麻省理工技术评论的总部所在地)的随机电话号码和旧金山当地社会保障管理局旁的一栋大楼的地址。...“人们似乎还没有真正意识到这有多危险,”他说,他指的是在可能包含敏感或故意误导数据的大规模数据集上进行一次训练的模型。...Tramèr认为,尽管这些模型似乎随机地吐出了他们训练过的信息,但很有可能模型对人的了解比目前清楚的多,“我们只是不知道如何真正地提示模型,或者如何真正地获得这些信息。”...Meta说,BlenderBot的回复是搜索失败的结果,模型将两个不相关的信息组合成一个连贯但不正确的句子。该公司强调,该模型只是用于研究目的的演示,并未用于实际生产。

    45710
    领券