暂无搜索历史
今天为大家介绍清华大学计算机系徐恪、宋佳兴、李琦老师团队,高研院丛天硕老师,和香港科技大学(广州)何新磊老师联合完成的综述《Jailbreak Attacks ...
把时间推回到250万年前,旧石器时代见证了人类从简单工具的使用者到复杂技术创造者的转变。我们的祖先南方古猿、直立人等,逐步发展出更高级的工具,如手斧和刮刀,以适...
以Qwen2作为基座大模型,通过指令微调的方式做高精度的命名实体识别(NER),是学习入门LLM微调、建立大模型认知的非常好的任务。
这篇文章的标题是《CharXiv: Charting Gaps in Realistic Chart Understanding in Multimodal L...
这篇文章的标题是《Following Length Constraints in Instructions》,作者是Weizhe Yuan、Ilia Kulik...
这篇文章的标题是《Unified Active Retrieval for Retrieval Augmented Generation》,作者是Qinyuan...
这篇论文提出了一个名为ENVISIONS的环境引导的神经符号自训练框架,旨在解决以下两个问题:
知乎:真中合欢 链接:https://www.zhihu.com/question/627258986/answer/3262812950
这篇论文试图解决的问题是如何自动构建高质量的训练数据,以增强大型语言模型(LLMs)遵循复杂自然语言指令的能力。具体来说,论文指出了以下几个关键问题:
这篇文章介绍了一个名为Q的框架,旨在改善大型语言模型(LLMs)在多步推理任务中的性能。作者指出,尽管LLMs在许多自然语言任务上表现出色,但在执行多步推理时,...
标题:Living in the Moment: Can Large Language Models Grasp Co-Temporal Reasoning? ...
文章旨在解决扩散模型(diffusion models)在生成高质量图像方面表现出色,但在语言建模(language modeling)任务中与自回归(auto...
文章探讨了掩码语言模型(MLMs,例如BERT和DeBERTa)在上下文学习(in-context learning)方面的能力,挑战了普遍观点,即这种能力在这...
在人工智能飞速发展的今天,大模型的感知能力已经达到了令人惊叹的水平。但是,它们真的能够像人类一样,洞悉图片中的深层含义吗?为了探讨多模型大模型与人类的差距,来自...
大模型由于其在各种任务中的出色表现而引起了广泛的关注。然而,大模型推理的大量计算和内存需求对其在资源受限场景的部署提出了挑战。业内一直在努力开发旨在提高大模型推...
这篇论文介绍了一种名为YOCO(You Only Cache Once)的新型解码器-解码器架构,旨在提高大型语言模型的推理效率和性能。
我们知道,Meta 推出的 Llama 3、Mistral AI 推出的 Mistral 和 Mixtral 模型以及 AI21 实验室推出的 Jamba 等开...
陈丹琦团队提出了一种名为 Lory 的新型混合专家(Mixture-of-Experts,简称 MoE)模型,专门用于自回归语言模型的预训练。以下是对文章内容的...
语言模型的对齐在20年就有相关工作,22年谷歌提出基于指令微调的Flan,Openai则提出InstructGPT,ChatGPT,大模型的对齐工作受到广泛的关...
比如,200个参数的KANs,就能复现DeepMind用30万参数的MLPs发现数学定理研究。
暂未填写公司和职称
暂未填写个人简介
暂未填写学校和专业
暂未填写个人网址
暂未填写所在城市