首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

论文|ACL2016最佳论文:用于口语对话系统策略优化的在线自动奖励学习

摘要 计算正确奖励函数的能力对于通过加强学习优化对话系统十分的关键。在现实世界的应用中,使用明确的用户反馈作为奖励信号往往是不可靠的,并且收集反馈花费也十分地高。但这一问题可以有所减轻,如果能提前知道用户的意图或是数据能预先训练任务离线的任务成功预测器。在实践中这两种都不太适合现实中的大多数应用。在这里我们提出了一个在线学习框架,通过带有高斯过程模式的主动学习,对话策略能按照奖励模式共同进行训练。高斯过程开发了一系列连续的空间对话表示,但都是在无监督的情况下使用递归神经网络编码和解码器完成的。试验结果表明所

05
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    如何借助 LLM 设计和实现任务型对话 Agent

    在人工智能的快速发展中,任务型对话 Agent 正成为提升用户体验和工作效率的关键技术。这类系统通过自然语言交互,专注于高效执行特定任务,如预订酒店或查询天气。尽管市场上的开源框架如 Rasa 和 Microsoft Bot Framework 在对话理解和管理方面已经取得了不错的进展,但仍存在一定的局限性,包括对大量领域数据的依赖、对固定模板的依赖,以及在个性化服务和复杂任务处理方面的不足。大型语言模型(LLM)的兴起为任务型对话 Agent 的设计和开发带来了新机遇。LLM 强大的语言理解和生成能力,能够有效提高对话系统的准确性和用户体验。得益于这些特点,我们有机会进一步简化任务型对话 Agent 的开发流程,并显著提高开发效率。本文将重点介绍由 Gluon Meson 平台孵化的创新框架——Thought Agent,探讨如何利用大型语言模型来设计和实现任务型对话 Agent 。该框架已在一家大型银行的智能对话 Agent 项目中得到成功应用。本文旨在为读者提供新的视角,帮助快速构建以 LLM 为辅助的任务型 Agent。

    01

    MILABOT:基于深度强化学习打造聊天机器人

    下面,我们介绍论文的主要思想和创新之处。 系统概览 早期的对话系统主要基于由专家人工制定的状态和规则。而现代对话系统通常使用组合学习的架构,将手工定制状态和规则组合到统计机器学习算法中。由于人类语言的复杂性,在构建在开放域对话机器人时,最大的挑战在于无法枚举所有可能的状态。 MILABOT完全采用基于统计机器学习的方法,在处理和生成自然人类对话中做了尽可能少的假设。模型中每个组件的设计使用机器学习方法优化,通过强化学习对各个组件的输出进行优化。其灵感来自于组合机器学习系统,即由多个独立的统计模型组成更好的学

    03

    强化学习在黄页商家智能聊天助手中的探索实践

    本地服务(黄页)微聊代运营模式是指人工客服代替58平台上的商家与C端用户IM沟通聊天以获取商机(如用户联系方式、细粒度需求信息等),再将商机转交给商家,促进商家成单。我们基于58AI Lab自研的灵犀智能语音语义平台构建了智能客服商家版,将其应用在微聊代运营场景下,通过人机协作模式提高商机获取效率,打造了黄页商家智能聊天助手。这里的人机协作模式先后经历了三个阶段:在早期机器人效果较一般时,机器人和人工客服分时工作,即人工客服不上班时才由机器人接待用户咨询。在经过优化机器人效果较优时,先机器人再人工,即当用户来咨询商家时,白天先由机器人接待,若机器人能够聊出商机则结束会话,若不能再转接人工客服,晚上使用纯机器人接待。在机器人效果和人工很接近甚至超过人工时,使用纯机器人接待,人工客服去从事其他更复杂的工作。2021年年初,黄页商家智能聊天助手被商业化,以“微聊管家”命名随会员套餐一起打包售卖给商家,全年共计服务了数万个商家,为公司创造收入超过五千万元。当前,机器人的商机转化率(聊出商机的会话数/总会话数)已达到了人工客服的98%水平,我们实现了纯机器人接待,节省了数十名客服人力。

    02
    领券