以下是访谈的主要内容,拓展阅读文章和视频在文章末尾🔚
一、Alan Cowen个人背景 1.UC Berkeley的心理学博士,在研究人类情感方面发表了40多篇论文。 2.在Google建立了情感计算团队。 情感计算是应用机器学习来理解情感行为。 由于没有足够大的数据,从上世纪60年代到2017年,心理学界普遍认为只有6种基本情绪。 2017年,Cowen首次将“数据驱动”引入情绪研究,提出“语义空间理论”,将情绪的维度扩展到27个,这是一种对情绪更深刻的认识。 3.情感计算的重点是获得“控制数据”(接受实验控制下产生的数据,比如呈现给被试特定的视频片段。与之相对的是自然数据,如互联网上直接收集到的数据)。 4.互联网上的数据是没有“情感标签”的,如果请专门的人士进行数据标注,会受到评注者种族、民族、性别、背景等影响,使标签失准。 比如,美国的标注者倾向于把大多数话语评价为积极的,哪怕这个话语实际上带有讽刺语气。 5.Google作为大型科技公司想要得到“控制数据”很难,因为公司有处理数据的规范,想要破例要面临法律审查、管理费用等困难。 Cowen为了获得“控制数据”在2016年离开了Google,创立了Hume AI。 有更大的自由,获得了海量的“控制数据”,并在这上面训练模型。 二、Hume的功能与目标
1.Hume可以通过用户的语气、语调、说话节奏等信息,推断出用户的情绪。并可以判断什么信息让人们快乐或悲伤。 2.AI的“共情”为何重要: 1)因为AI能够预测它的回答会让使用者感到快乐还是悲伤。从而提供给人们更有趣的回答。 2)人们向AI提问时,有时并没有明确的意图。此时情绪也是AI生成回答的重要线索。 3.人和传统语言模型的区别:传统语言模型不会考虑用户看到AI返回的文本后的情绪反应。而人与人当面交流天生会注意对方的情绪(如表情、语气等)。 三、Hume和纯文本语言模型的关系
1.当Hume与纯文本语言模型共同使用时,Hume不会影响纯文本模型使用的语言,而会影响对回答结果的奖励权重,从而使纯文本模型做出正确反应。 2.Hume可以用于语音模型,帮助生成更合适的回答,比如Hume识别出用户的语气中有不耐烦,就会精简回答。 3.Cowen认为把AI嵌入到语音应用程序中是一种好的方式。语音的形式更快,更便捷。 四、关于EVI(Empathic Voice Interface)
1.EVI是Hume公司训练的模型结合转录、语言建模和文本生成的API。它可以根据用户的语气来调节他所说的话。 2.EVI集成了网页搜索,网站导航等功能,可以很容易地集成到任何应用程序中,比如作为别的网站上的导航部件。 五、什么类型的公司是Hume的潜在客户
真正关心用户体验的行业,需要和客户建立情感链接的行业。如健康保健、金融服务(需要客户的信任)。 六、如何定义AGI,共情AI是达到AGI的重要因素吗?
Cowen将AGI定义为可以基本上完成各种人类可以做的任务的AI。 这不一定是好事,比如一个人告诉AI代理人想要得到更多的钱,结果AI代理人去借贷了很多钱。AI代理人要和本人的幸福感保持一致,这是AI共情能力在AGI上的意义。 Spotify的总裁之一古斯塔夫·所德斯特伦认为只要有足够的数据,AI就会通过学习产生“同理心”。Cowen持相似观点,并且进一步认为文字之外的内容(如语音、语调、节奏、表情、动作等)同样有助于AI“同理心”的训练。
七、Hume的未来计划
Hume将会在下一或两个月内推出API供开发人员使用。