毫无疑问,数据为当今使用的最先进应用程序提供动力的重要性,尤其是人工智能和机器学习应用程序,它们如此依赖于高质量的相关数据。实际上,最佳实践 AI 方法论的基础,尤其是CPMAI方法论,需要了解 AI 项目的必要数据并准备使用该数据的基础。
LexisNexis Legal & Profe 分享他的见解,强调数据在人工智能和高 ssional 首席数据官 Rick McFarland 在即将于8月5日举行的人工智能虚拟活动中级分析系统中的作用。在接受福布斯采访时,他分享了一些关于数据在其组织中的 AI 项目所扮演角色的观点。
问:您有哪些利用高级数据分析使 LexisNexis 受益的创新方式?
Rick McFarland:作为 LexisNexis Legal & Professional 的首席数据官,我认为我们利用高级数据分析的创新和重要方式之一是提高数据的利用率和质量。例如,我们的大部分数据都是基于文本的(例如法律摘要、诉状、动议、判例法、案卷和其他文件)。在原始状态下处理此类文本数据具有挑战性、复杂性和细微差别。这就是为什么许多数据科学家和分析师避开它的原因。但是,通过使用高级 NLP 方法(如BERT)将这些数据转换为嵌入向量,我们创建了一个全新的数据资产,整个组织的数据科学家和分析师可以利用它来为我们的产品创建模型和功能。将嵌入向量转换视为将文本数据转换为数值数据。例如,每个单词和句子都可以用一个数值向量表示;想想电子表格中的一行数字。这些数值向量在数学上更容易使用,可用于开发分类模型、实体提取模型、问答——不胜枚举。
问:您如何确定数据分析和认知技术项目从哪些问题领域开始?
里克·麦克法兰: 在我们工作的专业级人工智能领域,即法律和医学领域,我们面临着消费级人工智能开发人员不一定面临的独特挑战。在我们的空间中,开发人员和客户之间的教育距离很远。例如,一位律师(我们的客户)已经上学多年,包括研究生工作,以学习一项非常高级和特定的技能,有人会争辩说,甚至掌握了一门新语言(如果您曾经阅读过法律文件,你知道我在说什么!)同样,数据科学家也花了很长时间磨练他们的技能,通常拥有计算机科学博士学位,并且还学习了一两种编程语言。由于这两个职业处于教育范围的不同末端,因此两者之间的沟通和业务理解往往很困难。因为这,LN 的数据科学和开发团队与我们的产品团队密切合作。我们的产品团队,其中一些是律师,与我们的客户保持密切联系,并进行频繁的调查和焦点小组来了解他们的需求。他们还是与开发人员和数据科学家合作的专家。这三个工作类别(产品、开发人员和数据科学家/分析师组成了我们的标准团队。我们依靠这种密切联系让我们始终掌握客户的主要问题领域。开发人员和数据科学家/分析师组成了我们的标准团队。我们依靠这种密切的联系,让我们始终掌握客户的主要问题领域。开发人员和数据科学家/分析师组成了我们的标准团队。我们依靠这种密切的联系,让我们始终掌握客户的主要问题领域。
问:在数据和人工智能方面,您有哪些独特的机会?
Rick McFarland:人工智能的好坏取决于用于训练和馈送它的数据。LexisNexis 拥有世界上最大的法律数据存储库之一。但是,正如任何数据科学家会告诉你的那样,拥有原始数据是成功的一半。我们数据的特别之处在于,自从计算机发明以来,我们已经有数千名律师在这个庞大的语料库上进行丰富、总结、识别实体、映射引文等工作。因此,我们也有数据科学家的另一半要求:我们有 PB 级的训练数据。我们拥有用于人工智能开发的所有原材料。我们的数据科学家拥有几乎无限的机会来创建 AI 产品和功能。我们几乎可以在几周内将任何“AI 想法”从概念变为 POC!
问:在 AI 和 ML 采用方面,您能否分享一些挑战?
Rick McFarland:在专业领域(例如,法律、医学和科学),人工智能和机器学习的门槛非常高,因此采用率远低于消费市场。在这些涉及人们生命或自由的职业中,犯错的代价会产生重大后果。对于这些专业人士来说,依赖人工智能应用程序意味着它必须表现良好并且必须始终如一地准确。如果回答错误,就会破坏对该工具的信任——恢复时间很长,甚至可能不可能。对于 LexisNexis 向专业市场发布任何人工智能,它必须达到这个高标准。
我们在专业级领域做了一些独特的事情,而消费级技术提供商可能不会这样做。大多数 AI 开发人员都熟悉用于评估模型质量的“holdout”样本方法——holdout 数据是从训练数据中随机选择的,对开发人员隐藏,不作为训练过程的一部分,用于评估模型质量最终模型。在专业级流程中,我们还维护另一个保留数据集,我们将其称为白金数据。在我们的问答过程中,这是一组当前模型正确回答的问题。事实上,这些答案被我们的中小企业和客户评为“最佳”。对于我们发布的每个新模型,我们都会重新检查系统生成的关于白金问题的答案。如果提供的答案不同(或更糟),我们不会将模型投入生产。您可能会猜到,随着每个新版本的发布,此白金数据都会增长。我们不仅提供正确的答案——我们还确保提供一致性,这在法律行业非常重要,因为法庭案件有时会持续数月甚至数年。
问:分析、自动化和人工智能在 LexisNexis 中如何协同工作?
Rick McFarland:在 LexisNexis,这三个功能如何运作的可视化可以用三向维恩图来表示。在某些情况下,分析可以独立应用,也可以与 AI 结合使用,或者与自动化结合使用,或者两者结合使用。这三者中的每一个都是如此。我们有团队负责人负责管理这些职能,每个人都在自己的领域拥有深厚的技能,而且他们还经常在项目上合作。例如,自动化团队与 AI 团队合作为我们的客户支持团队开发聊天机器人以帮助减少对人工支持的需求并不少见。同样,分析团队将与人工智能团队合作开发一个交叉销售模型,然后可以将其部署在分析仪表板上,以帮助提出建议以支持我们的销售团队。
问:您如何解决有关数据使用的隐私、信任和安全问题?
Rick McFarland:我们的大部分数据都来自公开来源(即判例法、案卷等),我们利用了 50,000 多个来源。此外,我们将其数字化和标准化,使其易于阅读和搜索。律师使用这些数据为他们的客户服务,我们认为我们的角色是使法律易于理解和阅读。这支持了我们通过推进法治使世界变得更加公正的全球愿景。
问:你正在做什么来培养数据素养和人工智能就绪的劳动力?
Rick McFarland:我们在 LexisNexis 尤其引以为豪的一件事是我们的高级技术课程。当我们开始聘请数据科学家时,我们很早就了解到,大多数数据科学家都在消费级 AI 开发方面受过良好培训。这就是学校和培训课程中教授的内容,因为那里有大量数据和示例。今天哪个数据科学家没有根据 Twitter 数据制作至少一个模型?因此,我们创建了 ATC 作为数据科学家的“研究生学校”,以学习如何开发专业级的人工智能。
与大多数大学一样,该课程有一个课程大纲,级别从 100 级到 400 级不等。我们的 100 级课程可供所有人使用,我们将这些课程重点放在对 AI 开发至关重要的平台和工具上。我们有 AWS 和 Azure 培训,因为我们了解到大多数数据科学家在如何使用这些核心平台方面拥有不同的知识,我们需要我们的员工在了解我们设定的专业级要求的同时学习如何使用这些平台。客户。我们的 200 级课程专注于特定领域和核心语言,如 Python。我们的 300 级课程旨在专注于人工智能方法。由于我们主要处理法律和文本(非结构化)数据,因此我们提供文本处理、机器学习、自然语言处理(NLP)、和上下文嵌入(例如,BERT)。我们的 400 级课程汇集了所有内容,并专注于应用这些高级 AI 构建块来开发 AI 功能和产品。因此,例如,这些课程教授如何构建专业级聊天机器人、推荐系统、学习排名模型等。一旦我们的内部学生完成高级技术课程教育,他们将获得 LexisNexis 专业级数据科学认证并正在开发下一个法律 AI 工具。
Q:未来几年你最期待哪些人工智能技术?
Rick McFarland:我真正期待的是真正的星际迷航式“语音智能”,它可以回答我们提出的任何问题。它将理解口语和习语。它将轻松地从回答一般的日常问题转变为回答复杂的科学和专业问题。它还可以理解问题的上下文——它能够区分我是在谈论 Coach “人”还是 Coach “品牌”。当这个语音智能根据我的问题和上下文预测(甚至预测)我的最终目标是什么,并为我提供一些我可能没有要求帮助我实现目标的额外信息时,真正的飞跃就会到来。那将是真正令人兴奋的。
原文链接:
领取专属 10元无门槛券
私享最新 技术干货