在当今的法律体系中,法律条文的制定往往跟不上时代前进的脚步,落后的条文(或者判例)有时反而会成为新生事物的制约;部分领域的法律条文或者判例卷帙浩繁,即使是专业的法律人也得耗费数年的学习和实践才能慢慢掌握法条的场景和使用;而即便是这么多的法律条文也难以将现实发生的所有复杂情况一一枚举,因此根据案件的实际情况参考哪些法条和如何定罪与量刑是法官、律师、陪审团等法律程序参与者的任务。这种人工干预有巨大操作和斡旋空间,也就出现了各种州级法院和联邦法院判断不一致的情况—— 明明案件内容是明确的,法律条文是明确的,然而判断却是不清晰的。
这也引发了我几年前的一个脑洞:既然现实情况如此复杂,法律条文迭代缓慢且难以穷尽,为什么我们不能让机器代替我们去学习历史上那些庞大的案件判例和法条规则,然后对每一个新的法律案件或纠纷做一个定罪的多分类,这样产生的"机器判官",其判案准确率或许要比法官要准确的多。无论法官多么经验丰富,在面对一个新案件时,其援引的判例也是有限的,而一个训练好的模型或许能将历史上所有相关的案件都考虑进来。
我以为我有了一个好主意,兴冲冲地去网上搜索,才发现 AI 和法律领域的结合早在1987年就有人开始做了,而且他们几十年来不断尝试的领域和方法也是我未曾料想到的。然而,他们也经历了一个艰辛的过程。
说到 AI and Law (以下简称 AIL), 就不能不提 ICAIL (International Conference on Artificial Intelligence & Law),这是国际唯一一个关注于 AI and Law 领域的会议,自1987年第一举办以来已有31个年头。一部 ICAIL 的历史,其实就是整个 AIL 领域的发展史。
(随着时代变迁,ICAIL会议主题云图的变化,从中可以看出 expert system, knowledge base 等的淡出,图片来自《25 Years of AI & Law ICAIL 1987 - 2013》)
对法律条文、案件建模的尝试,早在上个世纪八十年代就开始了。那个时候就已经诞生了基于逻辑的形式化方法进行法律推理 (legal reasoning) 以及人工神经网络的数值方法。还有一些借着专家系统的东风, 通过一些 基于法律条文(rule-based),基于案例(case-based) 和 基于知识(knowledge base) 的手段帮助法律从业者进行辅助推断以及其他工作,这其中比较著名的案例是 HYPO, 一个基于案例的法律推理系统,它几乎引领了基于案例的法律推理潮流。
随着 AI 领域本身的发展,近年来基于专家系统的方法日趋势微,基于统计机器学习的方法则开始大行其道。 比如使用贝叶斯网络等图模型进行证据推理(evidential reasoning);在 E-Discovery 使用 SVM 等方法进行法律文档分类;以及与NLP的结合,如法律领域限定的命名实体识别 (NER), 信息抽取与信息检索等等;基于逻辑的形式化方法也并没有完全消散下去,而是继续在诸如计算法律(computational law) 等子领域贡献着光热。
目前围绕 AI and Law 的工作,从功能上大体上可以分成两类: 一类尝试直接对法律本身、案件、推断过程建模,涉及到诸如道义逻辑(Deontic Logic), 非单调逻辑(non-monotonic logic) 等传统基于逻辑的形式化方法,也有基于神经网络,贝叶斯网络等的统计学习方法;另一类则选择了绕行,既然前者困难重重,那么我们不妨退而求其次,利用专家系统、自然语言系统等手段, 通过法律文档化、文献文书检索、实体识别等方法来提高法律人的工作效率,让他们从繁重的重复性工作中解脱出来从而聚焦到更有意义的事情上去,这同样是一件有价值的工作。下面简单地从几个方向分别举例说明。
顾名思义,该领域主要研究法律推理的各种方法。从派系来分,可以分成基于法律规则的推理(rule based reasoning) 和基于案例的推理(case based reasoning)两派。如果说 基于法律规则的推理是将已有规则应用于案件进行推断的话,那么基于案例的推理更侧重于寻找已有比较类似的案件来进行归纳推理。从方法上来说,两者都曾经偏好使用基于逻辑的方法来进行形式化。相关逻辑理论的讨论也是领域焦点。比如考虑齐硕姆悖论(Chisholm paradox),即道义逻辑对法律形式化是否是真正可用的等等。近来基于案例的推理更加偏向主流,其原因可能是支撑基于规则推理的一些传统方法(比如专家系统, knowledge base)渐渐淡出视野,也可能是后者与统计学习的天然联系,毕竟基于案例的推理就是靠对以往大量判例的分析进行推断。
全称 Electronic Discovery。其目标在于为法律诉讼,政府调查等领域提供专门的信息化服务。与传统的纸质信息提供服务不同,E-Discovery 比较注重信息检索的“结构化”,也就是 metadata。比如一个信息条目的时间、地点、涉及领域,甚至事件的形式化描述等。这些信息可以大大优化相关人员的查找效率,节约成本。
由于 eDiscorvery 的本质就是从基于纯文本的文档中提取有价值的结构信息用于从业者的检索和查阅分析; 因此从解决方案上目前基本上与 NLP 联系较紧,比如之前提到的命名实体识别、自动生成文摘、情感分类等。通过这些方法,可以从法律文本中自动提取信息,自动化生成相关专业领域的文件,推动法律文档化等。
计算法律可以说几乎是与法律人工智能的最终态—— AI判官最为接近的领域了, 其目标是法律本身以及案件的形式化表达和自动推理。
The Computational Law project focusses on formalization of governmental regulations and enterprise policies, development of automated reasoning procedures for compliance checking, legal planning and regulatory analysis, and developing user-facing computer systems
该领域涉及到的方法暂时还主要偏形式化( Computational Logic ),分两部分:第一部分是事实和规则的形式化表达;第二部分是使用一些机械推理技术来分析案件自动产生推断结果。目前计算法律的发展暂时还没有成熟到可以完全使用的程度,原因是逻辑方法很多都是基于规则的,很难 case-by-case 地对复杂判例做去完全表达,这对于使用英美法系的国家来说尤为严重。
目前在 AIL 领域应用的最多的还是自然语言处理等相关技术。因为无论是对法律本身建模还是建立一些帮助法律从业者的辅助系统,都需要我们从现有的法律条文,案件描述卷宗等资料出发,将其信息化和结构化,这是必须的第一步,而解决该问题的方法还需从 NLP 入手。比如我们可以根据主题模型(Topic Model) 将案件通过涉及到不同的法律法规或者量刑的不同进行聚类;通过信息抽取来生成案件的结构化描述信息;通过自动文摘加快从业者浏览文件的效率;通过QA来建立法律领域的自动问答系统来尝试在线法院等等。这也与当下推动“智慧法院”,将法院数字化,自动化的主旨相符。下面举出几个例子。
EBravia 是一家致力于法律文档结构化的公司。它通过先端的机器学习技术,可以从非结构化的原始文本中提取里面蕴含的时间,地点,以及法律领域相关的关键词,短语,句子。大幅度节约法律工作者从文本里人工挖掘信息的时间。
(图片来自EBrevia官网的视频简介)
这家名为 Legal Robot 的公司则更侧重法律文档审校和合同文本分析。它推出的合同文本分析工具不仅能帮助相关工作者校对领域文法的错误;还能基于海量的合同样本数据,生成一些常用的领域短语和句子, 帮助人写出更加符合领域需要的法律文书。同时,对于已有的合同文书,它还能捕捉到里面表示模糊,给当事人带来隐性法务风险的词句,从而在风险管理领域发挥强大的作用。
(Legal Robot 样例, 图片来自https://www.legalrobot.com)
Luima, 即 Legal UIMA, 是一个由 IAAIL 及 CMU 等相关领域的研究员共同研发的法律检索系统。它专注在疫苗伤害事故相关的法律文本,对用户搜索的 query 给出包含对应法律条文或者类似案件信息的文档用于参考和对比分析。具体而言,Luima 系统整体上分成四个模块:法律语义标注,文档存储与索引,文档搜索,搜索结果排序。
(LUIMA,一个法律文档检索系统的 Pipeline,图片来自《Introducing LUIMA》)
对一个法律文档,Luima 会先将其拆成句子级的文本。对每个句子做 Term, Mention, Formulation 三个级别的标注,然后通过这三中标注将每个句子分为 LegalRuleSentence, EvidenceBasedFindingSentence 和 other 三个分类。对于该分类任务,Liuma 使用了句子的 n-gram TF-IDF 和上述的法律语义标注信息做特征,使用 朴素贝叶斯,逻辑回归,决策树等方法训练出一个分类模型。这样输入的原始文档就会转化成多个带有语义标注即句子级分类标签的句子集合,并存入数据库中。当用户执行查询操作的时候,Luima 会先通过 Lucence 引擎找出 Top-30 个文档结果作为预选的“专家文档”,然后对这30篇文档的 candidates 做二次重排进而筛选出更符合条件的搜索结果。进行二次重排是为了避免那些“仅仅文档的文本相似但是实际语义毫不相关”的情况。该过程综合考虑了之前产生的相关法律语义匹配情况以及文本相似度等多个特征,使用逻辑回归对文档排名进行打分,返回最终的文档结果给用户。
从 Luima 我们可以看到基于自然语言处理的技术(TF-IDF 等特征),机器学习模型(逻辑回归等)是如何与法律专业知识(领域级语义标注)结合起来并发挥作用的。
除了这三者之外,还有一些通过机器学习来做法律推理的方法,不过目前还是停留在 Paper 级别的居多,就不加赘述了。
当然,AIL 的发展也并非前景大好。有一些内部本身以及涉及到跨行业的矛盾仍未得到解决。
从笔者对法理学最浅薄的理解,一切法律都是依据所处国家,所处文化,道德导向等种种因素的基础上,对“自然法”——这一正义的基本和终极的原则的集合的诠释。而随着法律人工智能的进行,无论是逻辑还是模型,是否真的能体现法理学精神;是否能被传统法律从业者所接受;法律行业与人工智能领域这两个职业的最佳契合点到底在哪里,这些问题仍待解决。“人工智能能做哪些事,不能做哪些事,机器判官是否能为人所接受”;其包含的技术风险和伦理风险,可能不再是公众号和媒体的纸上谈兵。
法律不是数学规律,她不仅仅包含那一个个孤零零的发条。一些与现实紧密结合的法律过程和事实,比如陪审团,比如对抗式刑事审判,这些实际过程如何进行数学或者模型的抽象,都不是一个好解决的问题。
从 ICAIL 的历史可以看出, AIL 的发展,几乎是强依赖与AI本身的发展的。90年代前 knowledge base 以及专家系统是主流的时候,大量基于它们的论文也如同雨后春笋,而现在则门可罗雀,统计学习和 NLP 则甚嚣尘上。这不由得不令人怀疑 AIL 是否仅仅只是 AI 的一个附庸。 到底 AIL 能不能独立出一套与其他领域无关的方法论,然后将其他领域的方法接纳进来为我所用,也可能是一个今后需要解决的问题。
AIL 的理论在上个世纪得到了巨大发展,而具体的落地则刚刚开始。从“智慧法庭”和法律文档化的潮流上看,AIL 至少是一个到处都需要填坑的朝阳产业。但是计算法律的理论,AI判官是否还能继续前进下去,ICAIL 能否不再是一个两年一届的C类会而真正走向 AI 的大家庭之中,就看之后的发展了。
(Research - Practise Paradox, 图片来自:《25 Years of AI & Law ICAIL 1987 - 2013》)
本文分享自 ThoughtWorks洞见 微信公众号,前往查看
如有侵权,请联系 cloudcommunity@tencent.com 删除。
本文参与 腾讯云自媒体同步曝光计划 ,欢迎热爱写作的你一起参与!