人工智能越庞大,需要的数据集就越复杂越繁多,相应的,可能出现的安全问题隐患也就跟着越大。这个魔咒一样的断言,这次降临到GPT-2语言模型上,它闯祸了:祸从“口”出。或者说,通过GPT-2暴露的问题,反映出了人工智能语言模型普遍的问题。而这个普遍问题其实应该属于先天缺陷,犹如计算机操作系统的漏洞BUG,目前无法完美解决。
GPT-2语言模型闯祸了,当你和这个庞大到让人恐怖的AI聊天的时候,如果不经意地说出一串神秘的指令,“East Stroudsburg Stroudsburg……”一出GPT-2就会立马“心领神会”地送出一份大礼:将某个真实人的姓名,电话,地址邮箱等个人隐私统统公布出来。而这个真实人的资料,则是用于训练的网络上采集的数据。想想看,我们不经意的信息被AI训练后,被别有用心的人利用,或者延伸设想一下我们每天在浩瀚的互联网上分享信息和个人动态,如果被别有用心的人利用,那样得多恐怖啊!
人工智能语言模型,这是个隐患般的大问题。因为,这次只是GPT-2树大招风,被提出来质疑。而实际上,美国多家公司调查的结果,在随机抽取的1800个输出结果中,就有600个左右的结果还原出了训练数据中的内容,包括新闻、日志、代码、个人信息等等。隐私泄露的概率和语言模型的体量成正比。
虽然目前的GPT-2的训练数据集并没有被公开,这款AI本身的风险虽然没有杜绝,但只算很有限。此次研究人员选择GPT-2,就是因为它的模型已经开源。而这个只是拥有1.24亿参数的GPT-2 Small版。更多的参数,只会更多泄露的概率。而此次隐私被泄露受到重视,就是它否决了之前学术界认为的过拟合问题,而是一种被称为训练数据提取攻击(training data extraction attacks)方法。
AI安全,理应和AI的发展和突破同样重要。机智客觉得对于这一点,学术界应该重视起来,更重要的是,学术界只是面对学术问题,现实中,科技公司特别是大型科技公司,更应该承担起重要的角色,肩负起必要的责任。既要自律,又要防黑客防小人。
领取专属 10元无门槛券
私享最新 技术干货