说到人工智能、深度学习,大家总会第一时间想到算法和模型,再然后就是最根本的、提供动力源的数据。由于人工智能技术的飞速进步与广泛应用,我们对待数据的方式已从收集为主转变为以获取信息为主。
关于数据,有一句很拗口的话,你不知道什么是你不知道的。有个很好的例子:“垃圾 DNA”。这一术语是 20 世纪 70 年代某遗传学家发明的,用来表示基因组中 95%—98% 的不编译任何蛋白质或酶的 DNA。当时的生物学家认为,既然几乎所有具体的生理机能都要蛋白质来完成,那么不编码蛋白质的 DNA 应该是没有用的,可以称为 “垃圾 DNA”。到本世纪初,人们发现一些垃圾 DNA 其实调控着染色体的复制方式和时间。
我们知道,一些天气预报中心每天都会保存所有收集到的数据,包括其预报模型的输出。当这些网站有一个新的预测模型时,他们通过新的模型运行旧的数据,查看模型的输出和观察,看看新模型是否比旧模型更好,以及有多好。对于一个城市来说,这个工作似乎很容易,但对整个地球来说,是大量的数据和信息比较。
由数据收集向信息挖掘的转变
信息时代始于 1890 年美国人口普查时何勒内斯打孔卡片的使用,尽管它们是空白的,但与你见过的格式化卡片不同。这里的关键问题是,在 1890 年以前虽然有大量的数据,但并没有工具来进行分析,而且将其转化为信息的成本很高。
到了今天,我们已经不再把 1890 年人口普查数据的表格化称为信息。信息的定义——与数据相比——应该基于当代的标准,同样的,许多其他领域中的某些定义也在发生变革。
许多需求基于你所拥有的信息和数据类型。例如,一些可能涉及使用所谓 DAR(Data Encryption at Rest,空闲时数据加密),它会对存储设备进行加密,这样如果从系统中删除,数据几乎是完全不可能访问的。(其困难程度取决于加密算法和大小、复杂性等)。我们可以将这种类型的需求归纳为 “可操作性需求”,即数据在发挥价值的整个过程中会对架构、设备等产生的硬性需求,以确保满足业务运行所需的性能、可用性和数据完整性,为保持数据和信息的活性,所有这些问题都需要得到解决。
最后的想法
笔者认为,在定义合规性需求时,你应该着眼于未来,而不是只看现在,因为事后硬塞东西的成本和挑战会更多。这意味着,我们需要不断地研究行业中的合规性需求,以及最佳实践。数据在未来只会变得更加重要,我们始终会面对挑战,何不先定好应对方案。
领取专属 10元无门槛券
私享最新 技术干货