Loading [MathJax]/jax/output/CommonHTML/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >网络新纪元

网络新纪元

作者头像
腾讯研究院
发布于 2018-01-19 09:17:52
发布于 2018-01-19 09:17:52
5770
举报

推荐人:熊伟 专栏作者、分析师、中国计算机学会YOCSEF学术委员
推荐人:熊伟 专栏作者、分析师、中国计算机学会YOCSEF学术委员

推荐语:

有个段子说,做互联网的人谈论大数据,就像青少年谈论性——人人都在兴奋地说,人人都不知道怎么做。看了这篇文章,您还是不知道怎么做(对,是说做大数据),但会知道为什么要做。所谓大数据,就是信息载体多样、格式各异的尚未结构化的数据。当大数据被结构化之后,就能够织入蒂姆 伯纳斯 李所说的“数据的网”。

数据的价值体现在彼此的关联上,对数据应用方法的开发,也大体通过分析数据关联的途径展开。比IT业的人更喜欢使用关联数据的是编剧们。昏暗的房间里,唯一的光源是照亮键盘的如绿豆般大小的灯,黑客运指如飞,交叉比对,惊天秘密猛然显现……看看这篇文章,就明白数据能以怎样的规模关联起来。

互联网发展到今天,用户已经成为主角,我们不必等待电影里的黑客,或现实中的技术高手,自己就能改变数据的世界地图。蒂姆 伯纳斯 李举了一个例子,演示上网者如何为比特空间增添内容,又是通过怎样的信息分享方式合作的。

本文作者在1989年发明了万维网(WWW),他先竖立了万维网的两大支柱:HTML和URL。设计HTML和URL,无非是让信息标准化和可访问。作者说,其初衷来自面对大量不兼容数据的“挫败感”。这件事情令人感叹——把一个简洁的想法付诸实现,在短短二十多年间,产生了怎么形容都不过分的巨大影响。

文章内容

网络新纪元

文/Tim Berners-Lee 译/Zheng Xiao

光阴似箭,差不多是20年前,当我想重新构造人们使用信息以及协同工作方式的时候——我发明了万维网。20年过去了,现在,我请求你们帮助创建新的架构。

回到1989年,我在备忘录中建议使用一种全球的超链接系统,但几乎没有什么人在真正用它。18个月后,革新就是这么开始的。老板说,我可以拿我们新买来的电脑兼职做这件事——做一种游戏性质的项目。我草拟了下HTML应该是什么样子,超文本协议——HTTP——关于URLs的想法——事物的名称——这些事物都是以HTTP开头命名的。我完成了代码并发布出来。

为什么要这么做?我在研究所的工作是一个充满挫败感的过程——因为工作在令人兴奋的超大的实验室中,很多人从世界各地来到这里,他们的电脑各不相同,数据格式各不相同,文件系统各不相同。这其中有很大的差异性。如果我想建立一点点东西,需要从这些差异性巨大的电脑上找一些数据,就必须连接到新的机器,运行新的程序。令人沮丧的是,这些都是不兼容的。而挫败感却正显示出这个项目的潜力所在。

事实上,这些磁盘里全是文件。所以如果仅仅把它们想象成天空中某些大型虚拟文件系统的一部分,比如Internet,生活就会简单得多。一旦有了这样的想法,你会感到非常兴奋。即使老板并没有读到我的备忘录,事实上他读到了,因为他在草稿中用铅笔写到“模糊,但是令人兴奋”。

当TED的演讲最初举办的时候,那时没有网络,所以像“点击”这样的词语在当时的含义是不同的。我可以展示一大堆超链接,点击一个链接,然后就会转到另一个超链接的页面,可那时候没有人对此感兴趣。困难在于帮助人们想象一个联网的未来——想象那个链接可以到任何实际能想象得到的文件。然而一些人做到了。尽管很难解释,但是这是一场草根运动。不是技术,不是人们用它所做的东西,而是实际的交流,所有这些人的思想汇聚。这是当时的情况。

有趣的是,现在的情况又变得跟20年前有点类似了。每一个人或多或少都发布过文档。这已经是一场疾风,不是吗?因为我们发现,由于网络而出现的新可能。现在它的功能比我们想象的还多。

互联网最初的设计只是想把文档放在一起而已。现在,我想把数据放在网上,因为互联网还是有巨大的潜力。但我仍然有很大的挫败感,因为从网上得到的数据不是我们想要的数据。

文档和数据之间有什么区别?文档是人们阅读的东西,但你却可以通过一台电脑使用各种数据。谁听过汉斯·罗斯林的TED演讲?那是一个很伟大的TED演讲。汉斯在他的演示文档中,使用不同的颜色表示不同的国家。他在一个轴上显示收入水平,同时用动画按年份显示婴儿死亡率,他使用数据完成了一场演讲,这个演讲改变了许多人关于发展中国家经济发展的认识。他展示了一张幻灯片:

在右图可以看到,数据都被埋在地下。数据是这些棕色的、无趣的四方盒子——我们就是这样看待数据的。对于数据,假如单独地看是没有意义的。但事实上,数据却在很大程度上驱动了我们的生活。假如有人拿到数据,并加以处理,数据就显现出其力量。汉斯在联合国的网站上找到了各种数据,将数据放到了一起组合起来使之比原始数据有趣得多。然后把数据放到软件中,最终他做出了美妙的演示。

不仅仅是两组数据间的连接,或者像他所说的那样六组数据,而是这个世界上任何人,把数据甚至一切物件都放到网络上。我将此称作关联数据。如果你想把东西放上网络,有三条规则:第一条规则是,需要有HTTP的名字。所有概念化的东西现在都以HTTP开头命名。第二条规则,如果我有一个HTTP名称,我可以从网上获取数据。通过HTTP协议,我将得到一些标准的格式化数据。这些有用数据或许是关于人们希望了解的某个事物或者事件的主人公、关于这个人的所有信息等等。所以,第二条规则就是我通过HTTP获得了重要的数据。

第三条规则是,我得到的信息,不仅仅是某人的身高、体重和出生日期,还有数据间的联系。这个人出生在柏林,柏林在德国。当数据有联系时,无论何时它表现出这种联系,另一件与之有联系的事物就必须以HTTP开头命名。所以,我可以直接去找那件事。比如,我查一个人——他出生的城市,这个城市的所在区域,城市乡镇人口等等,这样我就能浏览这些信息。这就是关联数据。

关联数据的想法就像我们得到了很多类似汉斯拥有的盒子。大量事物开始发芽生长,它带给我们相当多的植物。不仅仅是一个根供给一个植物。对于这样的每一个植物,无论它是一个演示,或一个分析,只要有人要寻找数据间的规律,他们都可以着眼于所有的数据。重要的是,关联起来的东西越多,数据就越有价值。来自柏林自由大学的克里斯拜泽,注意到维基百科里面有很多有趣的文档。在这些文档中,有些小方格子和小盒子,里面包含的就是数据。他写了一个程序将数据从维基百科中提取出来,然后将它们放到关联数据的一个圈里,命名为dbpedia。如果你去找柏林,你会发现还有其他的数据,当中也包含了与柏林相关的信息,它们被联系到了一起。所以,如果你要从dbpedia中摘出关于柏林的数据,还会摘出其他内容。让人兴奋的是,这样的事情正在迅速发展。

说到数据,我能说出各种各样的数据:有政府数据、企业数据、科学数据、个人数据、天气数据、关于事件的数据、关于谈话的数据,还有新闻和各种类似的东西。由数据的多样性便可以看到潜藏在数据底下的无限可能。

奥巴马说,政府数据将以一种可访问的方式发布到网络上。我希望这会是以关联数据的形式出现。想想有多少关系到在美国如何生活的数据,它的确很有价值。在公司里,我可以用得到,我的小孩做功课也能用得到。所以,公开这些数据会使世界变得更美好。

事实上,政府却将这些数据封闭起来。汉斯说,政府部门喜欢抱住他们的数据不放,直到他们建立了一个漂亮的网站。我想建议的是,在建网站之前,请先把未经处理的数据摆出来。我们要的是数据,最原始的数据。

熟悉这个名词是很重要的。人们会想出各种各样的理由,拒绝将原始数据公开出来,哪怕你作为一个纳税人已经为此付了钱。这不仅仅存在于美国,全世界都一样,也不仅仅在政府,当然也存在于企业。

在TED,我们一直关注于人类社会目前所面临的巨大问题,比如治疗癌症,了解老年痴呆症发病机理,了解经济运行规律,理解事物发展变化的规律。那些致力于解决这些问题的科学家,他们脑海中有些还不成熟的想法,他们试图在网络上与他人交流,但是现状是人类的很多知识,都被关在私人的数据库里,没有公开出来。

如果你是研究老年痴呆症的科学家,以药物发现为例——这个领域具有相当多刚刚出现的关联数据。因为这个领域的科学家们意识到,关联数据可以帮助他们摆脱数据孤岛。他们在一个数据库中建立了基因图组,在另一个数据库中建立蛋白质数据。

现在将基因图组和蛋白质数据形成了关联数据。他们可以问排序的问题:哪些蛋白质参与信号转导,并且也和锥体神经元相关?将这个问题放到Google上搜索,自然没有回答结果的页面。因为之前没有人问过这样的问题。虽然你得到了223,000个结果,但是没有一个用得上。假如去检索关联数据呢?命中32个结果,每一个结果都是与特征相关的蛋白质。关联数据赋予科学家这样一种可能,去探寻这些跨学科的问题的答案。这是彻底的改变。

假如你认为关联数据只是大机构的事情,那就错了。事实上,数据关乎我们的生活,比方说,你登录最喜欢的SNS网站,看到了你的朋友,点击添加。这是联系,这就是数据!你在社会化网络上做每一件事,社会化网络站点就获取数据并利用它,通过算法使得数据显现出其价值,使得用户体验变得更加丰富。

但是,当去到另一个关联数据网站,假设是一个旅游网站,你说“我想把这张照片发给我在另外一个SNS网站的朋友”,但你却无法翻过这些墙。

要改变这一现状,我们需要在这些社交网络之间,搭建关联数据的网络。在我来这之前,我通过OpenStreetMap——OpenStreetMap是一个地图,但同样也是一个维基——查找了一下特伦斯剧场(位于长滩市,加利福尼亚)。它现在还没有被标上名字。所以我可以在编辑模式,选择剧场,然后在底下填上名字,然后保存。现在再去访问OpenStreetMap.org,你找到这个地方,就会发现它现在有名字了。这都是我刚刚在地图上标的。

如果除了我,每个人都在这个地图上标注一点,将会产生难以置信的资源。每个人都做一点,生成一点内容,然后把它们连接起来,关联数据的秘密就在于此。数据来源之多寡并不是那么重要,更重要的是,将它们关联起来。

现在我们处在一个阶段,这个阶段呼唤我们采取行动,所有认为这是个伟大想法的人们,甚至是所有人都应该行动起来。这不是当日投资当日有回报的事情。只有当每个人都这么做,我们才会从中得益。

节选自《关联数据开启互联网新纪元》

www.tedtochina.com

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2014/08/12 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
Nat Biotechnol|David Baker等:蛋白质AI设计的进展
深度学习在蛋白质结构预测和蛋白质设计方面的应用日益增多,设计出的蛋白质已进入临床试验阶段,甚至获得了美国FDA的批准。机器学习在加速设计过程、减少实现功能性蛋白质所需的实验测试变体数量方面有着巨大的潜力。随着几种生成方法的到位,该领域正朝着利用这些方法、开发设计型蛋白质的方向发展,应用领域涵盖材料科学、治疗和诊断,以及将蛋白质与电子电路集成。
智药邦
2024/03/06
2580
Nat Biotechnol|David Baker等:蛋白质AI设计的进展
Tim Berners-Lee:网络的自由和开放
image.png 演讲摘要 Tim Berners-Lee:网络的自由和开放 网络重要的原因,同时网络能够发挥作用的原因,网络能够成功的原因,就是它的开放性。这个属性对任何事物都是适用的,对任何设备都是适用的,并且在所有环境中都是适用的,它能让任意两个人进行相互沟通。 很多人都听说过HTML5,这是网页使用的技术。当然开放网络平台中还有可缩放矢量图形SVG、CSS级联样式、JavaScript编程语言。大家思考一下这三种技术,其中比较特别的是JavaScript。因为HTML5、SVG和CS
腾讯研究院
2018/01/22
8720
Tim Berners-Lee:网络的自由和开放
5️⃣ 蛋白质序列基本和特征信息分析(1) :蛋白质序列基本信息分析(氨基酸组成,理化性质,亲疏水等)
蛋白质是生命功能的执行者,一切生命活动都与蛋白质有关。 我们知道,蛋白质结构分为一级结构和空间结构,而空间结构包含二级三级和四级结构,空间结构是蛋白质功能的关键。而一级结构又决定空间结构,也就是说空间结构的信息蕴藏在一级结构中。 一级结构指的是蛋白质中氨基酸的排列顺序,和DNA一级结构一致。 也就是说蛋白质发挥什么功能,基本在一级结构中就确定了。
Y大宽
2019/03/05
15.9K0
数据!数据!所有人都冲着AI狂热,所有人都高呼大数据,只有这位老头,真正穷其一生冲破数据的藩篱
从网络时代,到如今的AI时代,数据的价值涨了百倍。 可在算法日渐丰富、机器性能日渐强大的当下,正是数据的稀缺,让AI与各个产业的连接变得困难,梦想用AI改变各行各业,大幅提升社会效能的愿望,远远跟不上现实的骨感。 在这个时代,我们期待有更多的人,能大声疾呼,并积极行动,为数据开放做出努力,也让AI更快地走进我们的生活。 数据之于AI,正如电力之于工业社会。 网络的出现,让人们的行踪开始更多被数字化,于是,数据成了窥见人们习惯,分析行为方式最直接的燃料。 数据,原本就属于互联网的共享产物,开始变得越来越
AI科技大本营
2018/04/27
6580
数据!数据!所有人都冲着AI狂热,所有人都高呼大数据,只有这位老头,真正穷其一生冲破数据的藩篱
像《黑客帝国》Neo一样看世界,DNA穿孔而过,1000美元+USB解码遗传
还记得电影《黑客帝国》中,当 Neo 释放他的全部力量时,周围的世界以各个方向运行的代码行显示的场景吗?如果你能够以这种方式观察周围的世界,则坐在你旁边的人显示为一个网页,你可以单击右键以检查元素和找到隐藏的源代码。
机器之心
2022/02/21
2740
像《黑客帝国》Neo一样看世界,DNA穿孔而过,1000美元+USB解码遗传
图神经网络(GNN)的前沿应用!
大家好,我是花哥,之前介绍了图神经网络(GNN)的数学原理,本文介绍图神经网络的发展及应用进展。
算法进阶
2024/02/17
1.2K0
图神经网络(GNN)的前沿应用!
如果有一天技术成熟了,你愿意吃一口自己的肉么
大数据文摘转载自品玩 作者|玄宁 牛肉下锅,肉碰到热油的瞬间,滋啦啦的响声就来了。接下来是弥漫的香气。 人人都爱香喷喷的牛肉,最好是那些出身名门的牛:神户牛肉、澳洲牛排、佛罗伦萨T骨牛肉,吃一口恨不得听到山谷的风声,闻到草原的香气。 擦完嘴没人会无聊到探索这美味的终极来源。扫兴的事自然归科学家来做。 滋啦啦的响声是因为肉汁里的水分子在高温热油里极速气化,体积极具膨胀而爆炸。而“肉香”来自被高温物理破坏了的肌肉纤维,肌肉细胞释放出了各种风味物质,在生肉的基本味道(flavor)之外,加热过程中通过各种反应产
大数据文摘
2023/04/10
1750
如果有一天技术成熟了,你愿意吃一口自己的肉么
图卷积网络 (GCN) 的高层解释
图的独特功能可以捕获数据之间的结构关系,从而比孤立地分析数据可以获得更多的洞察力。图是最通用的数据结构之一。它们自然出现在许多应用领域,从社会分析、生物信息学到计算机视觉。
deephub
2021/07/27
1K0
中文实录全网首发!黄仁勋集齐Transformer论文七大作者,对话一小时,干货满满
2017年,一篇具有里程碑意义的论文——《Attention is All You Need》横空出世,它首次引入了基于自注意力机制的Transformer模型,这一创新架构摆脱了传统的RNN和CNN的束缚,通过并行处理的注意力机制,有效克服了长距离依赖的难题,并显著提升了序列数据处理的速度。Transformer的编码器-解码器结构和多头注意力机制在人工智能领域掀起了一场风暴,大热的ChatGPT正是基于这一架构构建的。
小腾资讯君
2024/03/21
2650
BIB | 基于图卷积网络和深度神经网络的药物靶点相互作用识别
今天为大家介绍的是哈尔滨工业大学计算机科学与技术学院臧天仪教授等人发表在Briefings in Bioinformatics上的文章“Identifying drug–target interactions based ongraph convolutional network and deep neural network”。识别新的药物靶点相互作用(DTIs)是药物发现中一个重要但耗时且昂贵的步骤。然而,现有的方法大多是分别构建药物网络和靶点网络,然后根据已知的药物和靶点之间的关联来预测新的DTI,而没有考虑药物-蛋白质对之间的关联(DPP)。为了将DPP纳入到DTI建模中,本文构建了一个基于多种药物和蛋白质的DPP网络,以DPP为节点,DPP之间的关联为网络的边缘。然后,提出了一个新的基于深度学习的框架:图卷积网络DTI预测框架(GCN-DTI)用于新的药物-靶点相互作用识别。
智能生信
2021/05/17
1.8K0
BIB | 基于图卷积网络和深度神经网络的药物靶点相互作用识别
DeepMind攻破生物学领域50年难题:蛋白质结构预测准确性可达92.4分
导语:蛋白质的形状与其功能密切相关,能够预测这种结构可使人们更好地了解它的功能和工作原理,从而突破世界上许多强有力的挑战,如开发疾病治疗方法或寻找分解工业废物的酶等。因此在过去50年里,“蛋白质折叠问题”一直是生物学界的一个挑战。近日,谷歌旗下人工智能技术公司 DeepMind 提出深度学习算法「Alphafold」,破解了这一难题。
AI科技大本营
2020/12/08
7670
DeepMind攻破生物学领域50年难题:蛋白质结构预测准确性可达92.4分
改变科学的10个计算机代码
2019年,事件视界望远镜让世界第一次看到了黑洞的实际样子。但是,公布的图像并不是传统意义上的照片,而是通过数学“处理”之后的。处理的数据是射电望远镜在美国、墨西哥、智利、西班牙和南极等地区获得相关信息。数据处理团队也开源了相关的编程代码,并发表了相关文章。因此,科学界也可以在此基础上进一步深度探索。
Power7089
2021/03/25
5210
改变科学的10个计算机代码
19位行业领袖,共话医疗AI的技术革命与长期主义|GAIR 2021 医疗科技高峰论坛
在健康中国2030战略规划下,从历史节点中找寻机遇,探寻医疗与科技的结合点,这是未来十年的时代命题。 作者 | 刘海涛 编辑 | 李雨晨 人类健康的道路上,医疗和医药,是亘古不变的济世良方。随着健康中国战略和《健康中国2030》的落实,大健康产业将引领我国新一轮经济发展浪潮。 前沿领域创新,则是带动这股浪潮的核心力量。 如何从历史节点中找寻机遇,探寻医疗与科技的结合点,并在合适的时点实现商业化落地? 在今年的医疗科技高峰论坛上,19位医、产、研、投的行业领袖,分别从医学影像AI、AI制药两大赛道出发,为行业
AI科技评论
2023/04/12
4030
19位行业领袖,共话医疗AI的技术革命与长期主义|GAIR 2021 医疗科技高峰论坛
HTML & CSS 系列--第一篇:概述
HTML 和 CSS 是两门语言。 语言是什么呢?语言是沟通的工具 人与人之间沟通的语言:自然语言 人与计算机之间沟通的语言:计算机语言。可以理解为,人通过计算机语言与计算机进行“沟通”,并通过一些指令或者任务,让计算机完成人想要计算机完成的事情。 HTML: Hyper Text Markup Language 超文本标记语言。可以简单的理解为:定义网页中有什么 CSS: Cascading Style Sheets 层叠样式表。可以简单的理解为:定义网页中的东西长什么样子 目前,可以广义的理解为:HTML + CSS + JavaScript = 网页。即 HTML,CSS,JavaScript是开发网页的三大基础语言。
qishilong
2023/02/07
8710
巨大冲击!AlphaFold2再登Nature,从业者都懵了:人类98.5%的蛋白质,全都被预测了一遍
梦晨 边策 明敏 发自 凹非寺 量子位 报道 | 公众号 QbitAI 98.5%的人类蛋白质结构被AlphaFold2预测出来了! 而且还做成了数据集,全部免费开放! 在开源AlphaFold2仅一周后,DeepMind震撼发布AlphaFold数据集,再次引爆科研圈! 数据集中预测的所有氨基酸残基中,有58%达到可信水平,其中更有35.7%达到高置信度。 而在这之前科学家们数十年的努力,只覆盖了人类蛋白质序列中17%的氨基酸残基。 除了人类蛋白质组,数据集中还包括大肠杆菌、果蝇、小鼠等20个具有科研常
量子位
2023/03/10
4230
巨大冲击!AlphaFold2再登Nature,从业者都懵了:人类98.5%的蛋白质,全都被预测了一遍
Nat Rev Drug Discov|AlphaFold对药物发现意味着什么?
2021年9月14日,Nature Reviews Drug Discovery杂志发表文章,多位专家探讨了AlphaFold对于药物发现的意义。
智药邦
2021/10/26
7260
Nat Rev Drug Discov|AlphaFold对药物发现意味着什么?
关联数据及其应用
http://blog.sciencenet.cn/blog-357889-578799.html
全栈程序员站长
2022/09/09
7290
GNN 模型在生物化学和医疗健康中的典型应用
例如,分子和化合物可以自然地表示为以原子为节点、以键为边的图。蛋白质相互作用(Protein-ProteinInteractions,PPI)记录了两个或多个蛋白质之间的物理联系, 这种联系可以很自然地用图的形式表示。
博文视点Broadview
2021/07/05
9330
语义网络,语义网,链接数据和知识图谱
对于初学者来讲,这个概念很容易和语义网(Semantic Web)相混淆。为了行文一致,除非特别说明,语义网络指Semantic Network,语义网指Semantic Web。
用户8870853
2021/07/27
2.3K0
图神经网络模型总结
在讨论GNN之前,我们先来了解一下什么是图。在计算机科学中,图是由顶点和边两部分组成的一种数据结构。图G可以通过顶点集合V和它包含的边E来进行描述。
opprash
2020/01/20
2.3K0
推荐阅读
相关推荐
Nat Biotechnol|David Baker等:蛋白质AI设计的进展
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档