Loading [MathJax]/jax/output/CommonHTML/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >网络新纪元

网络新纪元

作者头像
腾讯研究院
发布于 2018-01-19 09:17:52
发布于 2018-01-19 09:17:52
5770
举报

推荐人:熊伟 专栏作者、分析师、中国计算机学会YOCSEF学术委员
推荐人:熊伟 专栏作者、分析师、中国计算机学会YOCSEF学术委员

推荐语:

有个段子说,做互联网的人谈论大数据,就像青少年谈论性——人人都在兴奋地说,人人都不知道怎么做。看了这篇文章,您还是不知道怎么做(对,是说做大数据),但会知道为什么要做。所谓大数据,就是信息载体多样、格式各异的尚未结构化的数据。当大数据被结构化之后,就能够织入蒂姆 伯纳斯 李所说的“数据的网”。

数据的价值体现在彼此的关联上,对数据应用方法的开发,也大体通过分析数据关联的途径展开。比IT业的人更喜欢使用关联数据的是编剧们。昏暗的房间里,唯一的光源是照亮键盘的如绿豆般大小的灯,黑客运指如飞,交叉比对,惊天秘密猛然显现……看看这篇文章,就明白数据能以怎样的规模关联起来。

互联网发展到今天,用户已经成为主角,我们不必等待电影里的黑客,或现实中的技术高手,自己就能改变数据的世界地图。蒂姆 伯纳斯 李举了一个例子,演示上网者如何为比特空间增添内容,又是通过怎样的信息分享方式合作的。

本文作者在1989年发明了万维网(WWW),他先竖立了万维网的两大支柱:HTML和URL。设计HTML和URL,无非是让信息标准化和可访问。作者说,其初衷来自面对大量不兼容数据的“挫败感”。这件事情令人感叹——把一个简洁的想法付诸实现,在短短二十多年间,产生了怎么形容都不过分的巨大影响。

文章内容

网络新纪元

文/Tim Berners-Lee 译/Zheng Xiao

光阴似箭,差不多是20年前,当我想重新构造人们使用信息以及协同工作方式的时候——我发明了万维网。20年过去了,现在,我请求你们帮助创建新的架构。

回到1989年,我在备忘录中建议使用一种全球的超链接系统,但几乎没有什么人在真正用它。18个月后,革新就是这么开始的。老板说,我可以拿我们新买来的电脑兼职做这件事——做一种游戏性质的项目。我草拟了下HTML应该是什么样子,超文本协议——HTTP——关于URLs的想法——事物的名称——这些事物都是以HTTP开头命名的。我完成了代码并发布出来。

为什么要这么做?我在研究所的工作是一个充满挫败感的过程——因为工作在令人兴奋的超大的实验室中,很多人从世界各地来到这里,他们的电脑各不相同,数据格式各不相同,文件系统各不相同。这其中有很大的差异性。如果我想建立一点点东西,需要从这些差异性巨大的电脑上找一些数据,就必须连接到新的机器,运行新的程序。令人沮丧的是,这些都是不兼容的。而挫败感却正显示出这个项目的潜力所在。

事实上,这些磁盘里全是文件。所以如果仅仅把它们想象成天空中某些大型虚拟文件系统的一部分,比如Internet,生活就会简单得多。一旦有了这样的想法,你会感到非常兴奋。即使老板并没有读到我的备忘录,事实上他读到了,因为他在草稿中用铅笔写到“模糊,但是令人兴奋”。

当TED的演讲最初举办的时候,那时没有网络,所以像“点击”这样的词语在当时的含义是不同的。我可以展示一大堆超链接,点击一个链接,然后就会转到另一个超链接的页面,可那时候没有人对此感兴趣。困难在于帮助人们想象一个联网的未来——想象那个链接可以到任何实际能想象得到的文件。然而一些人做到了。尽管很难解释,但是这是一场草根运动。不是技术,不是人们用它所做的东西,而是实际的交流,所有这些人的思想汇聚。这是当时的情况。

有趣的是,现在的情况又变得跟20年前有点类似了。每一个人或多或少都发布过文档。这已经是一场疾风,不是吗?因为我们发现,由于网络而出现的新可能。现在它的功能比我们想象的还多。

互联网最初的设计只是想把文档放在一起而已。现在,我想把数据放在网上,因为互联网还是有巨大的潜力。但我仍然有很大的挫败感,因为从网上得到的数据不是我们想要的数据。

文档和数据之间有什么区别?文档是人们阅读的东西,但你却可以通过一台电脑使用各种数据。谁听过汉斯·罗斯林的TED演讲?那是一个很伟大的TED演讲。汉斯在他的演示文档中,使用不同的颜色表示不同的国家。他在一个轴上显示收入水平,同时用动画按年份显示婴儿死亡率,他使用数据完成了一场演讲,这个演讲改变了许多人关于发展中国家经济发展的认识。他展示了一张幻灯片:

在右图可以看到,数据都被埋在地下。数据是这些棕色的、无趣的四方盒子——我们就是这样看待数据的。对于数据,假如单独地看是没有意义的。但事实上,数据却在很大程度上驱动了我们的生活。假如有人拿到数据,并加以处理,数据就显现出其力量。汉斯在联合国的网站上找到了各种数据,将数据放到了一起组合起来使之比原始数据有趣得多。然后把数据放到软件中,最终他做出了美妙的演示。

不仅仅是两组数据间的连接,或者像他所说的那样六组数据,而是这个世界上任何人,把数据甚至一切物件都放到网络上。我将此称作关联数据。如果你想把东西放上网络,有三条规则:第一条规则是,需要有HTTP的名字。所有概念化的东西现在都以HTTP开头命名。第二条规则,如果我有一个HTTP名称,我可以从网上获取数据。通过HTTP协议,我将得到一些标准的格式化数据。这些有用数据或许是关于人们希望了解的某个事物或者事件的主人公、关于这个人的所有信息等等。所以,第二条规则就是我通过HTTP获得了重要的数据。

第三条规则是,我得到的信息,不仅仅是某人的身高、体重和出生日期,还有数据间的联系。这个人出生在柏林,柏林在德国。当数据有联系时,无论何时它表现出这种联系,另一件与之有联系的事物就必须以HTTP开头命名。所以,我可以直接去找那件事。比如,我查一个人——他出生的城市,这个城市的所在区域,城市乡镇人口等等,这样我就能浏览这些信息。这就是关联数据。

关联数据的想法就像我们得到了很多类似汉斯拥有的盒子。大量事物开始发芽生长,它带给我们相当多的植物。不仅仅是一个根供给一个植物。对于这样的每一个植物,无论它是一个演示,或一个分析,只要有人要寻找数据间的规律,他们都可以着眼于所有的数据。重要的是,关联起来的东西越多,数据就越有价值。来自柏林自由大学的克里斯拜泽,注意到维基百科里面有很多有趣的文档。在这些文档中,有些小方格子和小盒子,里面包含的就是数据。他写了一个程序将数据从维基百科中提取出来,然后将它们放到关联数据的一个圈里,命名为dbpedia。如果你去找柏林,你会发现还有其他的数据,当中也包含了与柏林相关的信息,它们被联系到了一起。所以,如果你要从dbpedia中摘出关于柏林的数据,还会摘出其他内容。让人兴奋的是,这样的事情正在迅速发展。

说到数据,我能说出各种各样的数据:有政府数据、企业数据、科学数据、个人数据、天气数据、关于事件的数据、关于谈话的数据,还有新闻和各种类似的东西。由数据的多样性便可以看到潜藏在数据底下的无限可能。

奥巴马说,政府数据将以一种可访问的方式发布到网络上。我希望这会是以关联数据的形式出现。想想有多少关系到在美国如何生活的数据,它的确很有价值。在公司里,我可以用得到,我的小孩做功课也能用得到。所以,公开这些数据会使世界变得更美好。

事实上,政府却将这些数据封闭起来。汉斯说,政府部门喜欢抱住他们的数据不放,直到他们建立了一个漂亮的网站。我想建议的是,在建网站之前,请先把未经处理的数据摆出来。我们要的是数据,最原始的数据。

熟悉这个名词是很重要的。人们会想出各种各样的理由,拒绝将原始数据公开出来,哪怕你作为一个纳税人已经为此付了钱。这不仅仅存在于美国,全世界都一样,也不仅仅在政府,当然也存在于企业。

在TED,我们一直关注于人类社会目前所面临的巨大问题,比如治疗癌症,了解老年痴呆症发病机理,了解经济运行规律,理解事物发展变化的规律。那些致力于解决这些问题的科学家,他们脑海中有些还不成熟的想法,他们试图在网络上与他人交流,但是现状是人类的很多知识,都被关在私人的数据库里,没有公开出来。

如果你是研究老年痴呆症的科学家,以药物发现为例——这个领域具有相当多刚刚出现的关联数据。因为这个领域的科学家们意识到,关联数据可以帮助他们摆脱数据孤岛。他们在一个数据库中建立了基因图组,在另一个数据库中建立蛋白质数据。

现在将基因图组和蛋白质数据形成了关联数据。他们可以问排序的问题:哪些蛋白质参与信号转导,并且也和锥体神经元相关?将这个问题放到Google上搜索,自然没有回答结果的页面。因为之前没有人问过这样的问题。虽然你得到了223,000个结果,但是没有一个用得上。假如去检索关联数据呢?命中32个结果,每一个结果都是与特征相关的蛋白质。关联数据赋予科学家这样一种可能,去探寻这些跨学科的问题的答案。这是彻底的改变。

假如你认为关联数据只是大机构的事情,那就错了。事实上,数据关乎我们的生活,比方说,你登录最喜欢的SNS网站,看到了你的朋友,点击添加。这是联系,这就是数据!你在社会化网络上做每一件事,社会化网络站点就获取数据并利用它,通过算法使得数据显现出其价值,使得用户体验变得更加丰富。

但是,当去到另一个关联数据网站,假设是一个旅游网站,你说“我想把这张照片发给我在另外一个SNS网站的朋友”,但你却无法翻过这些墙。

要改变这一现状,我们需要在这些社交网络之间,搭建关联数据的网络。在我来这之前,我通过OpenStreetMap——OpenStreetMap是一个地图,但同样也是一个维基——查找了一下特伦斯剧场(位于长滩市,加利福尼亚)。它现在还没有被标上名字。所以我可以在编辑模式,选择剧场,然后在底下填上名字,然后保存。现在再去访问OpenStreetMap.org,你找到这个地方,就会发现它现在有名字了。这都是我刚刚在地图上标的。

如果除了我,每个人都在这个地图上标注一点,将会产生难以置信的资源。每个人都做一点,生成一点内容,然后把它们连接起来,关联数据的秘密就在于此。数据来源之多寡并不是那么重要,更重要的是,将它们关联起来。

现在我们处在一个阶段,这个阶段呼唤我们采取行动,所有认为这是个伟大想法的人们,甚至是所有人都应该行动起来。这不是当日投资当日有回报的事情。只有当每个人都这么做,我们才会从中得益。

节选自《关联数据开启互联网新纪元》

www.tedtochina.com

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2014/08/12 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
CNN神经网络--手写数字识别
CNN神经网络–手写数字识别 引入包 python import numpy as np import tensorflow as tf 下载并载入 MNIST 手写数字库(55000 * 28 *
MiChong
2020/09/24
1.2K0
CNN神经网络--手写数字识别
Tensorflow MNIST CNN 手写数字识别
Tesorflow实现基于MNIST数据集上简单CNN: https://github.com/Asurada2015/TF_Cookbook/blob/master/08_Convolutional_Neural_Networks/02_Intro_to_CNN_MNIST/02_introductory_cnn.py
演化计算与人工智能
2020/08/14
7440
Tensorflow MNIST CNN 手写数字识别
mnist手写数字识别(TensorFlow-GPU)------原理及源码
本文主要是对mnist手写数据集这中的迷糊数字进行识别,在Softmax Regression基础上建立了一个较为简单的机器学习模型。
andrew_a
2019/07/30
6.7K0
mnist手写数字识别(TensorFlow-GPU)------原理及源码
TensorFlow-手写数字识别(三)
本篇文章在上篇TensorFlow-手写数字识别(二)的基础上,将全连接网络改为LeNet-5卷积神经网络,实现手写数字识别。
xxpcb
2020/08/04
1K0
DeepFM算法解析及Python实现
由于DeepFM算法有效的结合了因子分解机与神经网络在特征学习中的优点:同时提取到低阶组合特征与高阶组合特征,所以越来越被广泛使用。
Bo_hemian
2020/09/09
3.5K0
TensorFlow从0到1 | 第十一章 74行Python实现手写体数字识别
到目前为止,我们已经研究了梯度下降算法、人工神经网络以及反向传播算法,他们各自肩负重任: 梯度下降算法:机器自学习的算法框架; 人工神经网络:“万能函数”的形式表达; 反向传播算法:计算人工神经网络梯度下降的高效方法; 基于它们,我们已经具备了构建具有相当实用性的智能程序的核心知识。它们来之不易,从上世纪40年代人工神经元问世,到80年代末反向传播算法被重新应用,历经了近半个世纪。然而,实现它们并进行复杂的数字手写体识别任务,只需要74行Python代码(忽略空行和注释)。要知道如果采用编程的方法(非学习的
用户1332428
2018/03/08
1.2K0
TensorFlow从0到1  | 第十一章 74行Python实现手写体数字识别
基于tensorflow的LSTM 时间序列预测模型
递归神经网络(RNN)相对于MLP和CNN的主要优点是,它能够处理序列数据,在传统神经网络或卷积神经网络中,样本(sample)输入与输出是没有“顺序”概念的,可以理解为,如果把输入序列和输出序列重新排布,对整体模型的理论性能不会有影响。RNN则不同,它保证了输入和输出至少有一端是有序列特征的。
全栈程序员站长
2022/07/25
2K0
基于tensorflow的LSTM 时间序列预测模型
tensorflow 1.01中GAN(生成对抗网络)手写字体生成例子(MINST)的测试
为了更好地掌握GAN的例子,从网上找了段代码进行跑了下,测试了效果。具体过程如下: 代码文件如下: import tensorflow as tf from tensorflow.examples.
sparkexpert
2018/01/09
1.4K0
tensorflow 1.01中GAN(生成对抗网络)手写字体生成例子(MINST)的测试
TensorFlow-- Chapter06 MNIST手写数字识别
TensorFlow-- Chapter06 MNIST手写数字识别 TensorFlow-- Chapter06 MNIST手写数字识别,tensorboard的使用。 作者:北山啦 文章目录 TensorFlow-- Chapter06 MNIST手写数字识别 理论部分 MNIST手写数字识别数据集 数据集的划分 拆分数据 工作流程 新的工作流程 逻辑回归 Sigmod函数 损失函数 多元分类 实战代码 TensorBoard可视化 利用TensorBoard可视化TensorFlow运行状态
北山啦
2022/11/27
2560
TensorFlow-- Chapter06   MNIST手写数字识别
TensorFlow实例: 手写汉字识别
MNIST手写数字数据集通常做为深度学习的练习数据集,这个数据集恐怕早已经被大家玩坏了。识别手写汉字要把识别英文、数字难上很多。首先,英文字符的分类少,总共10+26*2;而中文总共50,000多汉字,常用的就有3000多。其次,汉字有书法,每个人书写风格多样。 本文目标是利用TensorFlow做一个简单的图像分类器,在比较大的数据集上,尽可能高效地做图像相关处理,从Train,Validation到Inference,是一个比较基本的Example, 从一个基本的任务学习如果在TensorFlow下
机器学习AI算法工程
2018/03/15
4.5K0
TensorFlow实例: 手写汉字识别
深度学习算法中的非线性独立成分分析(Nonlinear Independent Component Analysis in Deep Learning)
深度学习是一种强大的机器学习技术,已经在计算机视觉、自然语言处理、语音识别等领域取得了巨大成功。然而,在深度学习中,由于网络层数的增加和复杂的非线性变换,传统的线性独立成分分析(Linear Independent Component Analysis,简称LICA)的有效性受到了限制。为了解决这个问题,研究人员提出了一种新的方法,即深度学习算法中的非线性独立成分分析(Nonlinear Independent Component Analysis,简称NLICA)。
大盘鸡拌面
2023/09/22
4540
Tensorflow入门-白话mnist手写数字识别
文章目录 mnist数据集 简介 图片和标签 One-hot编码(独热编码) 神经网络的重要概念 输入(x)输出(y)、标签(label) 损失函数(loss function) 回归模型 学习速率 softmax激活函数 Tensorflow识别手写数字 构造网络 model.py 训练 train.py 验证准确率 train.py 主函数 train.py mnist数据集 简介 MNIST是一个入门级的计算机视觉数据集,它包含各种手写数字图片。在机器学习中的地位相当于Python入门的打印Hel
小莹莹
2018/04/24
1.3K0
Tensorflow入门-白话mnist手写数字识别
mnist手写数字识别代码(knn手写数字识别)
MNIST是一个很有名的手写数字识别数据集(基本可以算是“Hello World”级别的了吧),我们要了解的情况是,对于每张图片,存储的方式是一个 28 * 28 的矩阵,但是我们在导入数据进行使用的时候会自动展平成 1 * 784(28 * 28)的向量,这在TensorFlow导入很方便,在使用命令下载数据之后,可以看到有四个数据集:
全栈程序员站长
2022/08/01
2.6K0
mnist手写数字识别代码(knn手写数字识别)
Tensorflow之 CNN卷积神经网络的MNIST手写数字识别
前言 tensorflow中文社区对官方文档进行了完整翻译。鉴于官方更新不少内容,而现有的翻译基本上都已过时。故本人对更新后文档进行翻译工作,纰漏之处请大家指正。(如需了解其他方面知识,可参阅以下Tensorflow系列文章)。 深入MNIST TensorFlow是一个非常强大的用来做大规模数值计算的库。其所擅长的任务之一就是实现以及训练深度神经网络。在本教程中,通过为MNIST构建一个深度卷积神经网络的分类器,我们将学到构建一个TensorFlow模型的基本步骤。 这个教程假设你已经熟悉神经网络和MNI
用户1332428
2018/03/08
1.6K0
Tensorflow之 CNN卷积神经网络的MNIST手写数字识别
教程 | 基于LSTM实现手写数字识别
基于tensorflow,如何实现一个简单的循环神经网络,完成手写数字识别,附完整演示代码。
OpenCV学堂
2019/09/26
1.5K0
用Tensorflow识别手写体
数据准备 import tensorflow as tfimport tensorflow.examples.tutorials.mnist.input_data as input_datamnist = input_data.read_data_sets("MNIST_data/", one_hot=True) WARNING:tensorflow:From <ipython-input-1-6bfbaa60ed82>:3: read_data_sets (from tensorflow.contrib.
用户3577892
2020/06/12
4.3K0
用TensorFlow进行手写数字识别
本文介绍了一种基于深度学习的图像识别方法,该方法采用卷积神经网络(CNN)和最大池化层来提取图像特征,并通过交叉熵损失函数进行优化。实验结果表明,该方法在MNIST数据集上达到了92%的准确率,效果良好。
longchen
2017/04/12
6.5K0
用TensorFlow进行手写数字识别
基于tensorflow的MNIST数字识别
MNIST是一个非常有名的手写体数字识别数据集,在很多资料中,这个数据集都会作为深度学习的入门样例。下面大致介绍这个数据集的基本情况,并介绍temsorflow对MNIST数据集做的封装。tensorflow的封装让使用MNIST数据集变得更加方便。MNIST数据集是NIST数据集的一个子集,它包含了60000张图片作为训练数据,10000张图片作为测试数据。在MNIST数据集中的每一张图片都代表了0~9中的一个数字。图片的大小都为28*28,且数字都会出现在图片的正中间。
狼啸风云
2019/03/01
3.1K0
TensorFlow-手写数字识别(二)
本篇文章在上篇TensorFlow-手写数字识别(一)的基础上进行改进,主要实现以下3点:
xxpcb
2020/08/04
8560
tensorflow 实现wgan-gp mnist图片生成
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/qq_25737169/article/details/76695935
DoubleV
2018/09/12
1.6K0
tensorflow 实现wgan-gp  mnist图片生成
推荐阅读
相关推荐
CNN神经网络--手写数字识别
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档