首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

每周学点大数据 | No.77 算法实践——成为包工人

~每周五定期更新 上期回顾&查看方式 在上一期,我们学习了算法实践——认识 AMT的相关内容。...PS:了解了上期详细内容,请在自定义菜单栏中点击“灯塔数据”—“技术连载”进行查看;或者滑到文末【往期推荐】查看 No.77 算法实践——成为包工人 小可 :再来看一个任务。...王 :我们就进入了平台的 Requester(请求者)页面。这里的操作需要我们先登录账户。...AMT 平台已经替我们准备了很多的任务类型,比如分类、数据收集、调研、为图片打标签等,基本能满足我们对各种任务的需求。可以根据自己需要完成的任务来选择合适的类别,在这里我们以分类进行举例。...结语 经过学习,我们研究了算法实践——成为包工人涉及到的一些具体问题。

1.8K110
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    每周学点大数据 | No.51 的特点

    NO.50 特点 Mr. 王:我们讨论了这么多的例子,现在来研究一下的一些特点。你先来说说,一个算法需要由哪些部分组成?...比较直观的回报就是金钱,在有些平台上面,工人完成了任务之后会收到一定的资金报酬;而有些任务虽然并不能提供报酬,但是很多人依然乐此不疲,是因为这些任务设计得比较有趣,很多人为了打发时间,也会去完成众任务...比如当我们有任务要完成时,是选择交给现有的平台,还是自主开发搭建一个平台;而且在平台设计时,人机交互是很重要的,应如何激励用户参与到任务中;界面的设计是否吸引人、与工人间的交流通信,以及平台的信誉和工人挽留机制都要考虑...王:有时平台也采用一种准入机制。比如想参与到任务的贡献中,先要经过一个资格考试来验证该工人是不是具有完成任务的资格。...文章来源:灯塔大数据 文章编辑:秦革

    1.1K70

    利用人工智能数据,加速药物发现

    导读: 新的加密系统可以让制药公司和学术实验室共同合作,更快地开发新的药物,而不会向竞争对手透露任何机密数据。...---- 新的加密系统可以让制药公司和学术实验室共同合作,更快地开发新的药物,而不会向竞争对手透露任何机密数据。 该计算系统的核心是一种称为神经网络的人工智能程序。...更多的培训数据产生了更聪明的人工智能,这在过去是一个挑战,因为药物开发人员通常不会因知识产权问题而共享数据。...研究人员在10月19日的“ 科学”杂志上报告说,新系统允许人工智能将数据,同时保持信息的私密性,从而鼓励合作伙伴加快药物开发。 确定新的药物蛋白质相互作用可以揭示各种疾病的潜在新疗法。...在新的AI培训系统中,从研究组汇集的数据在多个服务器之间进行分配,每个服务器的所有者看到的似乎只是随机数。

    35560

    每周学点大数据 | No.52算法例析

    NO.52 算法例析 小可:讨论了这么多,我还是想通过一个具体的例子来了解一下算法。 Mr. 王:好,我们就从计算机的角度用具体的例子来分析一下算法。...通过我们前面讨论的内容,你能不能想到设计算法需要考虑的一些基本问题? 小可若有所思,说:嗯……既然很多平台是要支付劳动报酬的,那么最起码的算法应该要尽量的省钱吧? Mr....所以算法期待的就是能结合机器和人的优点,使得成本、时间和质量都达到一个比较好的结果。 小可:那么具体要怎么结合呢? Mr. 王:其实算法中包含的思想就是混合人和机器的工作流程。...下期精彩预告 经过学习,我们了解了一下了解的算法例析。在下一期中,我们将进一步研究一下的具体应用,具体的运用到时间中国去解析。更多精彩内容,敬请关注灯塔大数据,每周五不见不散呦!...文章来源:灯塔大数据 文章编辑:秦革

    1.4K70

    每周学点大数据 | No.76 算法实践——认识 AMT

    PS:了解了上期详细内容,请在自定义菜单栏中点击“灯塔数据”—“技术连载”进行查看;或者滑到文末【往期推荐】查看 No.76 算法实践——认识 AMT Mr....王 :今天我们来讨论一下平台的实际使用。 小可 :嗯,在前面介绍时就觉得是一个非常有趣的算法思想,我也很想了解它的具体使用呢。 Mr....王 :现在我们就以一个具体的平台为例,谈谈如何使用平台。...大多数时候,我们见到的平台都是以网站为表现形式的,在这里我们就以一个非常著名的平台——Amazon 的Mechanical Turk 为例,了解如何使用平台完成任务和发布任务。...下期精彩预告 经过学习,我们研究了算法实践——认识 AMT涉及到的一些具体问题。在下一期中,我们将进一步了解成为包工人的相关内容。更多精彩内容,敬请关注灯塔大数据,每周五不见不散呦!

    1.7K90

    学界 | 通过Crowd Layer,利用标注数据集进行深度学习

    选自arXiv 机器之心编译 参与:刘晓坤、路雪 本文通过在深度神经网络中引入一种新型包层(crowd layer),通过反向传播方式,直接利用噪声标签实现端到端的训练。...然而,随着监督式人工神经网络的规模不断增大,对大型标注数据集的需求量也越来越大。近期,包成为以可扩展的方式标注大型数据集的一种高效、廉价的解决方案。...在这篇论文中,我们针对的就是深度神经网络的训练问题。首先,我们将介绍最大期望值算法(EM),这种算法同时学习网络中的参数和不同标注者进行分类设置的混淆矩阵。...然后,我们提出了一种新型的通用包层(crowd layer),这个层可以使深度神经网络用反向传播的方式,直接利用不同标注者的噪声标签进行端到端的训练。...我们的实验结果表明使用这种方法可以内部获取不同标注者的可信度和偏差,并在不同设置(如分类、回归和序列标注)的各种数据集上得到最优结果。 ? 图 1.

    1.8K60

    CDN时代到了!

    开发者们为了将用户体验优化到极致,通过大量的技术手段保障视频质量,比如减少丢、断网恢复、即时响应用户网络变化等等。...因此我们提出了CDN的概念,并且申请了专利。15年,腾讯的X5浏览器内核和微信也提供了支持,同年,我们梨享计算也正式宣布成立。 可能大家会有疑问,WebRTC将来真的会成为一种主流技术吗?...这时候可以先向STUN服务器发送测试数据,后者做出响应,指示其在测试数据中监测到的IP地址,此地址将成为潜在的候选地址返回。...除了播放器外,我们还开发了支持多协议、多源、混合P2P-CDN的下载器PearDownloader,可用于高清图、压缩、软件发布或升级、音乐、文档等大文件下载或在线服务的场景(github地址:https...大部分带宽、存储、计算资源通过方式收集自终端用户稳定在线的边缘设备,服务能力覆盖全部地域、所有运营商、每处网络边缘。

    2.9K90

    IEEE: 地震预警,手机GPS可救命

    美国地质调查局近期为解决这个问题提供了一个新选择--利用智能手机的GPS功能进行地震预警。 美国地质调查局的科学家认为,智能手机和其它具备GPS功能的设备可以做为一个网络,为大地震提供早期预警。...这种系统,可以迅速检测到地震的发生,且几秒钟内,在地震波或海啸波到达人们之前给出预警。...此外,在地震发生可能性高但无法承担早期预警系统的地区(例如加勒比地区、中美和南美地区以及南亚地区),地震预警能够拯救成百上千条生命,且带有GPS功能的手机在这些地区使用很普遍。 ?...接下来,研究人员进行了模拟试验,试验采用的数据一个来自假设发生在北加利福尼亚的7级地震,另一个是来自2011年发生在日本东北冲(Tohoku-oki)的9级地震的真实数据。...手机数据也足以用来定位震中位置,精度在5公里以内,并且实时计算地震强度的演进。

    80760

    ImageNet「」成就伟大数据集,「昇腾众智」创新AI开发模式

    机器之心报道 作者:张倩 作为人工智能社区群策群力的早期形式,「」成就了 ImageNet 等一批成功的数据集,也加快了整个社区的发展进程。但要构建人工智能技术开发生态,仅靠「」是不够的。...2009 年,由知名科学家李飞飞发起,来自全球 167 个国家近 5 万名工作者以的方式,通过三年合作努力,完成了日后触发人工智能领域发展浪潮的伟大数据集 ImageNet。...帮助李飞飞完成这一壮举的,是当时刚刚兴起的社区概念——。可以说,一直在人工智能领域扮演着重要角色,一定程度上加快了这一领域的历史进程。...众智类似于,但又不同于。...是繁复的人力投入,而「昇腾众智」意在通过「硬件开放、软件开源、使能伙伴」的方式,激发开发者的智慧,在网络模型开发、算子开发以及行业参考设计开发等几类项目上进行创新。

    46130

    UIUC CS241 讲义:系统编程书

    原文:angrave/SystemProgramming 译者:飞龙 协议:CC BY-NC-SA 4.0 欢迎来到 Angrave 的系统编程维基书!...这个维基是由伊利诺伊大学的学生和教师共同建立的,是伊利诺伊大学 CS 的 Lawrence Angrave 的创作实验。 与本学期要求现有的纸质书籍不同,我们将在这里建立我们自己的资源集。 0....它非常简单易用:决定目的地址和端口,然后发送数据!然而,网络不能保证数据是否会到达。如果网络拥挤,数据(也称为数据报)可能会丢失。数据可能会重复或无序到达。...TCP 将自动管理重发数据,忽略重复数据,重新排列无序数据,并改变发送数据的速率。 TCP 的三次握手被称为 SYN,SYN-ACK 和 ACK。本页面上的图表有助于理解 TCP 握手。...监听到一个到达的数据。有效数据为 200 字节或更少,并以四个字节 0x65 0x66 0x67 0x68 开头。忽略无效的数据

    83710

    :让机器人学习的更快更好

    它们收集的数据越多,它们完成任务结果就越好。我们的解决方案是从众获取数据。”华盛顿大学计算机科学和工程副教授Maya Cakmak说。...为了得到更多关于建造模型的输入,机器人向求助。他们在Amazon Mechanical Turk(一个市场)上雇佣参与者,并建造类似汽车,树木,乌龟和蛇等的模型。...通过对动作的抽象,交互可视化,它向学习在新场景中实施这个动作的新方法。这项研究将在今年11月举办的人类计算与大会上发表。...布朗大学伍斯特理工学院,康奈尔大学的研究团队也在进行类似理念的研究,开发机器人使其可以能够通过学习新技能。...华盛顿大学的研究团队目前正在利用和在线资源教育机器人完成更复杂的任务,例如在多层的建筑物中找寻物品。

    66240

    承载快速增长的数据需求,百度数据谋定AI新基建时代

    事实上,以数据为代表的AI数据行业,也可以看作AI新基建的“基建”型业务,为各行各业智能化转型提供动能,加速智能经济到来。...问题在于,为什么需求方们都热衷于选择数据这类供应商模式来获得数据,在数据需求庞大的情况下,为什么不自建团队采集和标注数据?...3、数据输出能力的“维度差距” 数据平台集中大量地熟悉数据采标业务,已经得到了充足的锻炼,一些平台,例如百度数据还对内提供大量数据服务,自2011年起全面支持百度自动驾驶、小度助手等AI业务,它们对于外部需求...但这种标准化和定制化只是相对的,对发展往往不够充分的自建平台而言是“定制化”(意味着需要花费大量精力),到了数据平台那里,可能只是“标准化”的一部分,像百度数据的标注能力已经可以覆盖市95%以上的主要标注场景...AI新基建对数据采标有三大要求,数据都满足了吗?

    33720

    人工智能:用的方式学习驾驶汽车

    例如,我们在人脸识别领域的巨大进展,主要得益于在我们的图片数据库里已经有海量图像带有人们事先明确标记的人脸注释。因此,人工智能算法已经在通过这些数据库来学习人脸识别。...斯坦福大学的这个团队通过驾驶自己的研究车辆,沿着加利福尼亚州的高速公路采集路况,并积累出一个路况数据库。由此,他们就收集到包括GPS数据、视觉图像数据、激光扫描数据,等等。...但“教”培训方式是一个显著的进步。这是第一次一个人工智能机器从真人的行为那里学习到了一个复杂驾驶技术。“我们的研究展示了我们如何把大众的驾驶知识和经验与“教授”机器学习驾驶技能整合起来。”...如此,采用“教”的方法培训人工智能机器就很有意义。 不仅如此,这项研究工作还具有更广泛的影响。生活中有许多看上去挺简单的任务,人类觉得习以为常,但机器却难以完成,比如洗衣洗碗、哺育婴儿、熨烫衣物等。...假如Rajpurkar和他的同事们共同开发的“教”方法可以适用于其他的任务,那么人类也许很快就可以成为人工智能机器的终极培训师。

    68270

    大语言模型(LLM)时代,数据变得不可靠,呼吁保持数据人性化!

    引言  近年来,标注为大规模、快速、多样性、低成本、高质量的数据标注提供了一种强大的工具,它可以满足各种领域应用的数据标注需求,推动了人工智能和机器学习技术的发展和应用。...由于基于LLMs合成的数据可能会延续偏见和意识形态,这势必会影响数据的质量,「那么未来的标注数据还可靠吗」?...最后作者呼吁各大众平台需要采取一定的方法来确保数据的人性化。...它们都依赖于平台,基于平台可以实现数据的创建、注释、调研等工作,已然成为研究人员、从业者重要数据来源。  ...但如果包工作人员为了增加收入,使用LLMs来提高他们在平台上的生产力,那该怎么办呢?「当众数据将不再是预期的Gold-standard数据,这将严重削弱数据的效用」。

    33540

    .| 基于双重的RNA降解预测模型

    作者巧妙地利用对两个平台的集成,获得能够对RNA降解进行极好预测的模型,以此来突破mRNA分子的热稳定性的限制。...为此,我们结合了两个平台:RNA设计平台Eterna和机器学习竞赛平台Kaggle。...我们使用来自Eterna平台上设计的短RNA片段的降解数据,该片段包含多种多样的序列和结构,并假设获得机器学习架构的问题将获得一个能够表达序列和结构依赖性降解模式的复杂性的模型(图1a)。...我们假设这种“双重”将导致对开发的模型进行严格和独立的测试,最大限度地减少设计测试结构者和构建模型者之间的假设共享,并得到更好的独立数据集的泛化性。 所得模型经受了两个盲测挑战。...研究结果 双竞赛设计与评估 OpenVaccine Kaggle竞赛(图1b)的目的是开发用于预测RNA降解模式的计算模型。

    44920

    李东:区块链驱动的地图+共利新模式

    目前主要的高精地图数据采集包括集中制图模式和模式。集中制图模式通过配有激光雷达的数据采集车进行路测,但是会受到成本限制。模式借用大量车辆上的摄像头获取数据数据实时更新。...但其发展受到需和主机厂合作,车辆底层数据封闭以及如何提高数据贡献者积极性等制约。 第一个支持多链的全球分布式地图网络GoWithMi可以带来有效的制式解决方案。...GoWithMi可以创建基于算法的Token激励地图,激励全球用户分布式共识生产,兼顾低成本、高精度、实时性、VR化与全球覆盖,彻底改变传统地图中心化生产方式。...23日-24日北京召开的“中国自动驾驶高精地图产业创新发展论坛2019 (hdmap2019)“中来自分布式地图"高维地球(GoWithMi)的创始人/CEO 李东先生将为您详细解读“区块链驱动的地图和共利新模式...曾任:-全球最大商用基础地图服务商Navteq(即Here Map)亚太区业务负责人;-全球最大导航服务提供商Destinator/Intrinsyc全球运营副总裁;中国首家和最大的交通信息服务商“

    1.4K20

    谷歌使用和机器学习攻克“停车难”,Google Earth 开源

    要解决这些挑战,谷歌的研究员结合了(crowdsourcing)和机器学习技术,开发了一个系统,为司机提供关于目的地停车的信息,甚至还能帮助你决定出行方式。...要为解决停车难的问题设计一个算法,需要三方面的技术:通过的方法获得地面实况数据;一个恰当的机器学习模型,以及一系列稳定的特征(features)来训练模型。...地面实况数据 搜集高质量的地面实况数据对于任何机器学习解决方案的开发来说通常都是一个关键的难题。谷歌的做法是,在不同的地点和时间,对司机进行采访,看他们是否遇到了停车难的问题。...模型特征 有了这些可用的数据,下一步就是选择用来训练模型的特征。运用集体的智慧,该项目从愿意分享个人定位数据的用户中收集匿名信息,这已经是实时交通、热门停车时间和访问持续时间测量的重要信息来源。...,历史停车数据等。

    92570
    领券