首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

多源数据的用户识别

[编者按]“文献导读”是为大数据领域的研究生和研究人员设置的栏目,本专栏将选取大数据与数据领域的前沿论文,并附以短评,帮助读者了解大数据领域的最新进展。本期,我们选取了与多源数据的用户识别相关的三篇精彩论文加以导读。如果读者对文献内容有疑问或希望与导读人进一步交流,欢迎在后台留言。

1. Fuzzy Trajectory Linking

论文作者:Huayu Wu, Mingqiang Xue,Jianneng Cao, Panagiotis Karras, Wee Siong Ng, Kee Kiat Koo

发表会议:ICDE 2016

所属方向: 模糊轨迹链接;多源数据

导读人:刘勇涛

[文献短评]:如今,人们可以使用智能便携设备访问各种服务,除了使人们的生活更加方便之外,访问这种服务也向服务提供商揭示了用户的轨迹。很多时候,注册多个服务的用户可能会将其轨迹暴露给多个服务提供商。这种情况带来了隐私方面的关注,也为研究者带来了机会。本文研究了从不同来源累积的轨迹相互联系的潜力,以重建个人更大范围内的轨迹。作者开发了一种实现该目标的模糊轨迹链接(FTL)的方法,并给出两个算法实例,一个基于假设检验,另一个基于Naive-Bayes。这种轨迹链接的原理很简单:随着时间的流逝,服务提供商维护的轨迹随着用户访问的服务而增长。如果来自不同服务的两个轨迹属于同一个人,则应相互接近。但是,如果两个轨迹属于不同的人,那么他们最终应该相互远离。本文使用兼容性来定义两个轨迹的时空接近度,称为基于上述原理的技术,将个人与轨迹相连的技术称为模糊轨迹链接(FTL)。即将不同的数据集中的时空轨迹信息给予匹配,得到一个个体的更大的轨迹。FTL获得的知识有两种:第一种是身份披露,第二个是通过合并两个链接轨迹的轨迹丰富。

2. Automatic User Identification Method across Heterogeneous MobilityData Sources

论文作者:Wei Cao, Zhangwei Wu, DongWang, Haishan Wu

发表会议:ICDE 2016

所属方向:多源移动数据;用户识别

导读人:王兴涛

[文献短评]:随着基于位置信息的服务和应用的普及,产生了大量的移动数据,这些数据往往来自不同的数据源,例如不同的内置GPS设备、移动APP、基于位置服务的设备等。本文研究一种在不同数据源上识别用户的有效方法,并提出一个基于简化映射的框架,称为自动用户识别(Automatic User Identifying,AUI)。不同的数据源上的数据往往具有不同的采样率和噪声模式,本文的框架基于一种新颖的相似性度量SIG(Signal Based Similarity),可以度量不同数据源上的用户轨迹的相似性。大量的移动数据的出现使识别人的移动行为的特征和模式成为可能。这种移动数据的挖掘在工业和商业上也有很重要的应用。在实际应用中,移动数据往往来自各种不同的数据源。本文希望找出一种高效的方法从多源移动数据中识别用户。本文的工作有两个动力。一方面,所谓的高效用户识别算法是日常见到的移动数据整合问题的根本要素。另一方面,人类移动唯一性(human mobility uniqueness)问题被广泛研究,本文的工作提供了一种研究多源数据上人类移动唯一性的方法。

3. A GPU-Based Index to Support Interactive Spatio-Temporal Queriesover Historical Data

论文作者:Harish Doraiswamy, Huy T. Vo,Claudio T. Silva, Juliana Freire

发表会议:ICDE2016

所属方向:多度量数据;索引

导读人:范永栋

[文献短评]:Web 2.0的发展和无处不在的社交媒体产生了大量的异质数据,这些数据是由世界各地数十亿个人用户自愿发布和共享的。因此,这些数据中的一个实体(如一个真实的人)可能包括各种数据类型,包括位置和其他数字属性、文本描述、图像、视频、社交网络信息和其他类型的信息。虽然对单一表示信息的相似搜索成果较好,但是现有的研究缺乏适用于多重富集数据的适当解决方案去描述把所有表示信息作为一个整体的组合。因此提出了基于一组度量(一个度量对应一种表示信息)来建立多重富集(多表示)数据上的索引,从而实现相似搜索。本文通过采用用户定义的权重函数定义多重相似搜索查询,指定查询时每个指标的影响力。主要的成果是一个索引结构,它将所有度量值组合成一个可以用于任意权重的单一多维访问方法。同时通过实验评估表明,该索引结构比现有的多度量访问方法更高效,并且在查询非常大的多集合对象集时,该方法超过了传统的方法。

(责任编辑:齐志鑫)

“大数据与数据科学家”公众号

主编:王宏志

特邀副主编:朱劼

副主编:丁小欧

责任编辑:齐志鑫,宋扬,万晓珑、魏龑,张荣恩

编辑: 陶颖安

-精彩内容,记得分享到朋友圈-

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180531G07VWU00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券