我在我的网络上有大约100万个用户活动的URI日志,我想知道这100万用户中有多少是Facebook的,有多少是Twitter的,等等。很容易将像cdn.xyz.twitter.com、platform.twitter.com这样的URL链接到Twitter上,然而,我面临的问题是,我不能将捕获到的URL的40%链接到真实的网站上,例如xys.1234.com这样的URL在facebook上可以是某种链接,但是该URL和facebook.com域之间没有链接,因此只会被列为一个独立的网站,这是错误的(或者不是我想要的)。
而且,所有的API调用也不会很容易地链接到它们的域,因为有些网站可能正在使用amazon服务,这就是正在记录的内容。
很多URI都是从广告服务中生成的,我想知道这个广告是从哪里产生的(用户在哪个网站或移动应用程序上点击了广告?)
URI的快照,这样您就可以了解整个图片了。
发布于 2018-02-01 15:09:44
所以你想要匹配发出的请求?你怎么知道访问xyz.1234.com的用户是通过Facebook而不是通过在地址栏中输入URL来做到这一点的呢?还是点击其他页面的链接?您的日志不包含告诉您从哪个页面链接哪些URL的信息。如果没有其他的信息来源,你就无法确定。
您可以检查对多个用户的请求并推断关系。也就是说,如果您注意到所有(或大部分)对xyz.1234.com的请求都发生在Facebook请求之后,您可以推断该请求是由于单击Facebook页面而产生的。这样做需要一些有趣的模式匹配。它的工作效果将取决于您需要处理多少数据,您编写模式匹配的情况如何,以及您愿意让算法运行多长时间。
不过,没有简单的答案。如果你没有明确表示“这个请求是通过点击Twitter上的链接来完成的”的数据,那么你要么得到另一个信息源,要么你必须编写代码来推断这些信息。
https://stackoverflow.com/questions/48561113
复制