所有的论文都放在这边
Do Bitcoin Users Really Care about Anonymity? An Analysis of the Bitcoin Transaction Graph Proceedings - 2018 IEEE International Conference on Big Data, Big Data 2018
看了一下,感觉可能和我想的有些不太一样。这个是关于比特币交易网络分析的文章,重点在于用户对于自身匿名性的在意程度。 文章介绍了目前主流的四种去匿名性思路:
学界关于比特币的匿名性和去匿名性进行了激烈的竞争,但是没有人想过一个问题:比特币用户自身关心匿名性吗?从结果来看,越富有的账户越关心自身匿名性,但是大部分用户本身是不关心匿名性的,我们可以轻松找到大型组织的所有对应地址。
不太重要,其中分析比特币交易图所列出的文献值得进行阅读。
文章来源:课程论文搜索
本文使用了有监督机器学习的方式,预测未定义实体的类型。数据集采用了从200M个交易记录中提取出的434个实体,将其分为10类。采用的方法Gradient Boosting,准确率77%,F1大约0.75。
与公司合作,该数据提供方标注了一些数据,但是目前比特币网络上的大部分地址是没有被标注出来的。 标注类别:exchange, gambling, hosted wallet, merchant services, mining pool, mixing, ransomware, scam, tor market or other
与比特币相关的工作比较多的是采用无监督学习方式,比如聚类算法。
论文计划使用地址信息来进行比特币的聚类,将所有用同一个用户创建的地址聚为一类。 结果显示只有8%的聚类与单个IP相关,说明比特币用户往往会使用很多个IP。 由于比特币交易的特性,为了确认一个交易必须要向全网进行广播,因此持续的网络监听很可能可以将比特币地址与特定的IP相连接。但是如果用户使用动态分配的IP,比如在NAT路由器之后或者使用钱包应用。因此这些信息就不一定能够用在去匿名化上。 思路:使用已有的启发式算法对用户和地址进行映射,然后对整个数据集进行聚类,看聚类所得到的用户与IP的对应关系。
去匿名化的第一个工作:Reid and Harrigan(前面提到过),使用启发式方法,多输入模型分析追踪之后的交易。 Meiklejohn,基于标准用户的行为进行
匿名检测技术的综述 将方法分为两大类,一类为泛用检测方法,一类为专用检测方法。下面共有八个子类。
指不为特定的异常设计的检测方法 分为三个小类:entity portrait/ transaction pattern recognition/ double angle detection model
主要任务是存储用户的活动,并对这些活动的性质进行分析。这方面活动的目的主要是为了去匿名化。
计划通过机器学习方法决定交易的类型。 好像没什么用
计划同时找出异常的用户和地址
构建了新的feature来进行Bitcoin地址的分类,将交易历史集合表示为新的特征。
graph embeding方法,为了避免启发式特征提取的问题,更全面地代表动态交易网络的时序和经济结构,作者通过网络压缩的方式构建了以太坊的分析框架。
来源:后续发展 做的仍然是比特币地址与用户的相关性分析,使得地址追踪变得可能。 提取了比特币地址中的重要特征(主要是历史交易数据),将聚类问题转变为二分类问题来降低计算复杂度。采用了一个两层的learner模型来分析两个比特币地址是否属于同一个用户。 精度提升6~20%,召回率10% XGBoost,LightGBM, GBDT用在第一层,因为它们可以很好地处理所有的特征。DNN用在第二层,因为它在分类上表现出色。 达到了95%以上
在最早的时候,人们使用基于启发式的方法来分析整个网络 目前最常用的方法就是多输入启发式方法,这个方法最早由:Bitcoin: a peer-to-peer electronic cash system此文是第一个提出使用启发式方法分析比特币交易网络的。启发式方法认为无论有多少输入,交易都会从一个用户开始,因此交易的地址应该全部归属于最初发出交易的用户。如此,可以合并所有交易中的输入地址,并合并成一个聚类,识别出这个聚类的地址所有者。
Shadow address heuristic,第一次提出是在Evaluating user privacy in bitcoin中,并在A fistful of bitcoins: characterizing payments among men with no names被定义为change address。在比特币交易中,用户经常会新开一个地址来存放零钱。这个启发式方法的容错会更低一些,因为对shadow address的识别是基于对交易现象的观察而不是客观现象进行的。其他一些情况也使用了这种方法,在Data-driven de-anonymization in bitcoin中,使用了两种启发式方法来进行去匿名化,召回率69.3%,并研究了多种启发式方法结合的情况,发现结合后的提升小于1%。
在Deanonymisation of clients in bitcoin P2P network和An analysis of anonymity in bitcoin using P2P network traffic中,与之前的分析交易图不同,它们更关注交易地址与实际IP地址的对应关系。使用网络层级技术来追踪IP地址,但是很容易被防御,如果使用了CoinShuffle: practical decentralized coin mixing for bitcoin中提到的V**或混淆技术