摘要总结:本文研究了基于LSH(Locality-Sensitive Hashing)的相似性度量方法,并将其应用于文本相似度计算。主要思路是将文本表示为向量,并使用LSH函数将向量映射到不同的桶中,然后根据桶内的向量相似度对文本进行排序。实验结果表明,该方法在文本相似度计算任务上取得了较好的效果。
对于web网页去重的应用,如抄袭、镜像等,通过将网页表示为字符k-grams(或者k-shingles)的集合,把网页去重的问题转化为找到这些集合的交集。使用传统的方法存储这些巨大的集合以及计算它们之间的相似性显然是不够的,为此,对集合按某种方式进行压缩,利用压缩后的集合推断原来集合的相似性。
在实际应用的过程中。相似性度量和计算是很经常使用的一个方法。比如网页去重、推断帖子是否相似、推荐系统衡量物品或者用户的相似度等等。当数据量大的时候,计算的时间和空间复杂度就会是一个很重要的问题,比如在推断相似发帖的时候。我们能够用kmeans来进行聚类。可是资源的消耗是巨大的。所以本文推荐一种方法,minhash+lsh(局部敏感hash),用minhash来降维。用lsh来做近似查询,本文主要介绍一下minhash。
这几天“差评洗稿”的事情,闹得沸沸扬扬,楼主本身也是内容创作的手艺人,简单说两句。
机械相似性代表着,两个文本内容上的相关程度,比如“你好吗”和“你好”的相似性,纯粹代表着内容上字符是否完全共现,应用场景在:文章去重;
局部敏感哈希(LSH)技术是快速近似最近邻(ANN)搜索中的一个关键方法,广泛应用于实现高效且准确的相似性搜索。这项技术对于许多全球知名的大型科技公司来说是不可或缺的,包括谷歌、Netflix、亚马逊、Spotify和Uber等。
在实践中,推荐系统利用Deep Learning去生成Embedding,然后通过Embedding在召回层进行召回是一种常用的方法,而且这种方法在效果和响应速度上也不比多路召回差。
Milvus (https://milvus.io/) 向量搜索引擎开源半年以来,全球已经有数百家企业或组织用户。焦点科技是一家以 B2B 外贸交易为主营业务的科技公司,也是 Milvus 的用户。
向AI转型的程序员都关注了这个号👇👇👇 机器学习AI算法工程 公众号:datayx 本文主要调研了一下海量图片(>1000000张)去重的方法,在调研之前,先考虑一下自己能想到的方法的可行性。
去年来自谷歌大脑的研究团队在网络架构设计方面挖出新坑,提出 MLP-Mixer ,这是一个纯 MLP 构建的视觉架构。该架构无需卷积、注意力机制,仅需 MLP,在 ImageNet 数据集上就实现了媲美 CNN 和 ViT 的性能表现。
上一篇(R语言实现︱局部敏感哈希算法(LSH)解决文本机械相似性的问题(一,基本原理))讲解了LSH的基本原理,笔者在想这么牛气冲天的方法在R语言中能不能实现得了呢?
六边形架构带来了模块化、解耦和清晰接口设计的好处,可以为 Rust 应用程序的可维护性和可扩展性提供了重要指导。
关于局部敏感哈希算法,之前用R语言实现过,但是由于在R中效能太低,于是放弃用LSH来做相似性检索。学了Python发现很多模块都能实现,而且通过随机投影森林让查询数据更快,觉得可以试试大规模应用在数据
今天我们接着聊聊String类型一个有趣的问题:hashCode 方法中的因子31。
最小哈希签名(minhashing signature)解决的问题是,如何用一个哈希方法来对一个集合(集合大小为n)中的子集进行保留相似度的映射(使他在内存中占用的字节数尽可能的少)。
然而,像Llama 3和Mixtral这样最先进的LLMs的预训练数据集并不公开;关于它们是如何创建的,我们知之甚少。
DataTrove是一款针对大规模文本数据的处理、过滤和消除重复数据工具,该工具可以通过提供一组平台无关的可定制管道处理块,帮助广大研究人员从各种复杂脚本中解放出来,同时还允许我们轻松添加自定义功能。
【1】 Desiderata for Representation Learning: A Causal Perspective 标题:表征学习的愿望:因果视角 链接:https://arxiv.org/abs/2109.03795
在这篇文章中,我们想展示一些不同于流行的东西。这些都是深夜浏览GitHub的感悟,以及同事们分享的压箱底东西。这些软件包中的一些是非常独特的,使用起来很有趣的Python包。
Salesforce 正式对外宣布收购 PredictionIO,用于增强自己在机器学习和大数据分析方面的能力。 Prediction IO 于 500 Satrtups 毕业,在 2014年 拿到了 250 万美元的种子轮融资,投资人包括投资了 VMWare 的 Azure Capital,StartX 基金等。 其 CEO 兼创始人 Simon Chen 喜欢把自己的产品描述为 “MySQL of Prediction”。他认为,机器学习和数据挖掘对每个公司都很重要,但自己来做,开发成本太高,数据专家也非常难找。 于是,Prediction IO 定位做一款开源的机器学习服务器,开发工程师和数据分析师可以使用它构建智能应用程序、基于已有数据来预测用户行为,并且还可以根据预测功能延生出不同的服务,比如个性化推荐、发现内容等。 由于他们是开源的系统,所以有很大的灵活性,可以让开发者自己去定制,往往只需要简单的几个步骤就可以搞定。 举例来说,开发者只要连接他们的服务器,然后导入用户行为数据,比如 John 买了咖啡、Mary 买了橙汁,再加入简单的 “一行代码”,就可以运用 Prediction IO 来进行多项预测。当你想要对 John 进行饮品推荐时,服务器就会自动返回五条 John 可能喜欢的饮品结果。更贴心的是,如果不希望总是给 John 推荐他热爱的摩卡、而想把店里的新品加进来,也同样只需要简单的设定就可以实现。 Prediction IO 其实是 Salesforce 的第 36 起收购案。Salesforce 已经在大数据分析和机器学习做了很多收购动作,包括最近的 MinHash,2014年 花 3 亿 9000 万美元收购的客户关系管理平台 RelateIQ(现在已是 salesforceiq 业务的核心),还有今年早些时候的智能日历公司 Tempo AI。 Salesforce 对外发言人表示,目前已于 Prediction IO 签署了最终收购协议。在收购完成后,Simon Chen 以及其他联合创始人都将加入 Salesforce,该公司仍旧会为第三方开发商服务。
作者在《协同过滤推荐算法》、《矩阵分解推荐算法》这两篇文章中介绍了几种经典的协同过滤推荐算法。我们在本篇文章中会继续介绍三种思路非常简单朴素的协同过滤算法,这几个算法的原理简单,容易理解,也易于工程实现,非常适合我们快速搭建推荐算法原型,并快速上线到真实业务场景中,作为其他更复杂算法的baseline。
某天,我在写代码的时候,无意中点开了 String 的 hashCode 方法。然后大致看了一下 hashCode 的实现,发现并不是很复杂。但是我从源码中发现了一个奇怪的数字,也就是本文的主角 31。这个数字居然不是用常量声明的,所以没法从字面意思上推断这个数字的用途。后来带着疑问和好奇心,到网上去找资料查询一下。在看完资料后,默默的感叹了一句,原来是这样啊。那么到底是哪样呢?
某天,我在写代码的时候,无意中点开了 String hashCode 方法。然后大致看了一下 hashCode 的实现,发现并不是很复杂。但是我从源码中发现了一个奇怪的数字,也就是本文的主角31。这个数字居然不是用常量声明的,所以没法从字面意思上推断这个数字的用途。后来带着疑问和好奇心,到网上去找资料查询一下。在看完资料后,默默的感叹了一句,原来是这样啊。那么到底是哪样呢?在接下来章节里,请大家带着好奇心和我揭开数字31的用途之谜。
本文介绍了如何使用Python和OpenCV库实现图像的局部敏感哈希(LSH)算法,并通过具体实验展示了该算法的有效性。同时,本文还探讨了如何将LSH算法应用于海量数据查找中,提供了一种高效的海量数据查找方法。
随着互联网和移动终端的发展,用户获取信息的需求越来越高——从以前单一地接受信息到现在主动获取自己感兴趣的资讯。搜狐新闻客户端的重要任务就是根据用户喜好向用户推荐他们感兴趣和关心的新闻,从而提升新闻点击率和阅读时长。
在业务中我们经常会遇到查重的需求,例如给定一个文本字符串,判断在已有的文档中,是否存在与其相似的。
FastANI(https://github.com/ParBLiSS/FastANI)是一个快速计算全基因组ANI的工具,其支持一对一、一对多、多对多基因组之间的两两比较。他将查询序列分割为短序列片段,使用基于MinHash的序列映射引擎Mashmap来计算同源映射并估计一致性。由于它使用了非比对的方法,因此计算速度大幅提升,但准确性与基于blast的方法相差不大。
Uber 的全球用户每天会产生500万条行程,保证数据的准确性至关重要。如果所有的数据都得到有效利用,t通过元数据和聚合的数据可以快速检测平台上的滥用行为,如垃圾邮件、虚假账户和付款欺诈等。放大正确的数据信号能使检测更精确,也因此更可靠。
HCR慧辰资讯收购瑞斡咨询,布局大数据应用层 自去年8月HCR以大数据商业应用第一股登陆新三板后,近日又与瑞斡咨询上海有限公司达成收购协议,将瑞斡正式纳入旗下。瑞斡是一家新型的数据应用型CRM公司,此次收购行为,预示慧辰资讯正加速其在数据应用层面的布局,在既定的大数据战略上再进一步。 ◆ ◆ ◆ ◆ ◆ 四个大数据项目拟落户贵州白云区,投资额达73.5亿元 截至目前,白云区在“2016云上贵州·大数据招商引智再出发”活动中,对接大数据招商引资项目4个,拟投资金额高达73.5亿元,已完成目
本文介绍了自然语言处理中的文本相似度计算方法和应用场景,并详细阐述了基于LSH(Locality-Sensitive Hashing)方法、基于树的方法(如随机森林、梯度提升树等)和基于图的方法(如k-Nearest Neighbors,k-NN)等应用场景。同时,文章还对未来的研究方向进行了展望,包括模型性能的评价、适用领域的拓展、计算效率的提升等。
大家好,又见面了,我是你们的朋友全栈君。 前言 博主github 博主个人博客http://blog.healerjean.com 感谢大神HashCode 感谢大神HashMap 1、一些常见的HashCode 1.1、Integer @Test public void Integer_HashCode(){ Integer one = new Integer(20); System.out.println(one.hashCode()
自从谷歌2014年花费4亿英镑收购了当时默默无闻的剑桥大学初创团队Deep Mind后,科技公司就一直热衷于收购AI科技公司。
作者|陈杨英杰 前言 自从谷歌2014年花费4亿英镑收购了当时默默无闻的剑桥大学初创团队Deep Mind后,科技公司就一直热衷于收购AI科技公司。 企业软件制造商希望通过收购AI科技公司来获得什么呢?他们无非是想使其产品或设备拥有智能预测的能力,来帮助用户更加方便快捷地使用。 社交媒体和互联网公司对图像和语音的识别技术非常感兴趣,这些可以提高用户的参与度。而当今一流的高科技公司则想制造一个智能私人助理来统一管理它们。 无论近期的抢购风潮是否只是资本泡沫,AI时代都已经到来,在此,我们为你盘点2016年至
官方文档链接:https://spark.apache.org/docs/2.2.0/ml-features.html
如今我们身处海量信息时代,大量时间被用来处理电子邮件、文章或社交媒体的帖子等信息,有预计称,这种消耗状态会超过半天时间,甚至更多。
局部敏感哈希示意图(from: Piotr Indyk) LSH的基本思想是:将原始数据空间中的两个相邻数据点通过相同的映射或投影变换(projection)后,这两个数据点在新的数据空间中仍然相邻的概率很大,而不相邻的数据点被映射到同一个桶的概率很小。也就是说,如果我们对原始数据进行一些hash映射后,我们希望原先相邻的两个数据能够被hash到相同的桶内,具有相同的桶号。对原始数据集合中所有的数据都进行hash映射后,我们就得到了一个hash table,这些原始数据集被分散到了hash table的桶内,每个桶会落入一些原始数据,属于同一个桶内的数据就有很大可能是相邻的,当然也存在不相邻的数据被hash到了同一个桶内。因此,如果我们能够找到这样一些hash functions,使得经过它们的哈希映射变换后,原始空间中相邻的数据落入相同的桶内的话,那么我们在该数据集合中进行近邻查找就变得容易了,我们只需要将查询数据进行哈希映射得到其桶号,然后取出该桶号对应桶内的所有数据,再进行线性匹配即可查找到与查询数据相邻的数据。换句话说,我们通过hash function映射变换操作,将原始数据集合分成了多个子集合,而每个子集合中的数据间是相邻的且该子集合中的元素个数较小,因此将一个在超大集合内查找相邻元素的问题转化为了在一个很小的集合内查找相邻元素的问题,显然计算量下降了很多。 那具有怎样特点的hash functions才能够使得原本相邻的两个数据点经过hash变换后会落入相同的桶内?这些hash function需要满足以下两个条件: 1)如果d(x,y) ≤ d1, 则h(x) = h(y)的概率至少为p1; 2)如果d(x,y) ≥ d2, 则h(x) = h(y)的概率至多为p2; 其中d(x,y)表示x和y之间的距离,d1 < d2, h(x)和h(y)分别表示对x和y进行hash变换。 满足以上两个条件的hash functions称为(d1,d2,p1,p2)-sensitive。而通过一个或多个(d1,d2,p1,p2)-sensitive的hash function对原始数据集合进行hashing生成一个或多个hash table的过程称为Locality-sensitive Hashing。 使用LSH进行对海量数据建立索引(Hash table)并通过索引来进行近似最近邻查找的过程如下: 1. 离线建立索引 (1)选取满足(d1,d2,p1,p2)-sensitive的LSH hash functions; (2)根据对查找结果的准确率(即相邻的数据被查找到的概率)确定hash table的个数L,每个table内的hash functions的个数K,以及跟LSH hash function自身有关的参数; (3)将所有数据经过LSH hash function哈希到相应的桶内,构成了一个或多个hash table; 2. 在线查找 (1)将查询数据经过LSH hash function哈希得到相应的桶号; (2)将桶号中对应的数据取出;(为了保证查找速度,通常只需要取出前2L个数据即可); (3)计算查询数据与这2L个数据之间的相似度或距离,返回最近邻的数据; LSH在线查找时间由两个部分组成: (1)通过LSH hash functions计算hash值(桶号)的时间;(2)将查询数据与桶内的数据进行比较计算的时间。因此,LSH的查找时间至少是一个sublinear时间。为什么是“至少”?因为我们可以通过对桶内的属于建立索引来加快匹配速度,这时第(2)部分的耗时就从O(N)变成了O(logN)或O(1)(取决于采用的索引方法)。 LSH为我们提供了一种在海量的高维数据集中查找与查询数据点(query data point)近似最相邻的某个或某些数据点。需要注意的是,LSH并不能保证一定能够查找到与query data point最相邻的数据,而是减少需要匹配的数据点个数的同时保证查找到最近邻的数据点的概率很大。 二、LSH的应用 LSH的应用场景很多,凡是需要进行大量数据之间的相似度(或距离)计算的地方都可以使用LSH来加快查找匹配速度,下面列举一些应用: (1)查找网络上的重复网页 互联网上由于各式各样的原因(例如转载、抄袭等)会存在很多重复的网页,因此为了提高搜索引擎的检索质量或避免重复建立索引,需要查找出重复的网页,以便进行一些处理。其大致的过程如下:将互联网的文档用一个集合或词袋向量来表征,然后通过一些hash运算来判断两篇文档之间的相似度,常用的有minhash+LSH、simhash。 (2)查找相似新闻网页或文章 与查找重复网页类似,可以通过hash的方法来判断两篇新闻网页或文章是否相
本文是一个基于图数据库 NebulaGraph 上的图算法、图数据库、图神经网络的 ID-Mapping 方法综述,除了基本方法思想的介绍之外,我还给大家弄了可以跑的 Playground。
作者:赵亮,NLPer;昆仑万维 · 预训练。 原文:https://zhuanlan.zhihu.com/p/641013454 整理: 青稞AI
在当前智能对话模型的发展中,强大的底层模型起着至关重要的作用。这些先进模型的预训练往往依赖于高质量且多样化的语料库,而如何构建这样的语料库,已成为行业中的一大挑战。
在过去的十年中,公司对客户的数据量以及客户用于与企业互动的渠道数量都有了显着的增长。人工智能在优化客户和客户交互方面可能会有很大的希望。 按2015年市场份额计算,五大客户关系管理(CRM)供应商分别是Salesforce,Oracle,SAP,Adobe Systems和Microsoft,这五家公司几乎占整个CRM市场的一半。他们都在投资机器学习和AI的内部开发,同时也在收购AI初创公司。 在下面的文章中,我们将探讨这五位CRM巨头的人工智能应用,帮助读者理解: · 五大CRM巨头都支持A
T客汇官网:tikehui.com 撰文 | 杨丽 今天,我们再不提究竟有谁能成为中国的 Salesforce,只看谁可具备 Salesforce 的增长潜力。 T 客汇整理了全球著名研究分析机构 C
第一次:所有更新,后面增量每天的数据更新26日:1:002:00,2:003:00,左闭右开,一个小时更新一次
领取专属 10元无门槛券
手把手带您无忧上云