首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

MixCSE:困难样本在句子表示中的使用

一个好的向量表示应该同时满足Alignment 和 uniformity,前者表示相似的向量距离应该相近,后者就表示向量在空间上应该尽量均匀,最好是各向同性的[1]。...因此,才会有一系列的论文旨在解决各向异性,比如bert-flow、bert-whitening。 对比学习在句子表示中的使用? ​...问题是对于大量的数据而言,我们怎么去构建正样本和负样本? ConsBERT使用大量的数据增强策略,比如token shuffling和cutoff。...Kim, Yoo, and Lee利用bert的隐含层表示和最后的句嵌入构建正样本对。SimCSE 使用不同的dropout mask将相同的句子传递给预训练模型两次,以构建正样本对。...目前的一些模型主要关注的是在生成正样本对时使用数据增强策略,而在生成负样本对时使用随机采样策略。在计算机视觉中,困难样本对于对比学习是至关重要的,而在无监督对比学习中还没有被探索。

1.9K20
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    基于JAX的大规模并行MCMC:CPU25秒就可以处理10亿样本

    JAX 在概率编程语言环境中似乎很有趣,原因如下: 在大多数情况下,它完全可以替代 Numpy; Autodiff 很简单; 它的正向微分模式使得计算高阶导数变得容易; JAX 使用 XLA 执行...如果 TFP 没有在堆栈上预先分配内存,不断地分配内存也会影响性能。 在概率编程中重要的度量是每秒有效采样的数量,而不是每秒采样数量,前者后者更像是你使用的算法。...Tensorflow Probability 对于 TFP,我们使用库中实现的随机游走 Metropolis 算法: from functools import partial import numpy...你将注意到 TFP 实现的缺失点。由于 TFP 算法存储所有的样本,所以它会耗尽内存。这在 XLA 编译的版本中没有发生,可能是因为它使用了内存效率更高的数据结构。...只有当样本的数量变得很大,并且总抽样时间取决于抽取样本的时间时,你才开始从编译中获益。 没有什么神奇的:JIT 编译意味着一个明显的、但不变的计算开销。 我建议在大多数情况下使用 JAX。

    1.7K00

    【数据挖掘】贝叶斯公式在垃圾邮件过滤中的应用 ( 先验概率 | 似然概率 | 后验概率 )

    表示方法 : ① 收到邮件 D : D 表示收到的邮件 , 其有一定的特征 , 如包含指定的单词 等 ; ② 收到邮件 D 的概率 : D 是符合一定要求的邮件 , 不是每一个收到的邮件都有...引入贝叶斯公式 : ① 逆向概率 ( 似然概率 | 条件概率 ) : 收到垃圾邮件后 , 该邮件是 D 的概率 ; 这个概率可以由训练学习得到 , 数据量足够大 , 是可以知道的 ; ② 先验概率...引入贝叶斯公式 : ① 逆向概率 ( 似然概率 | 条件概率 ) : 收到正常邮件 H_1 后 , 该邮件是 D 的概率 ; 这个概率可以由训练学习得到 , 数据量足够大 , 是可以知道的 ;...获取这两个概率 : 从系统后台服务器中的邮件库中获取垃圾邮件 和 正常邮件比例即可 ; VII . 似然概率 P(D|H_1) 和 P(D|H_0) ---- 1 ....P(D|H_0) 概率 : 表示收到垃圾邮件时 , 该邮是 D 邮件的概率 , 即具有 D 邮件的特征 ; 需要在当前邮件库中找到具有该邮件 D 特征的邮件出现的概率 ;

    1.2K10

    腾讯云TKE-GPU案例: TensorFlow 在TKE中的使用

    背景 用户在TKE中部署TensorFlow, 不知道如何部署已经如何验证是否可以使用GPU,还是用的cpu....下面主要演示如何部署TensorFlow以及验证TensorFlow在TKE中是否可以使用GPU 在TKE中添加GPU节点 在TKE控制台中添加GPU节点 [GPU] 检查状态: 节点状态为健康说明添加成功...访问测试: [image.png] 获取token 在TKE控制台登陆到TensorFlow 容器中执行一下命令: jupyter notebook list [image.png] 登陆时输入这个token...[image.png] 到目前为止我们的服务部署完成了 验证GPU 在TensorFlow的jupyter web页面中选择new-> python3: [image.png] 输入一下代码: import...为了将 TensorFlow 限制为使用一组特定的 GPU,我们使用 tf.config.experimental.set_visible_devices 方法。

    2K90

    TensorFlow团队:TensorFlow Probability的简单介绍

    你的数据是结构化的 – 例如,使用组,空间,计算图或语言语义,并且你希望使用先验信息来获取这个结构。 你有一个,如我们在开发者大会上所讨论的,依靠测量值重构等离子体的逆问题。...什么是TensorFlow Probability? 我们的机器学习概率工具为TensorFlow生态系统中的概率推理和统计分析提供了模块化抽象。 ?...示例: 使用EDWARD2构建线性混合效应模型 线性混合效应模型是一种对数据中结构化关系进行建模的简单方法。...作为演示,我们使用R中流行的lme4包中的InstEval数据集,它由大学课程及其评级组成。...使用TFP构建变分自动编码器 变分自动编码器是一种机器学习模型,它使用一个学习系统来表示一些低维空间中的数据,并且使用第二学习系统来将低维表示还原为原本的输入。

    2.2K50

    资源 | 概率编程工具:TensorFlow Probability官方简介

    TensorFlow Probability 适用于以下需求: 希望建立一个生成数据模型,推理其隐藏进程。 需要量化预测中的不确定性,而不是预测单个值。 训练集具有大量相对于数据点数量的特征。...谷歌的机器学习概率工具为 TensorFlow 生态系统中的概率推理和统计分析提供模块抽象。 ? TensorFlow Probability 的结构示意图。...Edward2 的线性混合效应模型 线性混合效应模型是对数据中结构化关系进行建模的简单方法。也称为分级线性模型,它分享各组数据点之间的统计强度,以便改进对任何单个数据点的推论。...带有 TFP 实用工具的变分自编码器 变分自编码器是一种机器学习模型,使用一个学习系统来表示一些低维空间中的数据,并且使用第二学习系统来将低维数据还原为原本的输入值。...为了拟合神经网络,我们将使用变分推理,这是一套方法来逼近神经网络在权重和偏差上的后验分布。

    1.5K60

    在C#下使用TensorFlow.NET训练自己的数据集

    今天,我结合代码来详细介绍如何使用 SciSharp STACK 的 TensorFlow.NET 来训练CNN模型,该模型主要实现 图像的分类 ,可以直接移植该代码在 CPU 或 GPU 下使用,并针对你们自己本地的图像数据集进行训练和推理...实际使用中,如果你们需要训练自己的图像,只需要把训练的文件夹按照规定的顺序替换成你们自己的图片即可。...我们在会话中运行多个线程,并加入队列管理器进行线程间的文件入队出队操作,并限制队列容量,主线程可以利用队列中的数据进行训练,另一个线程进行本地文件的IO读取,这样可以实现数据的读取和模型的训练是异步的,...test数据集进行预测,并统计准确率 · 计算图中增加了一个提取预测结果Top-1的概率的节点,最后测试集预测的时候可以把详细的预测数据进行输出,方便实际工程中进行调试和优化。...完整代码可以直接用于大家自己的数据集进行训练,已经在工业现场经过大量测试,可以在GPU或CPU环境下运行,只需要更换tensorflow.dll文件即可实现训练环境的切换。

    1.5K20

    业界 | 谷歌正式发布TensorFlow 1.5:终于支持CUDA 9和cuDNN 7

    警告:在以非空 import_scope 变量应用 import_meta_graph 之后,这可能会破坏带已保存分区变量图的加载中的检查点。 修复离线 debugger 中阻止查看事件的 bug。...确保你的主服务器和辅助服务器在相同版本的 TensorFlow 上运行,以避免兼容性问题。 修复 BlockLSTM cell 的 peephole 实现中的 bug。...通过重写 log_det_jacobian 的 dtype 以在 TransformedDistribution 中匹配 log_prob。...添加一种运行 ops 的方式,在 MonitoredSession 中使用阶跃函数。 添加 DenseFlipout 概率层(probabilistic layer)。...重新标准化 DenseVariational,以作为其它概率层的更简化模板。 tf.data 现在在数据集元素中支持 tf.SparseTensor。 可以进行遍历 Tensor 的计算。

    1K60

    强化学习-策略网络

    我一直觉得强化学习是走向强人工智能的一个必经过程,现有的许多问答系统中也时常会出现强化学习的身影。本文使用策略网络玩强化学习入门的平衡杆游戏。 代码参考自龙良曲的tensorflow2开源书籍。...learning_rate = 0.0002 gamma = 0.98 class Policy(keras.Model): # 策略网络,生成动作的概率分布 def...tape为梯度记录器 R = 0 # 终结状态的初始回报为0 for r, log_prob in self.data[::-1]:#逆序取 R...trick是 因果性 ,只考虑从某时间戳开始的累积回报,而不是总回报,所以代码中是逆序计算梯度的。...代码中的策略网络使用两层全连接层实现的,其实可以换成任何其他形式。 我一直认为朴素的策略网络梯度更新的思想其实十分简单直观:当回报是正的,就提高做过的动作的概率,反之就降低。

    51920

    在tensorflow2.2中使用Keras自定义模型的指标度量

    使用Keras和tensorflow2.2可以无缝地为深度神经网络训练添加复杂的指标 Keras对基于DNN的机器学习进行了大量简化,并不断改进。...这里,我们将展示如何基于混淆矩阵(召回、精度和f1)实现度量,并展示如何在tensorflow 2.2中非常简单地使用它们。...在训练中获得班级特定的召回、精度和f1至少对两件事有用: 我们可以看到训练是否稳定,每个类的损失在图表中显示的时候没有跳跃太多 我们可以使用一些技巧-早期停止甚至动态改变类权值。...自tensorflow 2.2以来,添加了新的模型方法train_step和test_step,将这些定制度量集成到训练和验证中变得非常容易。...由于tensorflow 2.2,可以透明地修改每个训练步骤中的工作(例如,在一个小批量中进行的训练),而以前必须编写一个在自定义训练循环中调用的无限函数,并且必须注意用tf.功能启用自动签名。

    2.5K10

    TensorFlow走过的坑之---数据读取和tf中batch的使用方法

    首先介绍数据读取问题,现在TensorFlow官方推荐的数据读取方法是使用tf.data.Dataset,具体的细节不在这里赘述,看官方文档更清楚,这里主要记录一下官方文档没有提到的坑,以示"后人"。...原作者使用TensorFlow在cifar10上成功自动生成了网络结构,并取得了不错的效果。...要想读取大数据集,我找到的官方给出的方案有两种: 使用TFRecord格式进行数据读取。 使用tf.placeholder,本文将主要介绍这种方法。...相反他把数据操作写到了另一个类(文件)中,比如说在model.py中他定义了 class Model(): def __init__(): ......然后在main.py中他只是sess.run(model.acc),即 with tf.Session() as sess: ...

    1.8K20

    TensorFlow走过的坑之---数据读取和tf中batch的使用方法

    首先介绍数据读取问题,现在TensorFlow官方推荐的数据读取方法是使用tf.data.Dataset,具体的细节不在这里赘述,看官方文档更清楚,这里主要记录一下官方文档没有提到的坑,以示"后人"。...原作者使用TensorFlow在cifar10上成功自动生成了网络结构,并取得了不错的效果。...要想读取大数据集,我找到的官方给出的方案有两种: 使用TFRecord格式进行数据读取。 使用tf.placeholder,本文将主要介绍这种方法。...相反他把数据操作写到了另一个类(文件)中,比如说在model.py中他定义了 class Model(): def __init__(): ......然后在main.py中他只是sess.run(model.acc),即 with tf.Session() as sess: ...

    2.6K20

    回顾︱DeepAR 算法实现更精确的时间序列预测(二)

    AWS也为此做了很多开发文档: 在机器学习中,目前主流的方法是利用LSTM等递归神经网络来对未来数据进行预测,这次介绍的DeepAR模型也不例外,不过不同的是,DeepAR模型并不是直接简单地输出一个确定的预测值...后者尤其适合产能规划等商业应用,在此类应用中,具体的预测分位数比可能性最大的结果更为重要。 例如,根据预测自动为运动鞋下订单的系统可能需要生成订单数量,以使仓库库存在 X% 的概率下满足客户需求。...对金融时序的独特有效性: DeepAR模型不同于以往的时间序列预测模型,它输出的是未来数据的一个概率分布,我们需要通过采样的方法,用DeepAR递归地生成对于未来一段时间数据的预测,不过因为是从概率分布中采样得到的...对于推理,训练后的模型采用输入目标时间序列,该序列在训练期间可能已使用,也可能未使用,并预测下一个 prediction_length 值的概率分布。...换而言之,时间序列在文件中以随机顺序出现。 start — 格式为 YYYY-MM-DD HH:MM:SS 的字符串。开始时间戳不能包含时区信息。 target — 表示时间序列的浮点值或整数的数组。

    3.5K20

    Actor Critic——一个融合基于策略梯度和基于值优点的强化学习算法

    我们把算法分成两部分,Actor和Critic,他们都能用不同的神经网络来代替。在Policy Gradient中提到过,现实中的reward会左右Actor的更新情况。...但事物总有他坏的一面,Actor-Critic涉及到了两个神经网络,而且每次都是在连续状态中更新参数,每次参数更新前后都存在相关性,导致神经网络只能片面地看待问题,甚至导致神经网络学不到东西。...Google DeepMind为了解决这个问题,修改了Actor Critic的算法,将之前在Atari上获得成功的DQN网络加入进Actor Critic系统中,这种新算法叫做 Deep Deterministic...('exp_v'): 2 log_prob = tf.log(self.acts_prob[0, self.a]) # log 动作概率 3 self.exp_v = tf.reduce_mean...(log_prob * self.td_error) # log 概率 * TD 方向 4with tf.variable_scope('train'): 5 # 因为我们想不断增加这个 exp_v

    1.9K20

    TensorFlow正式发布1.5.0,支持CUDA 9和cuDNN 7,双倍提速

    在fp16 GEMM中添加对CUBLAS_TENSOR_OP_MATH的支持 在NVIDIA Tegra设备上添加对CUDA的支持 错误修复和其他更改 文档更新: 说明只能在64位机器上安装TensorFlow...确保主服务器和工作服务器运行相同版本的TensorFlow,以避免兼容性问题。 修复BlockLSTM单元的窥视孔peephole实现中的bug。...通过将dtype的log_det_jacobian转换为与TransformedDistribution中的log_prob匹配来修复bug。...修复import_meta_graph在处理分区变量时的错误,确保tf.distributions.Multinomial不会在log_prob中下溢。...添加一个方法来使用MonitoredSession的step函数运行ops。 添加DenseFlipout概率层。 训练时有一个新的标志ignore_live_threads。

    1K60

    tensorflow LSTM + CTC实现端到端OCR

    更加细节的实现方法见另一篇 http://ilovin.me/2017-04-23/tensorflow-lstm-ctc-input-output/ 生成数据 利用captcha来生成验证码,具体生成验证码的代码...label,一开始是想用py_func来实现,后来发现传入string会有问题,所以最后还是选择生成tf.record文件,关于不定长问题,把比较短的标签在后面补零(0是blank的便签,就是说自己的类别中不能出现...tensorflow lstm输入格式的问题,其label tensor应该是稀疏矩阵,所以读取图片和label之后,还要进行一些处理,具体可以看代码 在公众号 datadw 里 回复 OCR 即可获取...1.0.1的版本做了微调,使用了Adam作为optimizer。...而beam_search_decoder每次会保存取k个概率最高的结果,以此为基础再进行预测,并将下一个字符出现的概率与当前k个出现的概率相乘,这样就可以减缓贪心造成的丢失好解的情况,当k=1的时候,二者就一样了

    4.3K30
    领券