首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    【深度学习】序列生成模型(六):评价方法计算实例:计算ROUGE-N得分【理论到程序】

    一、BLEU-N得分(Bilingual Evaluation Understudy) 【深度学习】序列生成模型(五):评价方法计算实例:计算BLEU-N得分 二、ROUGE-N得分(Recall-Oriented...中生成的一个候选序列, \mathbf{s^{(1)}}, ⋯ , \mathbf{s^{(K)}} 为从真实数据分布中采样得到的一组参考序列, \mathcal{W} 为从参考序列中提取N元组合的集合,ROUGE-N...算法的定义为: \text{ROUGE-N}(\mathbf{x}) = \frac{\sum_{k=1}^{K} \sum_{w \in \mathcal{W}} \min(c_w(\mathbf{x..._{w \in \mathcal{W}} c_w(\mathbf{s}^{(1)})+ \sum_{w \in \mathcal{W}} c_w(\mathbf{s}^{(2)})=12 \text{ROUGE-N..._{w \in \mathcal{W}} c_w(\mathbf{s}^{(1)})+ \sum_{w \in \mathcal{W}} c_w(\mathbf{s}^{(2)})=10 \text{ROUGE-N

    11810

    A.深度学习基础入门篇:机器学习常用评估指标:AUC、mAP、IS、FID、Perplexity、BLEU、ROUGE等详解

    6.ROUGE 评估指标:机器翻译模型 看过BLEU算法的同学知道,BLEU算法只关心生成序列的字词是否在参考序列中出现,而不关心参考序列中的字词是否在生成序列中出现,这在实际指标评估过程中可能会带来一些影响...下面还是以机器翻译为例,来探讨一下ROUGE的计算。 假设当前有一句源文s,以及相应的译文参考序列 r_1,r_2,...,r_n 。...机器翻译模型根据源文s生成了一个生成序列x,且W为根据候选序列x生成的N元单词组合,则ROUGE算法的计算方式为: \operatorname{ROUGE-N}(x)=\dfrac{\sum_{k=1}...从公式可以看到,ROUGE算法能比较好地计算参考序列中的字词是否在生成序列出现过,但没有关注生成序列的字词是否在参考序列中出现过,即ROUGE算法只关心生成序列的召回率,而不关心准确率。...从公式可以看到,ROUGE算法能比较好地计算参考序列中的字词是否在生成序列出现过,但没有关注生成序列的字词是否在参考序列中出现过,即ROUGE算法只关心生成序列的召回率,而不关心准确率。

    1.6K40

    A.深度学习基础入门篇:机器学习常用评估指标:AUC、mAP、IS、FID、Perplexity、BLEU、ROUGE等详解

    A.深度学习基础入门篇二:机器学习常用评估指标:AUC、mAP、IS、FID、Perplexity、BLEU、ROUGE等详解1.基础指标简介机器学习的评价指标有精度、精确率、召回率、P-R曲线、F1...6.ROUGE 评估指标:机器翻译模型看过BLEU算法的同学知道,BLEU算法只关心生成序列的字词是否在参考序列中出现,而不关心参考序列中的字词是否在生成序列中出现,这在实际指标评估过程中可能会带来一些影响...下面还是以机器翻译为例,来探讨一下ROUGE的计算。假设当前有一句源文s,以及相应的译文参考序列$r_1,r_2,...,r_n$。...机器翻译模型根据源文s生成了一个生成序列x,且W为根据候选序列x生成的N元单词组合,则ROUGE算法的计算方式为:$\operatorname{ROUGE-N}(x)=\dfrac{\sum{k=1}^...从公式可以看到,ROUGE算法能比较好地计算参考序列中的字词是否在生成序列出现过,但没有关注生成序列的字词是否在参考序列中出现过,即ROUGE算法只关心生成序列的召回率,而不关心准确率。

    1.7K30

    NLP笔记:生成问题常用metrics整理

    样例说明 我们给出一个例子来进行具体的计算说明如下: 生成文本:明天天天气好 参考文本:今天天气真的好 2021-03-28 (40).png 3. rouge rouge指标与bleu指标极其相似,但是...,相较于bleu关注于生成的精度,rouge更看重生成的召回。...除此之外,rouge没有句长惩罚因子,他的公式可以直接表达为如下形式: 2021-03-28 (41).png 根据n的取值不同,rouge可以分为rouge-1, rouge-2等等。...另外还有常用的rouge指标还有rouge-l,他是rouge-n的一种变体: 它的分母还是参考文本的长度,他的分子则是生成文本与参考文本的最长公共子序列。...参考链接 语言模型评价指标Perplexity 一种机器翻译的评价准则——Bleu 机器翻译自动评估-BLEU算法详解 自动文摘评测方法:Rouge-1、Rouge-2、Rouge-L、Rouge-S

    1.8K20

    【论文笔记】基于强化学习的句子摘要排序

    作者通过强化学习并优化ROUGE(recall-oriented understanding for gisting evaluation)对句子进行排序。 什么是 ROUGE呢?...ROUGE是自动文档摘要的相关国际测评中常常用到的一种内部评价方法,当然还有其他的方法比如Edmundson,我们这里会简单对 ROUGE进行介绍,其包含 ROUGE-N, ROUGE-L(最长公共子句..., Fmeasure), ROUGE-W(带权重的最长公共子句, Fmeasure), ROUGE-S(不连续二元组, Fmeasure) 四种。...由于ROUGE的计算公式是根据召回率进行改的,类比召回率可知,rouge=系统算法生成的摘要与参考摘要相同的N-gram数/参考摘要中的N-gram总数。 为什么使用ROUGE作为评价指标呢?...针对这些问题,作者采用的训练策略不是最大化ground truth的似然,而是对文档中的每个句子预测单一的rouge分数,然后选出分数最高高的m个句子组成摘要。

    85050

    网络表情NLP(一)︱颜文字表情实体识别、属性检测、新颜发现

    可参考:python︱flashtext高效关键词查找与替换 rouge,Rouge-1、Rouge-2、Rouge-L分别是:生成的摘要的1gram-2gram在真实摘要的1gram-2gram的准确率召回率和...1.1 模块一:rouge rouge是自动文本摘要算法的评估指标: from rouge import Rouge a = ["i am a student from xx school"] #...预测摘要 (可以是列表也可以是句子) b = ["i am a student from school on china"] #真实摘要 rouge = Rouge() rouge_score = rouge.get_scores...(a, b) print(rouge_score[0]["rouge-1"]) print(rouge_score[0]["rouge-2"]) print(rouge_score[0]["rouge-l...,阈值,一定要相似性大于才会给出;如果是'rouge-1'比较合适的阈值在0.75 - score_type = 'rouge-2',rouge的得分类型,n-grams - stat

    1.4K20

    干货|当深度学习遇见自动文本摘要,seq2seq+attention

    但由于ROUGE并不可导的,传统的求梯度+backpropagation并不能直接应用到ROUGE。因此,一个很自然的想法是,利用强化学习将ROUGE指标加入训练目标。...,允许摘要拥有更多的灵活性,同时针对ROUGE的优化也直接提升了模型的ROUGE评分。...ROUGE是Lin提出的一个指标集合,包括一些衍生的指标,最常用的有ROUGE-n,ROUGE-L,ROUGE-SU: ROUGE-n:该指标旨在通过比较生成的摘要和参考摘要的n-grams(连续的n个词...常用的有ROUGE-1,ROUGE-2,ROUGE-3。 ROUGE-L:不同于ROUGE-n,该指标基于最长公共子序列(LCS)评价摘要。...但另一方面,从以上对ROUGE指标的描述可以看出,ROUGE基于字的对应而非语义的对应,生成的摘要在字词上与参考摘要越接近,那么它的ROUGE值将越高。

    3.5K100

    当深度学习遇见自动文本摘要

    但由于ROUGE并不可导的,传统的求梯度+backpropagation并不能直接应用到ROUGE。因此,一个很自然的想法是,利用强化学习将ROUGE指标加入训练目标。...,允许摘要拥有更多的灵活性,同时针对ROUGE的优化也直接提升了模型的ROUGE评分。...ROUGE是Lin提出的一个指标集合,包括一些衍生的指标,最常用的有ROUGE-n,ROUGE-L,ROUGE-SU: ROUGE-n:该指标旨在通过比较生成的摘要和参考摘要的n-grams(连续的n个词...常用的有ROUGE-1,ROUGE-2,ROUGE-3。 ROUGE-L:不同于ROUGE-n,该指标基于最长公共子序列(LCS)评价摘要。...但另一方面,从以上对ROUGE指标的描述可以看出,ROUGE基于字的对应而非语义的对应,生成的摘要在字词上与参考摘要越接近,那么它的ROUGE值将越高。

    2.4K90

    【NLP】文本生成评价指标的进化与推翻

    ROUGE大致分为四种(常用的是前两种): ROUGE-N (将BLEU的精确率优化为召回率) ROUGE-L (将BLEU的n-gram优化为公共子序列) ROUGE-W (将ROUGE-L的连续匹配给予更高的奖励...ROUGE-N “N”指的是N-gram,其计算方式与BLEU类似,只是BLEU基于精确率,而ROUGE基于召回率。...ROUGE-N 会分别计算机器译文和这些参考译文的 ROUGE-N 分数,并取其最大值,公式如下。这个方法也可以用于 ROUGE-L,ROUGE-W 和 ROUGE-S。 ? 2....ROUGE-W ROUGE-W 是 ROUGE-L 的改进版,考虑下面的例子,X表示参考译文,而Y1,Y2表示两种机器译文。 ?...但是采用 ROUGE-L 计算得到的分数确实一样的,即 ROUGE-L(X, Y1)=ROUGE-L(X, Y2)。

    5.4K40

    当深度学习遇见自动文本摘要

    但由于ROUGE并不可导的,传统的求梯度+backpropagation并不能直接应用到ROUGE。因此,一个很自然的想法是,利用强化学习将ROUGE指标加入训练目标。...,允许摘要拥有更多的灵活性,同时针对ROUGE的优化也直接提升了模型的ROUGE评分。...ROUGE是Lin提出的一个指标集合,包括一些衍生的指标,最常用的有ROUGE-n,ROUGE-L,ROUGE-SU: ROUGE-n:该指标旨在通过比较生成的摘要和参考摘要的n-grams(连续的n个词...常用的有ROUGE-1,ROUGE-2,ROUGE-3。 ROUGE-L:不同于ROUGE-n,该指标基于最长公共子序列(LCS)评价摘要。...但另一方面,从以上对ROUGE指标的描述可以看出,ROUGE基于字的对应而非语义的对应,生成的摘要在字词上与参考摘要越接近,那么它的ROUGE值将越高。

    11.3K40

    Transformer多轮对话改写实践

    3.1验证集上效果比较 rouge-1 rouge-2 rouge-l Baseline 0.906 0.836 0.897 本文 0.907 0.827 0.88 Baseline基于完全copy...备注: 1)Rouge-1 rouge-1 比较生成文本和参考文本之间的重叠词(字)数量 2) Rouge-2 rouge-2 比较生成文本和参考文本之间的 2-gram 重叠的数量 3) Rouge-L...rouge-l 根据生成文本和参考文本之间的最长公共子序列得出 3.2 预测时间消耗(2000条) 时间 Baseline 1min 本文 2s 在小破卡上,baseline模型需要一个一个解码...rouge-1 15000 5000 1000 500 Baseline 0.906 0.865 0.375 0.09 本文 0.907 0.872 0.8 0.794 生成式改写任务对数据依赖比较高...rouge-1 rouge-2 rouge-l Baseline 0.92 0.893 0.955 本文 0.938 0.926 0.965 基于指针抽取的方法对负样本的识别效果会更好。

    2.6K40
    领券