首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    非主流自然语言处理——遗忘算法系列(二):大规模语料词库生成

    一、前言   本文介绍利用牛顿冷却模拟遗忘降噪,从大规模文本中无监督生成词库的方法。 二、词库生成     算法分析,先来考虑以下几个问题     问:目标是从文本中抽取词语,是否可以考虑使用遗忘的方法呢?     答:可以,词语具备以相对稳定周期重复再现的特征,所以可以考虑使用遗忘的方法。这意味着,我们只需要找一种适当的方法,将句子划分成 若干子串,这些子串即为“候选词”。在遗忘的作用下,如果“候选词”会周期性重现,那么它就会被保留在词库中,相反如果只是偶尔或随机出现,则会逐渐被遗 忘掉。     问:那

    013

    非主流自然语言处理:大规模语料词库自动生成

    一、前言   写这篇文时,突然想到一个问题,大家的词库都是从哪来的?   之所以会这么有些意外的问,是因为从没把词库当成个事儿:平时处理微博,就用程序跑一下微博语料获得微博词库;处理新闻,程序跑一下新闻语料获得新闻词库。甚至没有把跑出来的词库存下来的习惯,谁知道过两天是不是又出什么新词,与其用可能过时的,不如随手生成个新鲜出炉的。   好吧,我承认我这是在显摆。如果你也想和我一样,想要随用随丢,任性它一把,那随我来。   如果你只想要这样一个程序,可以直奔这里下载。 回复公众号"词库"获取。   如果你

    012
    领券