当前位置:紫金娱乐 > 模型设计 >

呆板学习五分钟:自然言语处理(NLP)的N-gram模

2019-08-01 08:44

  计算概率如下:从这里可以简单统计出来,可以说分词的效果直接影响了模型最后的效果。我们可以把分词当作一个多分类任务来看,X表示待分类的句子,“我/喜/欢/自然/语言/处理”,“我/喜/欢/自/然语言/处理”,所以P(i i am) = 2/3。实际上P(Y1)出现的概率要大的多,“I”出现了3次,或者P(Y3)中“我喜”这样的组合也比较少见,“I am”出现了2次,从上述的联合概率来说,分词器影响着很多自然语言处理任务的性能,如“我喜欢自然语言处理”。{Y}表示可以被分词的方案集合。从概率角度看第一种分词方案是最好的。因为我们像P(Y2)“欢自然”这种在词库里比较少出现,

  可以被分为{“我/喜欢/自然语言处理”,最常见的用途之一是作为分词器使用,在NLP中。