上下文窗口中的單詞共現(xiàn)可能攜帶豐富的語(yǔ)義信息。例如,在大型語(yǔ)料庫(kù)中,“固體”一詞與“冰”比“蒸汽”更可能同時(shí)出現(xiàn),但“氣體”一詞與“蒸汽”一起出現(xiàn)的頻率可能高于“冰”。此外,可以預(yù)先計(jì)算此類(lèi)共現(xiàn)的全球語(yǔ)料庫(kù)統(tǒng)計(jì)數(shù)據(jù):這可以提高培訓(xùn)效率。為了利用整個(gè)語(yǔ)料庫(kù)中的統(tǒng)計(jì)信息進(jìn)行詞嵌入,讓我們首先重新審視第 15.1.3 節(jié)中的 skip-gram 模型,但使用全局語(yǔ)料庫(kù)統(tǒng)計(jì)信息(例如共現(xiàn)計(jì)數(shù))來(lái)解釋它。
15.5.1。Skip-Gram 與全球語(yǔ)料庫(kù)統(tǒng)計(jì)
表示為qij條件概率 P(wj∣wi)詞的wj給定的詞wi在 skip-gram 模型中,我們有
任何索引在哪里i載體vi和 ui代表詞wi分別作為中心詞和上下文詞,并且 V={0,1,…,|V|?1}是詞匯表的索引集。
考慮詞wi可能在語(yǔ)料庫(kù)中多次出現(xiàn)。在整個(gè)語(yǔ)料庫(kù)中,所有上下文詞無(wú)論在哪里wi被作為他們的中心詞形成一個(gè)多重集 Ci允許同一元素的多個(gè)實(shí)例的單詞索引。對(duì)于任何元素,其實(shí)例數(shù)稱(chēng)為其多重性。為了舉例說(shuō)明,假設(shè)這個(gè)詞wi在語(yǔ)料庫(kù)和上下文詞的索引中出現(xiàn)兩次 wi作為他們?cè)趦蓚€(gè)上下文窗口中的中心詞是 k,j,m,k和k,l,k,j. 因此,多重集 Ci={j,j,k,k,k,k,l,m},其中元素的多樣性j,k,l,m分別為 2、4、1、1。
現(xiàn)在讓我們表示元素的多重性j在多重集中 Ci作為xij. 這是單詞的全局共現(xiàn)計(jì)數(shù)wj(作為上下文詞)和詞 wi(作為中心詞)在整個(gè)語(yǔ)料庫(kù)中的同一上下文窗口中。使用這樣的全局語(yǔ)料庫(kù)統(tǒng)計(jì),skip-gram 模型的損失函數(shù)相當(dāng)于
我們進(jìn)一步表示xi上下文窗口中所有上下文詞的數(shù)量wi作為他們的中心詞出現(xiàn),相當(dāng)于|Ci|. 出租pij是條件概率xij/xi用于生成上下文詞 wj給定的中心詞wi
評(píng)論
查看更多