在這種概率潛在語義分析模型中,多義詞被歸入不同的主題下,而同義詞被歸入同一主題下,。
這樣可以避免同義詞和多義詞對(duì)文本相似度計(jì)算的影響,。
然而,概率潛在語義分析模型的參數(shù)隨著文檔數(shù)量的增加而線性增長(zhǎng),。
很容易出現(xiàn)過擬合和泛化不良,。
這種情況很大程度又是因?yàn)榫S度爆炸。
因?yàn)檫^擬合只在高維空間中預(yù)測(cè)相對(duì)少的參數(shù)和低維空間中預(yù)測(cè)多參數(shù)這兩種情況下發(fā)生,。...