僅從詞語角度分析,1.2句是重復出現的,3.4句是重復出現的。但其實可以發現1.2句主要跟食物有關,3.4句主要跟動物有關,而food、兩個詞在四句話里均未出現,有沒有可能判斷出四句話中所包含的兩個主題呢,或者當兩篇文章共有的高頻詞很少,如一篇講一句話提取關鍵詞算法,一篇講,是否可以判斷兩篇文章都包含food這個主題呢,如何生成主題、如何分析文章的主題,這就是topic-model所研究的內容。對文本進行LSA(隱形語義分析)。在直接對詞頻進行分析的研究中,可以認為通過詞語來描述文章,即一層的傳遞關系。而topic-model則認為文章是由主題組成,文章中的詞,是以一定概率從主題中選取的。不同的主題下,詞語出現的概率分布是不同的。比如”魚雷“一詞,在”軍事“主題下出現的概率遠大于在”食品”主題下出現的概率。即topic-model認為文檔和詞語之間還有一層關系。首先假設每篇文章只有一個主題z,則對于文章中的詞w,是根據在z主題下的概率分布p(w|z)生成的。則在已經選定主題的前提下,整篇文檔產生的概率是而這種對每篇文章只有一個主題的假設顯然是不合理的,事實上每篇文章可能有多個主題一句話提取關鍵詞算法,即主題的選擇也是服從某概率分布p(t)的因此根據LDA模型,所有變量的聯合分布為表示topic下詞的分布,表示文檔下topic的分布。是第m個文檔的單詞總數。和表示詞語和topic的概率分布先驗參數。而學習LDA的過程,就是通過觀察到的文檔集合,學習的過程。