內(nèi)容評(píng)分實(shí)例
介紹應(yīng)用的案例前,先要說(shuō)明下應(yīng)用的環(huán)境和具體的需求:假設(shè)有一個(gè)內(nèi)容分享網(wǎng)站,需要將網(wǎng)站中的內(nèi)容進(jìn)行評(píng)分,以5分制的形式展現(xiàn),即每個(gè)內(nèi)容的評(píng)分只可能出現(xiàn)1-5這5個(gè)分值,目的是展現(xiàn)出網(wǎng)站中每個(gè)內(nèi)容的熱門(mén)程度,為用戶的選擇和閱讀提供參考。
這是一個(gè)最簡(jiǎn)單的內(nèi)容評(píng)分的應(yīng)用,上面已經(jīng)非常明確的說(shuō)明了評(píng)分的目的——區(qū)分內(nèi)容的熱門(mén)度,以及最終的數(shù)據(jù)展現(xiàn)——以5分制的形式展現(xiàn)。對(duì)于這樣一個(gè)明確了的數(shù)據(jù)需求,我們就可以選擇指標(biāo)、搭建模型、并最終輸出結(jié)果。
1、選擇指標(biāo)
評(píng)價(jià)內(nèi)容的熱門(mén)度,貌似挺簡(jiǎn)單的,直接用內(nèi)容瀏覽量(PV)作為評(píng)定指標(biāo)不就行了?確實(shí),PV是個(gè)不錯(cuò)的選擇,也是最簡(jiǎn)單的一種選擇,但其實(shí)還有更好的選擇,訪問(wèn)數(shù)(Visits),訪問(wèn)用戶數(shù)(UV),這兩個(gè)指標(biāo)能剔除同一個(gè)用戶短時(shí)間內(nèi)連續(xù)刷新同一內(nèi)容的情況,所以我們不妨選擇訪問(wèn)用戶數(shù)UV來(lái)作為評(píng)價(jià)指標(biāo)。
2、構(gòu)建評(píng)分模型
現(xiàn)在才是文章的關(guān)鍵內(nèi)容,需要對(duì)內(nèi)容的熱門(mén)程度進(jìn)行評(píng)價(jià)首先要消除指標(biāo)的度量單位,并把分值的分布區(qū)間控制在要求的范圍內(nèi)—1-5分。
消除度量單位?也許你已經(jīng)想到了,還是數(shù)據(jù)的標(biāo)準(zhǔn)化,這篇文章中的方法已經(jīng)在多處使用,可以說(shuō)是很多數(shù)據(jù)分析和數(shù)據(jù)挖掘的基礎(chǔ)步驟。
Min-Max歸一化評(píng)分
Min-Max是最常用的數(shù)據(jù)歸一化方法(詳見(jiàn)數(shù)據(jù)標(biāo)準(zhǔn)化這篇文章的描述),處理后的數(shù)據(jù)分布在[0,1]的區(qū)間內(nèi),接下來(lái)只要把0-1的數(shù)值轉(zhuǎn)化1-5這5個(gè)分值就行。很簡(jiǎn)單,先乘以4使數(shù)據(jù)落在[0,4]的分布區(qū)間,四舍五入,是不是只剩下0-4這5分分值了,再加1就可以得到我們想要的結(jié)果了。我們來(lái)看看處理后的各分值內(nèi)容分布情況的示例:
Min-Max的評(píng)分結(jié)果的每個(gè)分值的內(nèi)容數(shù)量分布是不可控的,一般會(huì)跟網(wǎng)站中熱門(mén)內(nèi)容和冷門(mén)內(nèi)容的比例直接相關(guān),所以當(dāng)某些網(wǎng)站的熱門(mén)內(nèi)容只占網(wǎng)站所有內(nèi)容的20%,并且這些內(nèi)容的訪問(wèn)量異常高,占據(jù)了所有網(wǎng)站訪問(wèn)量的80%,也就是我們平常說(shuō)的符合二八法則。那么可能出現(xiàn)的情況就是大部分的內(nèi)容評(píng)分集中在1分,小部分集中在5分,而中間的2、3、4分的內(nèi)容分布非常少,其實(shí)上圖就有點(diǎn)偏向這個(gè)趨勢(shì),但其實(shí)很多時(shí)候我們期望的內(nèi)容分布可以偏向正態(tài),也就是大部分內(nèi)容能分布在中間分值,兩端分值的內(nèi)容數(shù)據(jù)相對(duì)較少