為什么剛準(zhǔn)備考研,淘寶就給我推薦防脫洗發(fā)水?
10月12日
你在網(wǎng)上搜索過的最奇怪的一個問題是什么呢?
作者 | 文小寧
你在網(wǎng)上搜索過的最奇怪的一個問題是什么呢?
學(xué)堂君曾經(jīng)搜過很多奇奇怪怪的問題,比如:
“從第一個人類誕生到此時此刻,這個世界上曾經(jīng)總共有多少個人存在過?”
“將死之人在他/她生命的最后一刻會想些什么呢?”
“地球上是不是隱藏著外星間諜?”
“人類最早的記憶是從幾歲開始?如何證明那是真實的記憶而不是虛構(gòu)呢?”……
你也搜索過這些問題嗎?
你是不是也曾經(jīng)搜索過這樣奇奇怪怪的問題呢?
英國一家網(wǎng)絡(luò)技術(shù)公司通過谷歌的自動搜索引擎和關(guān)鍵詞分析,提取出了一長串網(wǎng)友們曾經(jīng)搜索過的滑稽詞條,其中不乏“我懷孕了嗎?”,“外星人是真的嗎?”,“為什么男人也有乳頭呢?”,“世界是方的還是圓的?”,“男人能懷孕嗎?”……這樣的“傻”問題。
紐約時報經(jīng)濟(jì)板塊的專欄作家Stephens Davidowitz,曾經(jīng)在谷歌做過數(shù)據(jù)分析的工作,在他看來,在這些聽起來有趣的問題背后,其實隱藏著更為深層的思想活動,這些想法甚至可能是陰暗的。
“在信息時代到來之前,人們總是試圖將自己羞于見人的想法隱藏于心。
而在如今的信息化時代,盡管人們?nèi)匀徊粫谒嗣媲氨砺哆@些想法,但卻會在谷歌和AV網(wǎng)站上肆意暴露自己的真實想法,這或許是因為后者會給人一種匿身的安全感?!?span style="text-decoration: line-through;">其實你早就暴露了好嗎?!
“通過大數(shù)據(jù)分析,我們可以透徹地看到人們真正想要的和真正想做的事情,而不是他們口頭上表達(dá)的所想所做”,Davidowitz直言不諱[1]。
舉個栗子,比如:人們可能會在民意測驗中聲明自己并不存在種族歧視,民意測驗的數(shù)據(jù)結(jié)果也表明,相比20世紀(jì)50年代,人們對于跨種族婚姻、女性權(quán)益、同性婚姻這些焦點問題的態(tài)度正在逐年變得更加開放和包容,而不似之前那樣保守。
但事實真的是這樣嗎?那些宣稱眾生平等的人們,真的不存在偏見和歧視嗎?
大數(shù)據(jù)分析 | 找尋背后的真相
谷歌意向分析程序的運行結(jié)果給這群人狠狠打響了臉。
運行結(jié)果表明,在2008年的美國總統(tǒng)選舉中,奧巴馬之所以在民主黨集中區(qū)所獲得的選票要比預(yù)期更少,是因為在這樣的地區(qū)仍然存在著內(nèi)隱的種族歧視。
比如,Davidowitz通過數(shù)據(jù)分析發(fā)現(xiàn),有20%的用戶在使用谷歌搜索“黑鬼”這一詞條的時候,都會在后面緊跟著“段子(joke)”這個搜索詞。
而在奧巴馬的第一個大選之夜,搜索詞中含有“奧巴馬”這一搜索詞的詞條,有百分之一包括了“3k黨”或“黑鬼”這樣的詞。不要覺得百分之一這個比例小,要想想3億美國人,每人至少搜一次“奧巴馬”的話,也有三百萬次搜索行為是帶有明顯歧視意味的。
“值得一提的是,在美國的某些州,搜索‘黑鬼總統(tǒng)’的頻率甚至比搜索‘第一位黑人總統(tǒng)’的頻率還要高”,Davidowitz如是說道。
并且,令人意外的是,這種冒犯性搜索行為的頻發(fā)地區(qū)并不是南部的共和黨集中區(qū)(按理來說共和黨應(yīng)該更保守,而民主黨更開放自由),而是北部的紐約州,西部的賓夕法尼亞州,東部的俄亥俄州,密歇根州和伊利諾斯州這些民主黨居多的地區(qū)(要知道奧巴馬可是民主黨派人士啊喂!自家人窩內(nèi)斗的嗎?粉到深處自然黑?)。
這種民意測驗和個人真實想法的差異,解釋了為什么在種族歧視搜索行為頻發(fā)的地區(qū),奧巴馬獲得的選票會比預(yù)期更低,也解釋了為什么特朗普會令吃瓜群眾們大跌眼鏡,在最后的總統(tǒng)選舉中擊敗希拉里取得勝利。
大數(shù)據(jù)=被監(jiān)聽監(jiān)控?
看到這里,你是不是又產(chǎn)生了另一種擔(dān)憂:這種意向分析的操作,是不是意味著我們上網(wǎng)的一舉一動都會被監(jiān)視、分析呢?為什么我剛瀏覽過備考教材,淘寶就給我推薦了某王防脫洗發(fā)水呢?是不是真像之前網(wǎng)上瘋傳的淘寶會偷偷監(jiān)聽我和室友的對話,甚至?xí)崛∥沂謾C(jī)相冊里的每一張圖片呢?
其實,并沒有所謂的監(jiān)聽監(jiān)控,淘寶京東百度騰訊也不會一鍵提取你手機(jī)里所有的照片和小視頻(這些操作對他們來說也是很燒錢燒人力的)。
但是,你在各大app頁面的搜索痕跡、瀏覽痕跡的確都會被搜索引擎采集記錄下來,再通過一系列復(fù)雜的算法提取出你的用戶屬性以及傾向,其中就包括了你的個人屬性(如年齡、性別、職業(yè)等)以及你的意圖傾向(主要為商業(yè)意圖,比如你可能會想要購買的物品)[2]。
而在互聯(lián)網(wǎng)這一波操作有一個專有名詞:用戶行為分析系統(tǒng)(OCI)。OCI通過分析用戶的歷史瀏覽記錄和搜索記錄可以很好地分析出一個完整人物的性格、愛好傾向甚至是作息規(guī)律等方面的屬性。
接著,OCI會從這些屬性中挖掘出一個完整人格下的潛在消費意向,并且向用戶推薦他/她所感興趣的、可能需要的產(chǎn)品[3]。
比如,如果你每天都在淘寶搜索“肉松小貝”“抹茶毛巾蛋糕卷”“芝士火雞面”“牛軋奶芙”這類肥宅御用美食,就不要怪淘寶首頁給你推送“130斤的胖MM穿了也顯瘦的秋季美衣”了……
不知從何時起,大數(shù)據(jù)這個詞語被越來越多的人掛在嘴邊。但對于大數(shù)據(jù)到底是做什么的,或許有很多人仍像學(xué)堂君這樣一知半解。
正如馬云在卸任演講中說那樣:“很多人還沒搞清什么是PC互聯(lián)網(wǎng),移動互聯(lián)網(wǎng)已經(jīng)來了,我們還沒搞清楚移動互聯(lián)的時候,大數(shù)據(jù)時代又來了。”
大數(shù)據(jù)時代已經(jīng)來臨,你察覺到了嗎?又對此有哪些準(zhǔn)備和看法呢?歡迎留言討論呀⊙ω⊙
圖片來源:圖蟲創(chuàng)意

參考文獻(xiàn)
[1] https://www.scientificamerican.com/article/web-searches-reveal-in-aggregate-what-were-really-thinking/
[2] 徐曉峰. (2013). 大規(guī)模用戶在線行為數(shù)據(jù)分析. (Doctoral dissertation, 上海交通大學(xué)).
[3] Dai, H., Zhao, L., Nie, Z., Wen, J. R., Wang, L., & Li, Y. (2006). Detecting online commercial intention (OCI). International Conference on World Wide Web (pp.829-837). ACM.
