- 第6節(jié) 處理垃圾內容、反話及俚語
-
垃圾內容
互聯(lián)網(wǎng)上充斥著各種各樣的垃圾帖子、垃圾推文、垃圾博客及垃圾評 論。垃圾信息作者的目的在于引起偶然瀏覽量或促使搜索引擎注意到他們的網(wǎng)站。
推特搜索在推動點擊率方面的有效性意味著垃圾信息制作者常常在他們 的推文里附加熱門話題列表上的短語詞組。在推文的主體部分包含熱門話題 列表上的一個詞語(主題標簽或對話標簽),意味著這篇推文將會出現(xiàn)在回應點擊相關話題或搜索相關主題的推特用戶產(chǎn)生的推文列表里。這就意味著 當推特用戶滾動刷新有關一個熱門話題的最新消息或評論時,他們將看到垃 圾信息,然而在點擊之前,他們可能并沒有意識到那是垃圾推文。
2009 年,英國高端家具連鎖商 Habitat 試圖利用推特機制,卻陷入了一片負面宣傳中。Habitat的策略是在推文里使用像“#蘋果”和“#伊朗選舉” 的詞組(例如,“# 穆薩維加入數(shù)據(jù)庫免費獲得 1000 英鎊禮品卡”)。伊朗人 民努力將關于選舉后反民主鎮(zhèn)壓的消息傳播出去后,全世界人民都在轉發(fā)這 條消息,試圖幫助他們,甚至通過推特搜索關注事件發(fā)展。Habitat(以及 其他企業(yè))似乎把這看作一次提高自身產(chǎn)品注意的機會。隨后,Habitat一再道歉并解釋“公司從未試圖濫用推特”,一切行動都未經(jīng)“Habitat 授權” (贏得媒體的努力又一次使結果朝反方向發(fā)展)。
雖然,Habitat再也沒有這樣做,但是任意推文中包含熱門話題的做法 一天到晚都在發(fā)生。推特努力嘗試著過濾掉垃圾信息,然而垃圾信息制作者的行為直接或間接地反映出了與之聯(lián)系的熱門話題列表的感知價值。傾聽工 具必須過濾掉這些噪音,為了避免報告錯誤數(shù)據(jù),必須將垃圾推文從結果中 剔除。
搜索引擎排名也易受垃圾信息制作者和“黑帽”搜索引擎優(yōu)化從事者工 作的影響。搜索引擎結果頁面是基于程序對某個搜索請求反饋的最相關網(wǎng)站 的識別。判斷相關性的一個主要因素是網(wǎng)站內有多少導入鏈接。人們通過博客和網(wǎng)站鏈接他們欣賞的故事,會讓鏈接自然產(chǎn)生,但是通過鏈接工廠、垃 圾信息制作者創(chuàng)造的垃圾博客,或者更常見的垃圾信息制作者通過網(wǎng)頁在博 客上留下的評論,也能產(chǎn)生鏈接。垃圾評論的目的僅僅是為創(chuàng)造一個鏈接返回到垃圾信息制作者自己的網(wǎng)站。下面是最近在我博客里留下的評論,是這 項智慧的兩個逐字例證:
尼克,你好!!謝謝你分享給我們這么好的資料。實際上,這個博客里的所有帖子都有值得學習的東西。你是專業(yè)論文寫作。你的作品都很好,我很欣賞你的作品,希望你能發(fā)表更多信息豐富的帖子。
嗨,這帖子真的很實用。我肯定會好好利用,把它轉發(fā)給我的朋友們。巴基斯坦網(wǎng)上購物寄禮物到巴基斯坦搜索酒店休閑服。
以上評論所寫內容的拼寫、語法和標點符號都正確,然而這些評論中有 下畫線的詞是其他網(wǎng)站的鏈接。你能認出它們嗎?如果這些垃圾評論沒有 被過濾,傾聽工具也許會認為我的博客特點是專業(yè)論文寫作、巴基斯坦和 購物。
傾聽實踐者的另一個煩惱是博客和網(wǎng)站的存在除了重新發(fā)布其他網(wǎng)站的內 容外什么都沒做(為了通過會員鏈接和廣告創(chuàng)造可盈利的內容)。推特機器人賬 戶也可以自動創(chuàng)造推文鏈接和內容—再一次產(chǎn)生大量誤導傾聽工具結果的原樣內容。垃圾內容提供零星或沒有提供對廣告商有用的洞察力,同時人眼很快 就能辨別出垃圾內容。垃圾內容的存在使得更多的人工參與傾聽項目成為必要, 這導致我們需要花費更長時間和更多成本才能完成我們想要完成的項目。
反 話
數(shù)據(jù)分析需要一個嚴謹?shù)慕Y構化方法,這一方法對于情感分析更為重要。由于數(shù)據(jù)分析大部分取決于人工參與程度,因此,準確度隨著解決方案不同 而變化。機器情感分析比機器加人工情感分析成本低些,但是各有利弊。
即便過濾了垃圾內容、剔除掉不相關信息,傾聽分析中的人工參與 也不能停止,因為反話和俚語需要人工參與解決。根據(jù)相關經(jīng)驗可知, 60%~70% 的情感分析相當簡單,剩余部分才是難題。當事情是“好的”或 者“糟糕的”,就沒有問題。但是當邁克爾·杰克遜決定“壞的”意味著“好的”時,機器分析將(十之八九)判定他的歌詞表達的是消極情感,然而實 際上他正描繪積極的自己。這就是人工參與進一步起作用的地方。
對于人腦而言,理解反話是個有趣的過程。左邊大腦處理詞語和句子的 理解,但是右邊的海馬旁回是大腦中處理反話理解的區(qū)域。因此,需要右邊 大腦理解非文字的幽默和語言,如雙關語、笑話和反話。所以,理解來源于兩邊大腦的共同合作。心理過程也包括社會認知因素,以及站在別人角度、 替他人著想的能力。這個要能體會語境和言外之意。而大部分電腦和程序仍 然無法做到這樣智能!
俚 語
電腦程序可以遵循邏輯原則解釋詞語,但如果沒有人的幫助,電腦程序 就很難充分理解詞語。一旦內容中摻雜有年輕人用語和俚語,它就會變得更 加復雜!睹咳针妶蟆穼碜运固亓执髮W的麗莎· 惠特克的工作進行了報道, 麗莎 · 惠特克對蘇格蘭 16~18 歲的青少年在社交網(wǎng)站 Bebo 和推特網(wǎng)上的用 語進行了研究,并發(fā)現(xiàn)年輕人常常扭曲他們使用的語言,使那些不熟悉扭曲 語和俗語的人難以理解他們的網(wǎng)頁。
◎ 社交網(wǎng)站 Bebo 上的用語似乎超出發(fā)短信時常用的縮略詞,如省略所 有元音。
◎這不僅僅是指讀寫能力問題的拼寫錯誤,而是刻意創(chuàng)造拼寫錯誤的單詞。
◎ 創(chuàng)造和使用他們自己的社交語言也許是刻意阻止成年人理解他們網(wǎng) 頁上寫的什么。
◎ 通過這種做法,他們可以跟自己的圈內人交流,隱藏來自圈外的內 容。這進一步增加了他們的網(wǎng)絡身份認同感。
基于機器的分析系統(tǒng)不僅要處理單詞的不同解釋,如“sick”(如果這 個詞與一種新技術聯(lián)系在一起,是好的意思;如果和醫(yī)院病人聯(lián)系在一起,就是不好的意思),而且現(xiàn)在它們還面臨著不斷變化的年輕人用語,即年輕 人故意設計出來迷惑觀察員和圈外人的語言!
要體驗這有多困難,可以看一下這個例子:一段出自倫敦北部哈林蓋 地方議會(地方政府)的廣告。哈林蓋地方政府鼓勵年輕人接受性傳播疾 病—衣原體病檢查。作為此次活動的一部分,根據(jù)臉譜類型配置文件,哈林蓋地方政府為一個虛構網(wǎng)站 Baitbook 制作了一段廣告。
廣告在如青年中心這樣的地方播放,展示虛擬人物“壞男孩約翰·布朗” 更新他的狀態(tài),具體如下:
“I Think I Have Chlamydia—But Who Cares? Dis Man Will Still Get Gal… Don’t Watch Dat!(我想我有衣原體病—但是誰在乎?老子依舊找 妹子……不要看這個。
下面是一些他朋友的回復評論:
“Narrrsty, any gal dat sleeps wiv u now is nasty or will have
somefinkworseeee! Get tested blud!”(“齷蹉下流,現(xiàn)在和你睡過的妹子都很骯臟,也許更骯臟!去檢查吧,白癡!”)
‘WAT DA???? Cuz, u cant be seriously finking dis is kool?’(什
么???你真的認為這很酷嗎?)
在評論的最后,壞男孩約翰 · 布朗再次出現(xiàn),以如下評論結束:
“Oh Ma Dayzzzzzz! Proper hype, safapeepz I’ll Do It 2mo now get
off my page!”(我的天哪!適可而止,臭小子們。明天我會去檢查,現(xiàn)在滾出我的網(wǎng)頁!)
這段廣告是哈林蓋青年中心創(chuàng)辦活動的一部分,廣告試圖通過用年輕 人自己的語言聯(lián)系倫敦北部的年輕人;顒拥谝浑A段,要求檢查人數(shù)增加 34%,這是一個好結果,但是活動也更進一步顯示出由機器處理文本分析和 情感解釋面臨的問題。為仿效年輕人用語,地方政府部門創(chuàng)辦了上述活動。然而,正如麗莎· 惠特克指出的那樣,這類英語俚語是年輕人刻意設計出來 讓老一輩人迷惑和費解的,同時,這也讓基于機器的情感分析理解不了!
為了強調這項工作有多困難,傾聽工具供應商Conversenon在最近的白皮書中指出:據(jù)估計,每天有 1000 個新詞加入《城市詞典》中。谷歌報 告在某一特定月份,20%的搜索內容在以前從未被搜索過。這是因為人類 語言不是一成不變的,而是隨時變化的。的確,2010年臉譜的狀態(tài)更新中 最常用短語是“HMU”(加我好友),而這個短語在 2009 年臉譜的狀態(tài)更新 中很少出現(xiàn),在以前發(fā)布的臉譜報告中,對這一短語我并不熟悉 ! 準確的情 感記錄分析只能通過機器與人共同合作才能完成。
- 最新書評 查看所有書評
-
- 發(fā)表書評 查看所有書評
-