王琼:从数据当中寻找有价值的洞察-香港商报

王琼:从数据当中寻找有价值的洞察

2016-08-23
来源:

   

  武漢大學新聞與傳播學院副教授王瓊

 

       人民網深圳8月21日電(記者 燕帥)由人民日報社與中共深圳市委、深圳市政府聯合主辦的2016媒體融合發展論壇技術分論壇在深圳舉行。“數據新聞與可視化”高端對話召開,武漢大學新聞與傳播學院副教授王瓊發言。

 
  以下是武漢大學新聞與傳播學院副教授王瓊發言全文:
 
  其實“數據挖掘”和“數據分析”,這兩個詞對于剛剛開始做數據新聞的記者來說會覺得非常非常頭疼,而且很多做記者的人,之前都是數學不太好,所以才選了文科,一說要分析數據,大家就天然會產生距離感和恐懼感。正好借著今天論壇機會,還有在線網友收看我們直播,有必要我們給他們去講,讓大家知道數據分析、數據挖掘包括數據可視化離我們并不遙遠。
 
  有幾個概念,是大家容易誤解的,有必要澄清一下:
 
  一個是剛才陳院長提到的“大數據新聞”和“數據新聞”,很多時候我們提到數據新聞,大家會說你們做的是“大數據新聞”,好厲害。但其實因為我們做過很多統計,包括走訪了海內外差不多30多家數據新聞機構,我們發現可以這樣講,全球范圍內,能夠獨立完成大數據新聞的傳統媒體幾乎沒有。我們都需要通過和科技公司的合作,來完成大數據的生產。這其實給我們提了一個醒,當我們把數據的來源和數據的掌控、篩選完全交給第三方的時候,需要我們有更多的責任感和更多的專業能力去判斷數據本身的客觀性和真實性。
 
  同時這里面也有一個值得我們每個人思考和警醒的陷阱,技術霸權存在的可能性。所以大數據新聞僅僅只占數據新聞當中的1%左右。
 
  二個是數據挖掘和數據分析,數據挖掘這個詞,很容易讓人產生誤解,因為挖掘聽起來好像就是這兒挖挖,那兒挖挖,從網上挖一點數據,從哪個報告里挖一點數據,好像這就是數據挖掘。其實剛才這些行為,它都是屬于數據的搜集,就好像我今天做菜,我到菜場上買菜或者網上購菜,不管哪種途徑都是我買菜采購生產原材料的過程,還是數據搜集。數據搜集回來之后,我要開始洗菜,這個是數據清洗的過程。等這些菜清洗好了,也切好了,我就開始炒菜了,怎么炒?其實就是我怎么樣分析這些數據,怎么樣最后把數據完成,做成數據新聞作品,就是我打算用它做什么菜。同樣是牛肉,同樣是一波數據,我可以用它來做西紅柿牛腩,我可以用它來做牛腩西葫蘆湯,就是看你打算從數據當中問什么問題,所以講什么故事,直接決定你用什么方法,從什么角度分析數據。
 
  最后說回來,什么是數據挖掘?數據挖掘是要使用包括數據分析在內的一些手段。從數據當中尋找有價值的洞察。譬如說數據挖掘有一個非常經典的故事,據說也是一個數據分析經理,他編出來的,便于大家理解。
 
  在超市里面我們發現尿布和啤酒放在一起,而且他們銷量都會提升,為什么?是因為我們通過數據挖掘得到一個規律:在美國很多買尿布的人都是爸爸,他們順便買幾罐啤酒。
 
  數據挖掘和數據分析在我們做新聞當中大概起到什么作用?大概它的比例和剛才說大數據新聞和數據新聞差不多,絕大多數時候我們只是做數據分析,非常少的時候我們用到了數據挖掘。最后想給大家看兩個案例,想通過這兩個案例來說明數據挖掘在數據新聞當中可能會使用的兩個場景。
 
  第一個它有助于我們發現規律。這個案例是The Changing Face Of America,講的是美國種族隨著時間變化在全美發生的變化。過去報道通常有兩種:一種是全國范圍內種族多樣性變化。USA Today這家公司從1960年用數據挖掘數據分析的算法,算到2060年全美種族多樣性的變化,這個價值非常有價值,而且這個算法隨著時間變化不斷調整。其實算法就是一段公式,大家不要覺得算法是很神奇的東西,它可能就是一個公式。
 
  我們再看這個案例,這個案例是英國BBC的一個案例,用來幫助人們發現個體和群體之間的關系。它大概調查了16萬多英國人的生活狀態,合作方是幾家學術機構,包括英國的倫敦政經大學等等,是做得非常有意思的算法。就會發現,現在社會已經不像過去那樣,只是上層、中層和勞工階層,現在有更多階層劃分。它通過一些互動,需要你填你的經濟狀況、有沒有房屋、你認識什么人、你的朋友是什么職業、你的業余生活,最后幫你算出來一個算法,最下面一行得出來一個結論。我算了一下,按照我在中國的薪資水平算出來,在他們系統當中我是屬于勞工階層,我覺得有點尷尬。但是我想,也許是他們的算法不大適合中國國情。這是跟大家分享的兩個案例,謝謝!
[责任编辑:]