編者按:2019年6月10日,BETVLCTOR伟德官方网站EMC講席教授陳國青做客“人文清華”講壇,并發表“大數據:颠覆的力量”主題演講,深度解讀大數據時代和大數據思維,以及大數據帶來的沖擊、挑戰和機遇。近兩千名觀衆到場聆聽演講,同時衆多網友在場外觀看了在線直播。以下為演講全文。
大數據:颠覆的力量
——在人文清華講壇上的演講
清華經管學院EMC講席教授陳國青
2019年6月10日

陳國青發表主題演講
大家好!
今天非常高興能有這個機會跟大家一起分享大數據的話題。大數據已經成為了我們耳熟能詳的詞彙和概念。實際上它已經變成了我們這個時代的符号,這個符号是什麼樣子?對于我們又意味着什麼?
今天,我想圍繞着若幹個對于大數據的認識,诠釋什麼是大數據、大數據時代,以及我們置身其中所要遇到的、見到的、面對的那些變化、沖擊、挑戰。同時,我們也可以從中發現和把握大數據帶來的機遇以及可能的創新和發展空間。
英國脫歐、美國大選有數據公司的影子
大數據已經提出若幹年了,大數據本身在概念和應用上已經與我們越來越密切了。今天在開始大數據這個話題前,先從兩個國際事件說起。
一個是糾結了很長時間的英國首相要辭職了,另外一個是美國不斷“退群”,最近又四處打貿易戰。實際上這兩個事件都是由三四年前兩個轉折性的事件引發的,這就是英國脫歐和美國大選。這三四年來,大家已經看到這些事件在他們國家帶來的社會撕裂、對世界格局的沖擊,以及對我們比較熟悉的國際秩序、多邊關系的挑戰。
非常巧的是這兩個事件的背後都有一家公司的影子,就是英國劍橋分析公司,簡稱CA。這家公司是一個數據公司,它用數據做選民分析,做助選服務。實際上這家公司參與了脫歐,特别是最後美國的大選。這家公司的服務主要做的是心理畫像,它根據收集到的大量數據,包括千萬級的Facebook數據,采用國際心理學界比較有名的Ocean心理模型來刻畫選民的人格特征,它能刻畫一個人喜歡什麼、擔憂什麼、對什麼感興趣、宗教的取向以及價值的态度。用這家公司CEO的話來講“我們可以預測每個美國成年人的人格特征”。其實這家公司并不是那麼出名,還有更加出名的公司也在選舉中提供各種服務,但是其他公司的服務基本都基于人口統計學的信息,也就是性别、膚色、宗教、收入、年齡、教育等信息,但是這家公司從另外的視角,即從心理的視角刻畫一個人的心理曆程或者叫做數字腳印,這個視角卻是别的公司沒有關注的。另一方面,他們可以獲得更加細粒度的數據,使得心理層面、人格層面的刻畫成為可能。這就是我們所說的大數據的影響。
當然,這家公司的影響也是有限的,一個選舉、一個大的事件還受諸多其他因素影響,但是這些因素的疊加造成了我們現在看到的,包括這幾年演化出來的世界格局的改變。
大數據時代的兩個階段
實際我們現在處在一個數據的海洋當中。
2019年的春運是世界上最大的人口遷徙,有30億人次的流動。2018年“雙十一”有2135億的銷售額度。現在,每天會産生450億的微信條目。手機的網民已經達到8.17億。總體來說,我們國家的GDP數字經濟占比已經達到了34.8%,超過了1/3,這方面實際能夠體現出我們這個社會已經開始越來越數字化了。
說起大數據、大數據時代,主要的時代背景是什麼呢?我們現實世界有多大程度上可以被數據表示?用一個形象的話來講,我們的社會像素正在急劇提升。這個“像素”來自到處可見的感測設備——探頭、智能手機、可穿戴設備、車載設備,林林總總。這些使我們這個社會的數字化程度越來越高,數據的粒度因此也越來越細。也就是說,數字化生活的兩個要素之一:像素,數據的粒度已經具備。像素夠高的時候我們要幹什麼?形象地說是“成像”,就像手機、相機,像素越高成像的質量可能越好,因此,成像是我們數字化生活中另外一個重要的要素,像素和成像對應起來,就把數據和算法聯系起來了,這就是我們所說的大數據時代。
大數據時代可以分成兩個階段,我們用商務的形态來說明這個問題。
第一階段是數據商務階段。不斷地把現實生活中的要素,人财物,都進一步數據化,同時根據這些數據化的人财物進行算法的應用。
第二階段是算法商務階段。當像素足夠高的時候,重點就變成了成像了,也就是說,重點變成算法應用。
數據商務階段和算法商務階段都圍繞着數據和算法進行,但是重點有所不同。數據商務階段就像做菜一樣,數據化的過程就是不斷準備材料的過程,不停地增加和豐富材料,然後根據已有的材料提供不同的菜品。但是算法商務階段是材料已經足夠豐富了,這個時候要比的就是手藝了,你是不是能夠做得更好、更多。這就是我們所說的算法進階及應用創新,如‘智能+’,我們可以用更加高尖的智能技術,包括人工智能的很多技術在現有的大規模數據下進行應用。
大數據的數據特征
那麼什麼是大數據?可以從4個維度來理解,即4V:volume(規模)、variety(多樣)、value(價值)、velocity(速度)。大家對這四個維度沒有什麼大的争議,但是對它們的含義的理解還是有相當不同的認識的。
第一規模,我們稱之為超規模。大數據規模會很大,但是沒有絕對的量綱,沒有說一定要達到多少G、多少P、多少Z才是大數據,這個不一定,因為大數據的大規模和問題、領域有關。隻要這個大的規模超出了這個領域和問題的傳統邊界,那就是大規模裡的超規模。
第二多樣,即富媒體的意思。現在80%-90%的數據都是文本、語音、圖像、視頻,不再是特别傳統的二維的整齊的結構化的數據了。
第三價值。我們處在數據的海洋中,四周都是數據,但是跟我個人有關,跟我企業有關的那種有價值的信息相對少了,因為數據量的分母太大了,即密度在降低,這個後面直接的隐喻就是要深度挖掘才能發現我們希望的價值。
第四速度。數據就像開着的水龍頭一樣,源源不斷地出來,而不是我們上傳下載圖片要等很久。因此,大數據裡的數據是一個流數據的概念。
大數據的問題特征
那麼,什麼樣的問題才是大數據問題?這要看它的問題特征。
第一個特征,是粒度縮放。粒度縮放是指我們碰到的這個問題的要素一定是數據化的,即這個要素不管是宏觀的還是微觀的,一定要可以通過數據表示。同時,可以像地圖一樣,可以在特别大的範圍和特别細的範圍之間縮放,能夠在宏觀、微觀之間進行映射。
第二個特征,是大數據外部性導緻的特征,稱之為跨界關聯。考慮問題的時候要看視角,問題邊界是在哪兒,如果考慮問題的時候這個邊界到了傳統邊界之外,就是跨界了,而且你把這個外部的要素和内部要素聯系起來了,所以你在關聯。比如管理學中,傳統企業管理最常見的就是怎麼把業務流程做好,優化流程,提高質量,同時改進人力資源環節、财務環節,制定企業戰略,基本是站在企業内部看不同的部門,站在裡面稍微往左看一看是供應商,稍微往右看一看是客戶。企業花了很多努力,突然有一天一個人在網上拍了一闆磚,說這個企業産品有問題、服務不好,還沒有容得辯解,成百上千萬跟貼,瞬間就把企業的産品、形象、品牌定格成了某一個形象、某一個狀态,然後企業可能還很委屈,因為覺得這些人既不是我的客戶,也不是我的員工,他們好像就是原本跟企業沒有聯系的社會大衆,但是他們的口碑卻對産品、質量、品牌、形象産生影響。因此,當管理決策的視角不僅是考慮内部,而且要考慮外部和企業相關的因素時,這個問題就開始變成大數據問題了。你要跨界,跨出你的傳統邊界。
第三個特征,全局視圖。大數據實際是希望了解全貌的,它最後是要看畫像,因為前面我的每一個點、每一個環節的數據叫做粒度縮放,同時和我相關的要素我又關聯了,但是我最後要幹什麼?要了解全貌,要有個人畫像、企業畫像、政府畫像、社會畫像等,所以這個畫像本身又是全景式的,從範圍來講是全景式的,從内涵來講,我們希望既關聯又因果。
舉兩個簡單的例子看一看大數據問題的一些特點。
一個例子是旅遊。比如某個景點,經常在一些時間和假期人滿為患,有時候服務跟不上,人太擁擠,因此可能出現遊客不滿意投訴的現象。如果作為景點管理方,我想改進它,我可以增加員工、提高運力,但是我增加了車、增加了人的時候,可能第二天或者另外一個季度的這個時間段沒有那麼多人來。所以如果我們僅從景點這個邊界出發來提供優化的方案,解決質量的問題就很困難。實際上如果要解決景點的問題,一定要走到景點之外,比如旁邊的餐飲、酒店、交通、氣象如何,以及附近有沒有其他景點、其他活動,當我們考慮了景點内外要素時,就有了跨界關聯的屬性,作為整個的旅遊我們來看景點内外時,我們有這樣一個全局的視圖,我們面對的就是一個大數據問題了。
另外一個例子是共享單車。有的人會認為共享單車其實就是我們的代步工具,但是這是傳統的概念。現在一般每輛共享單車都有自己的感應器和定位裝置,也就是說感測的數據粒度到了車和部件。這時候就不單是一個單車了,可能我走到什麼地方,共享單車的App就告訴我附近有什麼商圈、酒店、餐館,我在什麼地方買東西可能還可以用移動支付,當視角從單車走到了其他行業、要素時,就開始跨界關聯了。可能在這個地區人特别多,共享單車不夠,可能在另外的地方單車冗餘了,因此,共享單車的平台應該清楚什麼地方需要車,什麼地方不需要車,怎麼樣調動,這就是全局視圖。當共享單車具備粒度縮放、跨界關聯和全局視圖時,共享單車的運營、優化,就是一個大數據問題。
這些年社會上比較流行一個論斷,說“大數據隻講關聯不講因果”。這個論斷雖然有一定道理,但是總體來講是誤導的。特别是在重要決策的時候,如果涉及到的後果可能會有嚴重的人财物的損失,然後我告訴你說“你就這麼幹吧,沒有為什麼”,誰敢做決策?所以在大數據環境下做管理決策,既要看關聯也要看因果。另外,因果是認識論的基本訴求,我們要知道原因。
大數據沖擊各行各業
我們作為個人不僅是數據的接收者,也是數據的生産者。一方面我們下載、閱讀浏覽,因此我們在消費數據;另一方面,我們又上傳、撰寫、參加各種活動,各種活動就可以留下我們的很多痕迹,因此我們也在留痕,我們實際又在産生數據。在這樣一個既是消費又是生産的環境中,我們從方方面面已經和數據分不開了。
大數據已經在沖擊各行各業。
比如經濟金融領域。股價的預測其實一直是個難題,傳統的股價預測,實際是通過一些專業的模型來估計風險、收益、評價企業,有專門的理論和方法來估計股價。但是影響股價的除了這些因素之外還有人們的“期望”,而估計“期望”是非常難的,因為“期望”既涉及外部因素環境,又涉及心理預期。現在一個新視角是考慮公衆關注,比如搜索。若對某些企業比較關心,可能就搜索其企業狀況、新聞事件,這種搜索體現了大衆對于具體企業的股票價格和價值走向的關心。這是一個跟過去特别不同的角度,因為這不是特别專業的角度,它是從專業外人士的行為來估計的角度。這種關注和搜索與股價的走勢有相當強的關聯度。這和幾年前谷哥通過搜索來估計流感是一樣的,實際上它不是采用了所謂流行病學的專業模型,而是某段時間很多人有症狀,頭疼、咳嗽、吃了什麼藥,大家有很多信息的交換,這種交換的強度、交流的走向,恰恰可能跟流行病的流行模式非常相關。所以,我們也可以從搜索的角度來估計它和股價之間的影響和關聯度。但是,要特别指出,雖然搜索和股價的走勢有聯系,但是光這一個因素來估計股價是不夠的,還有大量的因素需要專業模型。因此,一方面能夠擴展或者沖擊傳統的定式和視角,另外應該把其他專業視角引入進來,大數據的股價預測應該是包括内部與外部、專業與非專業因素的模型構建。
大數據也開始在改變會計學。傳統的會計學衡量企業的狀況是通過三張報表:資産負債表、現金流量表、利潤表,這三張報表反映了一個企業的運營能力、償債能力和盈利能力。雖然這三張報表是非常基礎和非常重要的,但是大家突然發現,有一大類企業是高風險的,特别是一些IT企業、創業企業、新行業企業,長期負債,但是同時又有非常高的市值,人們又有非常強的忠誠度,如果用這三張報表衡量,似乎不能完全體現它的價值,也就是說,傳統會計學的三張報表可能就不夠用了。因此,人們在呼喚“第四張報表”的出現,業界和學界都在做研究。長周期、高負債、高不确定性企業的價值可能受到的是口碑、忠誠度、品牌、公允價值,包括無形資産的影響。這些東西我們可以稱之為數據資産。所以,這是從會計學的角度來看我們碰到的一個沖擊,很多新的現象導緻呼喚新的模型、新的理論框架出來。
大數據也在為體育界帶來變革。現在我們都在積極籌備冬奧會,我們國家有少數冰雪項目水平比較高,但總體的水平不是特别高。主要的問題是長期的傳統做法比較粗犷、比較經驗型。冰雪項目中有一大類是姿态類項目,運動員的關節、角度、力量和跳躍的高度、旋轉的速度以及動作的完成質量密切相關,現在大家已經意識到這個問題,因此有些隊會用手機照一些照片、視頻,但是數據粒度沒有到關節這項,也沒有到姿勢、力量和角度上,所以數據粒度不夠。第二,視角也不夠,可能需要更加專業的采集設備,更加專業的還原設備來完成。比如現在簡單的二維的圖像應該變成動态三維的還原,并且可以分解,這樣就可能幫助總體的競賽水平得到提高。
别的項目,像籃球、像NBA就做得非常好,通過收集肌肉、血液、心髒、動作、戰術、團隊等全景式的數據來幫助訓練和比賽,因為這些因素都有可能影響整個比賽的結果。像壘球、網球的角度、落點、戰術都有不同的大數據分析。可見,科技體育這幾年有巨大的空間,傳統的師傅帶徒弟,師傅的傳幫帶确實非常重要,但是應該有更細粒度,更加多角度、更加全景式的手段,采用大數據技術來提升整體的競賽水平。
大數據在藝術上也有很多影響。傳統繪畫,不管是古典的還是現代的畫,都有自己的素材和表現形式。現在出現了一種新的素材——數據素材,也就有了新的表現形式。比如飛機航班的數據軌迹就可以構成一幅新穎的畫。由數據作為素材,有新的視角進來,作為一個整體的新型創作出現。
大數據已經影響到經濟、管理、體育、藝術等領域,在其他的領域也有非常多的應用,比如農業就有蔬菜革命、精準扶貧,這些都是利用大數據的例子。在醫療健康領域,醫院内醫院外,得病和未得病之間的關聯,也是大數據問題。文學上通過大數據技術對一些詞語、作者、關系、背景等進行分析。
哲學裡一個重要的方向是認識論和方法論,這裡包括我們近些年提煉出來的新的研究成果。傳統的哲學認識論追求探索因果關系,因此基本叫做模型驅動範式,也就是說通過刻劃變量之間的聯系,比如自變量和因變量,通過構建這兩個之間的函數關系,比如線性、非線性等等,可以知道一個自變量一個單位的變化會導緻因變量有幾個單位的變化,這裡試圖反映變量之間的邏輯的因果上的機理。但是,這個模型驅動的範式在大數據時代會受到一些挑戰,或者說它碰到一些問題時會捉襟見肘。比如,當數據變量的組合數特别多時,當很多變量是潛變量和隐變量時,當很多的變量雖然重要,但是不可測不可獲時,還有當數據的樣本規模特别大時,這些問題用傳統的模型驅動的做法就會比較困難。因此,就出現了一個新的範式轉變,催生了大數據驅動範式。這個範式想表達的是,對于管理決策,我們希望能夠實現既有關聯又有因果的訴求,這個新範式簡單地說由外部嵌入、技術增強和使能創新三方面構成。外部嵌入是指引入視角之外的變量,有些變量我們知道重要,但是沒有辦法放進模型裡,比如我知道股價,我預測股價有個計量模型,但是如果今天這個公司出了一個事情,或者是上面有個新聞,或者行業裡有個新的政策,我們覺得可能會影響股價,但是這些變化很可能是視頻、語音或者文本,沒有辦法融入到傳統的模型中去。所以,需要引入外部視角。這些圖像、視頻、新聞文本要引入進來,就是要使得我們引入的變量可測、可獲,這就是第二條,技術上要增強。當這些變量引入進來的時候,我的變量空間就發生了變化,這個時候我們可能會研究新的X到Y的轉換,也就是變量關系和映射要重新定義和審視,這就是使能創新。這是大數據驅動範式框架的三個方面。
曆史學其實也和大數據密不可分。傳統的曆史記錄内容都是帝王将相、英雄豪傑、國家、政治、重大的軍事事件等等,很難在曆史中看到平民和我們自己。一個是過去的粒度不夠,第二手段也不行,存不下來。大數據環境下就可能自下而上反映曆史。比如國家圖書館互聯網信息戰略保存項目,和新浪合作,把新浪公開的相關博客文章作為曆史資料記錄下來,通過自上而下與自下而上的史學觀的融合,使得我們可以在更細粒度上反映曆史和社會,同時也可以獲得更加全面的曆史畫面。
法律也和大數據相關。比如下載一個App,憑什麼問我要這麼多權限?我不給權限行不行?沒有辦法,不給就不能用。我在網上購物、浏覽,我的痕迹、數據腳印,都被公司采集了,我有沒有權利說你把我的這些痕迹抹掉、遺忘掉?這就是被遺忘權。所謂被遺忘權是指數據主體有權要求數據控制者永久删除有關數據主體的個人數據,有權被互聯網遺忘,除非數據的保留有合法的理由。2018年歐盟出台了《通用數據保護條例》,強調了被遺忘權,我們國家2018年的高考Ⅱ卷一篇閱讀文章的題目,也是要考生來思考、評論這個被遺忘權的問題。這也是由大數據激發出來的新問題,對傳統的法學研究産生了新的挑戰,或者說帶來了新的發展空間。
人工智能的難點是黑盒子問題
大數據的沖擊力量現在看來還在加劇,其中有一個力量非常值得關注,那就是人工智能。
當人工智能遇到大數據的時候,現在井噴式的發展才變成了可能。其實人工智能是現在這個時代中很多技術的一類,它本身已經發展好幾十年了,但是為什麼在近些年才得到了快速發展?其實人工智能技術和這幾個關鍵詞有關,那就是“學習、訓練、推理、演化、智能、智慧”,也就是說,它是關于這些關鍵詞的一類技術。特别重要的一點,它要根據大量的數據來進行學習和預測,就是從數據中學習,建立模型,并用于預測未來。過去為什麼不行呢?比如本來想學一個圓,但是過去的數據隻有一個半圓,你說它怎麼能學出這個圓呢?所以,進入大數據時代,當我們的數據有足夠的粒度和像素的時候它才成為可能,因為人工智能的主流技術首先是要基于大規模數據進行學習。其次,人工智能算法本身需要非常強的計算能力,也就是算力,隻有在大數據時代,有了雲計算平台、數據傳輸、數據的流通、數據的管理、諸如5G技術等,才能為進一步的大數據應用創造條件,為人工智能的發展提供非常好的環境和支撐。現在可以看到我們身邊其實已經有很多人工智能産品了,比如工業機器人、财務機器人、作業機器人、下棋機器人、能做詩作畫作曲的機器人等,這些機器人可以做很多我們過去認為不可能的事情。
人工智能在未來會波濤洶湧,一浪高過一浪地發展。但是它本身也有局限,目前的大數據技術特别是深度神經網絡這樣的技術,基本上屬于“黑盒子”的技術,可以算得非常準,但是“為什麼”還說不大清楚。在這種情況下,在一些重要的應用領域就受到局限,因為如果不知道“為什麼”就不敢用這個方法做重要決策,如果不能通過非常清楚的機理來說明,實際它未來的應用也是有局限的。現在,業界和學界都在攻關“可解釋人工智能”,實際就是人工智能在輸入和輸出之間,在數據和預測的結果之間,從數學上來講需要一點定理,一些形式化的機理。從認識論上來講需要一些因果關系。
現在這麼熱鬧的人工智能,很多都是過去成果的工程化和産品化。它本身的理論突破,包括提到的可解釋性,也是大家在未來關注的重點。
不管怎麼說,人工智能的應用已經深刻地影響到我們了。作為人類,我們自己創造了一個“亞種”叫做機器人。機器人的行為是不是都在我們人的設想之中呢?會不會幹一些我們想不到的事情呢?似乎這個擔憂是必要的。所以機器行為學應運而生。當人知道和我們打交道的是機器人時,人到底會有什麼不同?機器如果隻是模拟人的行為,那麼我們用不用擔心它會做一些其他的事情?當人和機器人一起互動時,會不會有其他的一些問題出現?這些問題實際是很革命性的。傳統社會學、管理學、經濟學、心理學等都是研究人、由人構成的組織的行為,由人形成的網絡的行為。随着各式各樣的機器人越來越多地出現在我們身邊,越來越多地替代人的工作,越來越多地挑戰人們在智力、計算上的能力,這個擔憂或者這樣的研究是非常必要的。所以,我們要研究機器如何塑造人類的行為,人類如何塑造機器的行為,以及人機協作的行為。最新的《自然》雜志上有一篇文章也是呼喚學界、業界關注機器的行為以及機器和人的行為。
運用大數據要重視商業倫理
實際大數據的使用本身有很多令人擔憂之處。雖然科技發展飛速,但是人們使用科技是帶有價值取向的。
比如大數據殺熟。在傳統的營銷、管理裡面我們都希望了解客戶的行為,更好地為他們服務。在市場的環境下我們也說,既然有人願意用高價買,那就可能要給他提供更好的服務。但是在大數據環境下,這種處理有個度的問題。第一客戶是否知道他的信息被收集,第二他是否願意真的出高價買。作為企業來講,又有經營哲學上的思考。企業是以盈利為中心,還是以客戶為中心?當以客戶為中心時,客戶滿意與否就變成了主要的KPI,就是主要的決策考量,如果光考慮企業的盈利,而不考慮客戶,可能就不太會考慮用戶的感受。實際上大數據殺熟是在商業倫理層面的問題。
還有剛才提到的App權限的濫用,以及數據的洩露,回到我們最開始提到的劍橋分析公司的例子,當時的CEO說“在美國所有的數據都可以買到”。因此這家公司2018年就陷入了數據洩露和商業倫理的醜聞,最終關門了。不管怎麼說,在大數據這個時代我們跟數據打交道就會碰到一系列社會問題、法律問題、道德問題,需要在企業層面、商業層面,在社會和政府層面立法立規,在個人層面、在道德的層面大家來共同努力解決這些問題。技術發展特别快,這些問題的出現也變得越來越重要,我們應該有特别強的緊迫感,來更好地面對這些問題。
感測和響應大數據時代
過去的20年我們經曆了特别大的技術變化。20年前,中國網民是62萬,互聯網普及率隻有0.03%,網站一千多家。現在中國網民有8.29億,互聯網普及率達到59.6%,網站523萬個,上網時間每天人均4小時。
在這樣的時代中,簡單地總結一下,我覺得就是兩個詞,“感測”和“響應”。時代的變化太快,我們應該敏銳地主動地感測和了解這個變化,同時不管是企業還是個人要作出自己的準備和自己的響應,因為大數據作為一個時代會伴随我們相當長的時間。在未來的某一天,可能由大數據衍生出一個新的概念、一個新的内涵、一類新的技術,可能會變成一個新時代的符号,所以當下我們要面對大數據,未來我們要融入新時代。
謝謝大家!
文章來源:人文清華講壇 編輯:張曉雪 審核:趙一燕