• BETVLCTOR伟德官方网站
  • 經管郵箱
  • 教職工内網
  • 用戶登錄
  • EN

一場跨領域的影響悄然發生:清華年輕學者引領AI社會科學研究新範式

2025-08-29
閱讀:

2025年8月,BETVLCTOR伟德官方网站領導力與組織管理系Flextronics講席教授、系主任李甯指導其博士生、博士後研究團隊在《自然》(Nature)子刊《自然計算科學》(Nature Computational Science)第五卷第八期發表題為《用大語言模型大規模複現心理學和管理學情景實驗》(A Large-Scale Replication of Scenario-Based Experiments in Psychology and Management Using Large Language Models)的論文。

《自然》(Nature)子刊《自然計算科學》(Nature Computational Science)第五卷第八期封面

該項跨領域的研究成果顯示,語言大模型複現心理學和管理學情景實驗的結果和人類具有高度一緻性。作為目前國際上在社會科學領域應用大語言模型的代表性工作之一,該項研究為AI技術在社會科學研究中的應用提供了系統性的實證分析。

從“人類實驗”到“矽基實驗”

時間回到2023年9月的一天,三年級管理學博士生崔紫妍、清華水木學者博士後周懷康像往常一樣和李甯老師聚在一起“頭腦風暴”。

這次小組會,他們讨論的話題是“是否能讓人工智能(AI)做調查問卷”,但很快,大家就否認了這個想法,因為調查問卷需要詢問真實環境中的事情,比如“在清華工作是一種什麼樣的體驗?”類似問題AI不可能回答,它沒有這樣的經曆。

“于是我想到,實驗是架空的,特别是情景實驗(scenario-based experiment),你告訴對方一個情景,對方不需要有主觀的體驗,是不是可以讓AI試試?”李甯說。

李甯課題組成員合【影本論文第一作者崔紫妍(後排右二),通訊作者李甯(後排左四),主要作者周懷康(後排左一)

研究的靈感在那一刹那閃現。在之後的一年裡,這個團隊從包括《組織行為與人類決策過程》(Organizational Behavior And Human Decision Processes)、《管理學會期刊》(Academy of Management Journal)等在内的五本心理學和管理學的頂級期刊中,篩選出過去十年間發布的156個情景實驗,讓ChatGPT-4、Claude 3.5 Sonnet和DeepSeek V3這三個大語言模型分别參與這些實驗,并将實驗結果與人類參加實驗的結果進行比對。

這項研究的全程,讓AI進行了近700個主要效應和160多個互動效應的測試,涵蓋了從職場行為到個人決策,從社會心理到團隊合作等非常廣泛的主題。

他們的嘗試沒有成熟的路徑可以參考,每一次發現都是靠一個一個的數據鋪墊而成。

崔紫妍介紹,他們把實驗材料“喂”給ChatGPT,讓它試着回答,看看結論的方向是否和原文相似。有時會出現AI無法理解實驗材料的情況,比如有些概念是人類社會比較熟知的,但是AI不太清楚或者有一些誤解;有時AI每次都産生同樣的答案。他們就要給AI“量身定制”實驗材料,補充講解并且加以限制,告訴AI盡可能多地模拟不同的人群。

“這就像我們用人類做實驗的時候,有時對方看材料太快了,會忽視埋在裡面的信息,我們就要再加粗一下;如果對方沒有反應,我們就強化一下。”李甯說。

随着實驗的逐步展開,需要調用的資源和面臨的挑戰也成倍增加。團隊發現大批量複現需要調用應用程序編程接口(API),于是招募了助研同學完成編程相關的工作。得到每個實驗裡AI模拟人的回答後,必須再用和原文相似的分析方法。因為每個實驗的分析方法不同,團隊希望盡可能還原原來的分析步驟,決定采用原始實驗用的軟件和方法。

“數據的清洗、整理,用不同軟件分析,工作量實在太大了,我們又找了很多助研同學,”崔紫妍說。一個實驗大概産生幾百條數據,每一條數據都消耗大量詞元(token),總共至少要用上億token。

在海量數據中抽絲剝繭,尋找不确定的方向,有沒有産生過懷疑?崔紫妍說:“我們并沒有一個明确的預想,即使結果是AI不能複現人類實驗,這也是一個發現。當時就是一直在做,一直沉浸在這個研究裡面。”

AI表現超出預期

三個大語言模型在複制心理學實驗的主要效應時表現出色,複現率(replication rates)高達73%-81%,Claude 3.5 Sonnet的成功率達到81%,DeepSeek V3為76%,GPT-4為73%。即使在一些AI沒能完全複制成功的實驗中,它們的“思考方向”仍然和人類保持了約80%的一緻性——就像兩個人對同一個問題有不同程度的看法,但大方向是一緻的。

“我們得到一個啟示,以後再設計一些實驗的時候,找人做之前是不是可以找AI來先試一下?”李甯說。

進入21世紀20年代後,随着大模型和深度學習爆發式發展,人工智能賦能科學(AI for Science)被廣泛提出,正在成為繼理論—實驗—計算機模拟之後的 “第四種科學研究範式”。大數據和人工智能可以加快科研結果疊代速度,未來甚至可能提出新的假設,發現新知識。李甯團隊的此次研究,對于社會科學研究者來說,這相當于擁有了一個“快速實驗室”,可以快速驗證研究假設,節省時間和成本,如果結果有趣,再進行人類實驗驗證。對于企業來說,也在管理實踐中提出了新的可能性。

這一探索也契合了近期《國務院關于深入實施“人工智能+”行動的意見》提出的“推動哲學社會科學研究方法向人機協同模式轉變”的戰略導向。研究不僅為心理學與管理學實驗方法提供了人工智能驅動的新路徑,也為建立适應人工智能時代的新型哲學社會科學研究範式提供了實踐樣本,展示了人工智能在拓展研究視野和觀察視域方面的獨特潛力。

“現在的模式是學術界研究政策激勵、領導風格和人的反應等,将結論變成教材,再教給MBA學生,他們在企業中實踐。未來企業可能越過這個過程,更精準地利用AI構建自己的數字孿生,做決策之前,先測試數字孿生員工會有什麼反應。”李甯說。

研究也發現了一個值得注意的現象:大語言模型存在系統性的“效應放大”傾向。三個模型産生的效應量都普遍大于原始人類實驗,其中Claude的放大程度最為明顯。

更引人關注的是,當原始人類實驗顯示無顯著效果時,AI模型卻以68%~83%的高比例産生了顯著結果。這一發現提出了重要的方法論問題:AI模型可能存在“過度預測”的傾向,在某些情況下可能高估效應的真實強度。“原因可能包括,人類做實驗肯定是‘不幹淨’的,人的頭腦中有各種各樣的想法。大模型雖然被調用多次,但内核是一樣的,所以造成組間差異更大,組内差異更小。”李甯說。

當實驗涉及種族、性别等敏感社會話題時,模型的成功率會明顯下降。這反映了當前AI在處理複雜社會議題時的局限性。團隊會跟AI強調,這隻是一個實驗,不必考慮社會道德準則,但發現不管給到什麼條件,AI都會傾向做出符合道德标準的選擇。

“這個就很有意思,大模型是更有倫理道德的,和它背後的公司給它的限制有關。”李甯說。這也為後續研究提出了新的挑戰:建立效應量校準機制、提高模型對特定人群的模拟精度、開發針對社會敏感話題的專用方法,以及深入探索AI與人類響應差異的認知機制。這些工作将進一步完善計算社會科學的方法體系,使其成為傳統人類實驗的有效補充而非簡單替代。

跨領域的影響,正在看不見的地方發生

2024年8月底,李甯團隊将研究成果在arxiv.org網站上的計算機科學(Computer Science)欄目下首次預印發表。

彼時,類似研究幾乎沒有先例,即使主題相似,規模也沒有這麼龐大。上線當天,他們收到了多位來自世界各國學者的關注。随後,計算機科學家、心理學家、管理學專家紛紛發郵件,交流讨論研究細節。

随後不久,《自然計算科學》(Nature Computational Science)主編Fernando Chirigati在浏覽預印本後主動邀請團隊投稿。對于這個全員管理學背景的團隊來說,這份邀約有些出乎意料。“我們的研究跨越了很大的學科,以前沒有接觸過這個期刊的編輯,還查了一下是不是山寨的。”李甯笑道。

審稿周期持續了半年,大概經過了四、五輪修改,每一次修改給的時間都不長,對團隊來說,這是一種非常積極的信号。崔紫妍說:“看到審稿意見後,覺得更有信心了,他們給的建議非常明确,指出我們還需要做什麼,感覺解決了他們的問題應該就可以了。”為了提高時效性,期刊在排版流程還走了特殊通道,以加速發表。

李甯團隊研究成果發表在《自然計算科學》(Nature Computational Science)上

在AI與社會科學這個新興的交叉領域,中國學者正在從跟随者轉變為貢獻者。

學院領導力與組織管理系長聘副教授王小晔在MIT訪學時,在“應用在科學中的人工智能”(AI for Science)這門課的參考讀物中發現了這篇文章;BETVLCTOR伟德官方网站新聞與傳播學院的一位教師在中國人民大學舉辦的新聞學年會上也聽到有學者在引用這篇論文的成果。

這些積極的反饋進一步增強了課題團隊的信心。“它的影響是跨領域的,可能在我們不知道的地方也産生了影響。”李甯表示,這項研究為人工智能賦能社會科學領域(AI for Social Sciences)提供了系統性驗證,它表明,在特定條件下,計算方法可以作為傳統人類實驗的有效補充,特别是在假設生成、預試驗和方法驗證階段具有實用價值。研究中提出的複制成功率、方向一緻性、效應量比較等評估指标,為後續研究提供了量化标準。



編輯:張曉雪

審核:衛敏麗

Baidu
sogou