- +1
從數(shù)字人文視角看“近代中國的精英、網(wǎng)絡與權力”
2023年7月至2024年1月,筆者赴法國艾克斯—馬賽大學(Aix-Marseille University)亞洲研究中心(IrAsia),參加由著名上海史研究學者安克強教授(Prof. Christian Henriot)主持的ENP-China研究團隊。目前,該團隊已在近代中國人物資料數(shù)據(jù)庫建設等方面取得了一些重要進展。茲以七個月的訪問經歷,介紹ENP-China項目(“近代中國的精英、網(wǎng)絡與權力”)的研究旨趣、運用工具、研究成果等,以向國內讀者推介海外中國近代史研究的新動向、新方法與新思想。

ENP-China(Elites, Networks and Power in Modern China)主頁
“近代中國的精英、網(wǎng)絡與權力”
ENP-China項目全稱Elites, Networks and Power in Modern China,意為“近代中國的精英、網(wǎng)絡與權力”,受歐洲研究理事會(European Research Council)資助。該項目以1830-1949年在上海、廣州、天津等城市活動的中國社會精英為研究對象,旨在挑戰(zhàn)過往“以國家為中心、以群體為基礎”的文獻研究法,將城市精英視為社會活動者,其地位、身份及行動等受不斷變化的權力結構影響,且通過制度與非正式/正式網(wǎng)絡的行動重新定義社會與政治的邊界。因此,項目著重關注信息、資本與個體流動的網(wǎng)絡,研究精英群體跨國化過程。在具體方法上則突破常規(guī)史料的限制,將名人錄、人名辭典等復雜來源的信息,轉化為精細的、可重復利用與可長期存續(xù)的數(shù)據(jù),供目前與將來研究使用。該項目依賴可不斷擴展的各類歷史數(shù)據(jù)資料,以前所未有的規(guī)模提供精確的歷史信息,重新塑造基于現(xiàn)有來源,如檔案、日記等的史學研究,以期在現(xiàn)代中國精英轉型研究中創(chuàng)造新維度。
團隊負責人安克強以上海城市史研究著稱,著有《1927-1937年的上海:市政權、地方性和現(xiàn)代化》(Shanghai,1927-1937:Municipal Power, Locality and Modernization)、《鐮刀與城市:以上海為例的死亡社會史研究》(Scythe and the City: A Social History of Death in Shanghai)等。在多年的研究中,他非常注重各類數(shù)字工具在史學研究中的運用,曾融合地理信息系統(tǒng)(Geographic Information System, GIS)[1]分析近代上海的公墓分布等問題。近年來,安教授以名人錄等為基礎材料,運用數(shù)字工具,力圖建構近代中國社會精英的各類網(wǎng)絡。因此,在招募團隊成員時,除歷史學者外,數(shù)據(jù)科學家與軟件工程師也加入其間,共同開展項目研究。以筆者在法期間為例,團隊內既有安克強、孟喜(Cécile Armand)等史學工作者,亦有從事數(shù)據(jù)庫建設與維護的工程師Nora Van den Bosch與以人工智能(Artificial Intelligence,AI)[2]和自然語言處理(Natural Language Processing ,NLP)[3]見長的計算機博士Baptiste Blouin。為鼓勵年輕學人運用數(shù)字工具輔助學位論文寫作,團隊亦招募具有中國近代史學科背景,具備一定信息技術素養(yǎng)的高年級博士生,提供六個月或一年的工作合同,開展數(shù)字工具使用等培訓,并加入研究計劃。筆者即在2023年下半年密集接受程序語言等知識的學習,運用數(shù)字人文(Digital Humanities)[4]思維創(chuàng)新論文寫作思路。由于團隊與臺灣“中研院”近史所深度合作,因此連玲玲等近史所研究人員亦有協(xié)助。此外,團隊亦吸納一些歐盟內其他高校的語言學家、計算機工程師等參與其間,協(xié)同開展資料庫建設等工作。
數(shù)字工具與研究成果
ENP-China的關注群體為近代中國的各類社會精英,包括但不限于歸國留學生、商人、紳衿等,其信息來源為Who’s who in China等名人辭典,因此如何有效率地提取大量個人信息,如其性別、籍貫、學經歷等,并在此基礎上建立可相互關聯(lián)、不斷延伸的信息網(wǎng)絡,成為關鍵的先導工作。為此,團隊將R Studio作為中心工具:其為程序語言R的操作平臺,由法國數(shù)字人文開放平臺Huma-Num托管,用于統(tǒng)計計算與圖形呈現(xiàn)。由于其免費屬性及社區(qū)成員不斷為該語言開發(fā)各類功能包,因而備受研究者青睞。目前,通過R Studio中的各類功能包,如tidyverse等,可實現(xiàn)文字段落的自動分詞、數(shù)據(jù)導出、可視化、數(shù)據(jù)建模等多種功能。具體而言,人名錄及其他語料庫(corpus,指具有一定格式的大量文本)中的各類命名實體,如姓名、年齡、字號、出生地名等,可運用特定功能包(如分詞包),將其從文本中分離并分類建表,最終依此建立基于某一參數(shù)的網(wǎng)絡,如同鄉(xiāng)網(wǎng)絡等。
基于R Studio平臺,團隊目前開發(fā)出兩大可視化運用平臺:HistText與MCBD。
HistText最早為Jeremy Auguste博士等開發(fā)的R Studio功能包,后經Baptiste Blouin博士的完善,成為易于操作的可視化平臺,可實現(xiàn)在特定語料庫(如《申報》、《東方雜志》等)中搜索關鍵字,隨之生成新的語料庫后,對此進行自然語言處理,實現(xiàn)如關鍵詞云形成、人名、地名、機構名等命名實體(Named Entities)的識別與提取、搜索關鍵詞年度分布表的建立等功能,為之后開展主題建模等工作提供基礎資料。

HistText界面
MCBD全稱Modern China Biographical Database,即近代中國人物傳記數(shù)據(jù)庫。該庫與“中研院”近史所合作開發(fā),旨在通過系統(tǒng)化的數(shù)據(jù)挖掘,收集在中國活躍的任何個人,包括中國人及在華外國人的傳記數(shù)據(jù)。這些數(shù)據(jù)可以來自各種來源,如目錄、傳記詞典、名人錄等,報紙和期刊,以及學術文獻。使用該庫檢索相關個人信息時,可隨之查閱與其生平經歷相關的其他個人,如同鄉(xiāng)、同學等,從而為歷史人物的研究探索出一條新路。

MCBD界面
目前,ENP-China團隊的研究成果集中收錄于2022年經Brill出版社出版,由安克強、孟喜與孫慧敏主編的Knowledge, Power, and Networks. Elites in Transition in Modern China:一書。該書收錄了9篇基于自然語言處理等數(shù)字技術,分析特定歷史問題,如上海扶輪社、在滬英國婦女協(xié)會等社團成員組成與活動情況的專題論文。上述論文的作者在將大量人物信息運用R Studio等工具進行篩選、清洗、整理后,主要運用主題建模(Topic Modeling)、[5]社交網(wǎng)絡分析(Social Network Analysis, SNA)[6]等分析模型,建構近代中國精英之中形成的各類網(wǎng)絡,以探索精英社團的形成、發(fā)展與活動等問題。
必須指出的是,運用自然語言處理對文本進行信息提取等工作,仍有不盡如人意之處。由于經過光學字符識別(Optical Character Recognition, OCR)[7]形成的語料庫,其往往存在大量錯誤,加之程序語言只能對特定文本格式中的信息提取精度較高,常無法覆蓋格式之外的有效信息,因而經提取后的相關數(shù)據(jù),如姓名、生卒年等,必須進行數(shù)據(jù)清洗(Data Cleaning)。[8]該過程通常較為耗時,且需充分掌握相關史實后方能加以甄別,因而需要一定人工力量介入。并且,若語料庫的規(guī)模過小,也往往造成經軟件分析得出的結果,與經常規(guī)閱讀而得出的結論相差無幾的現(xiàn)象。因而在實際操作的過程中,運用自然語言處理技術對文本信息加以提取、篩選等工作,仍有一些掣肘。
盡管如此,由于軟件處理較之人工閱讀,提取成規(guī)模史料(如1872-1949年《申報》的全部內容)中的相關信息,仍在工作效率等方面存在極為明顯的優(yōu)勢,因而在中國近代史研究中有廣闊的應用前景。特別是針對晚清民國精英人物的研究方面,由于其人數(shù)多、信息龐雜、各類正式或非正式網(wǎng)絡多樣,既有研究常建立在以中心人物為圓心的小規(guī)模社會網(wǎng)絡之基礎上,可能有“管中窺豹”之虞。不過,若使用自然語言處理技術,從海量數(shù)據(jù)中提取精英人物的基本信息并篩選、建模,較之傳統(tǒng)的人工提取、校對、建表,有極為明顯的效率優(yōu)勢。數(shù)據(jù)量的大大提升,也為特定研究領域(如民國知識人交流網(wǎng)絡)中建立以籍貫、學經歷、仕途等關系串聯(lián)的大規(guī)模社交網(wǎng)絡創(chuàng)造可能,從而依此產生一些顛覆式的研究成果。我們相信,伴隨著語料庫數(shù)量與質量的不斷提高,加上數(shù)字工具的不斷迭代演進,以網(wǎng)絡分析為立足點的近代中國人物研究將方興未艾,成為史學研究的一條頗值得嘗試的新途。
[1] 地理信息系統(tǒng)指在計算機、軟件系統(tǒng)支持下,對特定空間中有關地理分布數(shù)據(jù)(如經緯度等),進行采集、儲存、管理、運算、分析、顯示與描述的技術系統(tǒng)。
[2] 人工智能主要指的是針對使用計算機對人的某些思維過程和智能行為(如學習、推理、思考、規(guī)劃等)進行模擬的學科,主要包括計算機實現(xiàn)智能的原理、制造類似于人腦智能的計算機,使計算機能實現(xiàn)更高層次的應用。
[3] 自然語言處理指用人類交流所使用的自然語言與機器進行交互通訊的技術,通過人為的對自然語言的處理,使得計算機對其能夠可讀并理解。
[4] 數(shù)字人文主要指針對計算與人文學科之間的交叉領域,進行學習、研究、發(fā)明以及創(chuàng)新的一門學科。
[5] 主題模型指的是,在機器學習和自然語言處理等領域中,用來在語料庫中發(fā)現(xiàn)抽象主題的一種統(tǒng)計模型。直觀來講,如果一篇文章有一個中心思想,那么一些特定詞語會更頻繁的出現(xiàn)。例如,如果一篇文章是在講狗的,那“狗”和“骨頭”等詞出現(xiàn)的頻率會高些。
[6] 社會網(wǎng)絡指的是許多節(jié)點以及節(jié)點間關系構成的一個網(wǎng)絡結構。節(jié)點通常是指個人或組織(又稱社團)。社會網(wǎng)絡代表各種社會關系,經由這些社會關系,把從偶然相識的泛泛之交到緊密結合的家人關系的各種人們或組織串連起來。社交網(wǎng)絡分析是用來查看節(jié)點、鏈接之間的社會關系的分析方式:節(jié)點是網(wǎng)絡中的個人參與者,鏈接則是參與者之間的關系。節(jié)點之間可以有很多種鏈接。
[7] 光學字符識別指對包含文本內容的圖像或視頻進行處理和識別,并提取其中所包含的文字及排版信息的過程。
[8] 數(shù)據(jù)清洗指從語料庫、表格或數(shù)據(jù)庫中檢測和糾正(或刪除)損壞或不準確的記錄的過程,是指識別數(shù)據(jù)的不完整、不正確、不準確或不相關部分,然后替換、修改、或刪除未經處理的原始數(shù)據(jù)。
(本文經安克強教授審訂。)





- 報料熱線: 021-962866
- 報料郵箱: news@thepaper.cn
互聯(lián)網(wǎng)新聞信息服務許可證:31120170006
增值電信業(yè)務經營許可證:滬B2-2017116
? 2014-2026 上海東方報業(yè)有限公司




