欧美成人A片免费|日韩无码一级av|一级黄色大片在线播放|黄片视频在线观看无码|亚洲精品成人无码影视|婷婷五月天视频网站|日韩三级AV在线播放|姓爱av在线婷婷春色五月天|真人全黃色录像免费特黄片|日本无码黄在线观看下载

  • +1

講座|包弼德:何謂數(shù)字人文?何為數(shù)字人文?

閆力元 辛雙宏
2023-11-16 16:29
來源:澎湃新聞
? 翻書黨 >
字號(hào)

2023年10月27日,哈佛大學(xué)講席教授包弼德應(yīng)邀在上海交通大學(xué)人文學(xué)院進(jìn)行了題為“何謂數(shù)字人文?何為數(shù)字人文?”(What are the Digital Humanities and Why are They Important?)的公開講座。此次講座同時(shí)也是上海交大人文學(xué)院20周年紀(jì)念活動(dòng)之一,由上海交通大學(xué)人文學(xué)院王寧教授主持。

數(shù)字人文是借助計(jì)算機(jī)和數(shù)據(jù)科學(xué)等方法和手段進(jìn)行的人文研究,近半個(gè)世紀(jì),尤其是近十多年來,隨著計(jì)算機(jī)技術(shù)手段的蓬勃發(fā)展,數(shù)字人文研究方興未艾。包弼德教授首先介紹了人文與數(shù)字人文的定義及差別,并以CBDB(中國(guó)歷代人物傳記數(shù)據(jù)庫(kù))為例介紹了目前數(shù)字人文研究的情況,討論了如何支持?jǐn)?shù)字人文的發(fā)展。以下是講座記錄:

講座現(xiàn)場(chǎng)(攝影:張藝菡)

什么是人文?可以有三層意思,首先,人文是人類創(chuàng)造出來借以達(dá)意的媒介,可以是語言文學(xué),也可以是藝術(shù)和音樂;第二,人文是我們創(chuàng)造的敘事,通過現(xiàn)在和過去的關(guān)系定位現(xiàn)在,通過此處與彼處的關(guān)系定位此處,這同時(shí)包含時(shí)間上和空間上的意義,也就是歷史和人文地理;第三,人文是關(guān)于我們是如何行動(dòng)的學(xué)說,包括哲學(xué)、宗教等等。有人認(rèn)為,在中國(guó),人文可以對(duì)標(biāo)為國(guó)學(xué),國(guó)學(xué)以儒學(xué)為本,但國(guó)學(xué)這個(gè)詞帶一點(diǎn)意識(shí)形態(tài)意味。我寧可說人文就是文史哲。論語中有句話叫“述而不作,信而好古”,可是蘇軾認(rèn)為述而不作是不夠的,必得有創(chuàng)造,必得有新意,人文研究也是如此,必須述而作,傳統(tǒng)和創(chuàng)新都需要。

數(shù)字人文和傳統(tǒng)人文研究的不同,有四個(gè)方面:一是數(shù)字資源,二是數(shù)據(jù)(data),三是用計(jì)算性方法查找和提取數(shù)據(jù),四是用計(jì)算性方法分析數(shù)據(jù),把數(shù)據(jù)可視化,來創(chuàng)造新的信息。也可以說,數(shù)字人文是在數(shù)字環(huán)境下促成周期研究,一個(gè)研究周期包括找到研究問題、收集數(shù)據(jù)、查找資料數(shù)據(jù)信息,整理、分析數(shù)據(jù)等環(huán)節(jié),這些環(huán)節(jié)都可以運(yùn)用數(shù)字人文方法。

數(shù)字資源是數(shù)字人文和傳統(tǒng)人文的不同點(diǎn)之一。數(shù)字人文需要借助大量的電子資源展開研究??涩F(xiàn)在的電子資源數(shù)據(jù)庫(kù)越來越貴。信息革命的時(shí)代,大家有一些愿景,覺得可以借助這個(gè)潮流,讓原本比較難獲得的資源數(shù)字化后供給全世界。但不公平的情況仍然存在,資金充裕的大學(xué)數(shù)字資源多,資金匱乏的大學(xué)資源少。

第二個(gè)不同點(diǎn)是數(shù)據(jù)(data),數(shù)字人文就是有很多數(shù)據(jù)的人文。數(shù)據(jù)是什么?數(shù)據(jù)(data)是可以被作為單一實(shí)體處理并加以編碼的一個(gè)事實(shí)或統(tǒng)計(jì)數(shù)據(jù)。可是data不是information(信息),data是個(gè)實(shí)體,必須把data整理聯(lián)合起來,才可以成為信息。舉一個(gè)例子,這張圖是《宋史·呂祖謙傳》中的一段話:

這一段話中有很多數(shù)據(jù),包括人名、地址、職官、社會(huì)關(guān)系、親屬關(guān)系,通過文本挖掘的技術(shù)手段,可以從這一段話中提取出許多數(shù)據(jù),并展示給大家。

第三個(gè)不同是數(shù)字人文用計(jì)算性方式查找和提取數(shù)據(jù)?,F(xiàn)在有兩個(gè)比較普遍的方法,一個(gè)是專名識(shí)別(Named Entity Recognition),比如如果有一個(gè)詞典包含了所有地名,我們就可以依據(jù)這個(gè)數(shù)據(jù)庫(kù)進(jìn)行文本挖掘,看某個(gè)文本包含了哪些地名;另外一個(gè)方法是正則表達(dá)式(Regular Expression),正則表達(dá)式就是找到文本信息的規(guī)律,借助計(jì)算機(jī)編程進(jìn)行提取這些信息。舉一個(gè)簡(jiǎn)單的例子,比如我們要找到一個(gè)文本中的書名,書名往往分布在書名號(hào)(《》)之間,這就可以寫一個(gè)計(jì)算機(jī)程序,提取所有書名號(hào)之間的文本。

也有一些更復(fù)雜的正則表達(dá)式,比如之前提取《宋人傳記資料索引》兩萬五千條傳記中的信息,設(shè)計(jì)正則表達(dá)式花了很久時(shí)間,但之后幾天之內(nèi)就把這些信息全都提取了出來,這就需要計(jì)算機(jī)專業(yè)人才的協(xié)助。歐洲的魏希德教授利用這一方法主持開發(fā)了Marcus平臺(tái),可以幫助我們進(jìn)行一些文本信息(如人名、地名等)的標(biāo)注。

第四是用計(jì)算性方式去分析數(shù)據(jù),把數(shù)據(jù)可視化,創(chuàng)造信息。舉兩個(gè)例子,分別是北宋和南宋進(jìn)士的地理分布和呂祖謙的學(xué)術(shù)網(wǎng)絡(luò)。有意思的是,從呂祖謙的學(xué)術(shù)網(wǎng)絡(luò)中,我們?nèi)菀装l(fā)現(xiàn)朱熹的地位還是要比呂祖謙更重要。

我自己主要研究思想史,尤其是唐宋元明士大夫的思想史。我利用數(shù)字人文進(jìn)行群體傳記學(xué)的研究。但文學(xué)研究者利用數(shù)字人文時(shí)的關(guān)注點(diǎn)往往和歷史學(xué)家有所不同。歷史學(xué)家往往對(duì)人物有興趣,而文學(xué)研究者對(duì)詞匯更有興趣。文本分析的一個(gè)重要視角是互文性(intertextuality),即討論文本之間的引用情況,例如《呂氏春秋·必己》和《莊子·山木》文本的互文情況。借助互文性研究的相關(guān)技術(shù),我們可以得到所有先秦文獻(xiàn)的“文本重復(fù)使用”的情況,如圖所示:最近自然語言處理工具ChatGPT的廣泛運(yùn)用引發(fā)了很多討論。在大學(xué)里,一個(gè)很重要的問題就是學(xué)生在作業(yè)中可不可以使用ChatGPT。我們現(xiàn)在的基本看法是,幾乎沒有辦法阻止學(xué)生使用ChatGPT,關(guān)鍵在于我們?nèi)绾斡盟钊氲厝パ芯空軐W(xué)或者文學(xué)。我曾做過一個(gè)嘗試,先用英文問ChatGPT佛學(xué)是什么(What is Buddhism)?然后用簡(jiǎn)體中文問:佛教是什么?再用繁體中文問:佛教是什麼?會(huì)得到三個(gè)不同的回答。這是因?yàn)镃hatGPT會(huì)學(xué)習(xí)不同語言的語料庫(kù),簡(jiǎn)體中文、繁體中文和英文的回答不一樣,是因?yàn)楸澈蟮膶W(xué)術(shù)傳統(tǒng)不同,這很有意思。

今天第二個(gè)話題,我要以CBDB為例,介紹目前數(shù)字人文研究的情況。CBDB的基本觀念很簡(jiǎn)單,從文本中提取各類人物數(shù)據(jù),整理聯(lián)合起來,創(chuàng)造新的知識(shí)。研究者可以使用數(shù)據(jù)庫(kù)研究群體傳記學(xué),將CBDB應(yīng)用到統(tǒng)計(jì)分析、社會(huì)網(wǎng)絡(luò)分析、空間分析等研究。

CBDB由三個(gè)學(xué)校機(jī)構(gòu)合作開發(fā),分別是北京大學(xué)中國(guó)古代史研究中心、臺(tái)灣“中研院”歷史研究所和哈佛大學(xué)費(fèi)正清研究中心。

CBDB是為了群體傳記學(xué)的研究而創(chuàng)建。1972年歷史學(xué)者L.Stone對(duì)于群體傳記學(xué)的定義是:“透過對(duì)一群人之生平作集體性研究,而對(duì)這群歷史人物之共同背景特征所作的探討。其采用的方法為建立一個(gè)研究的場(chǎng)域,然后詢問一組統(tǒng)一化的問題——關(guān)于出生與死亡、婚姻與家庭、社會(huì)出身與其繼承的經(jīng)濟(jì)地位、居住地、教育、個(gè)人財(cái)富之?dāng)?shù)量與來源、職業(yè)、宗教、公職經(jīng)驗(yàn)等等。”

這里提到了“個(gè)人財(cái)富之?dāng)?shù)量和來源”,如果你們經(jīng)常看中國(guó)的墓志銘和傳記資料,就會(huì)發(fā)現(xiàn)這些傳記中很少涉及個(gè)人財(cái)富的相關(guān)信息,但是在歐洲的傳記資料里面常??吹健N液蜌W洲的學(xué)者開會(huì),他們認(rèn)為CBDB數(shù)據(jù)庫(kù)缺乏一個(gè)非常重要的表:錢,也就是財(cái)富。我們聽取建議增設(shè)了這個(gè)表,但目前沒有增添一條數(shù)據(jù),因?yàn)橹袊?guó)的傳記資料中很少涉及這個(gè)方面。這應(yīng)該是中歐傳記數(shù)據(jù)的一個(gè)不同。

CBDB數(shù)據(jù)的來源很廣泛,例如宋代的傳記資料我們從336種來源中提取信息。目前為止,CBDB總計(jì)已經(jīng)收錄了53萬人物信息,社交網(wǎng)絡(luò)信息超過18萬,親屬關(guān)系收錄最多,超過53萬。除此之外還包括地址、社會(huì)區(qū)分、入仕、職官等核心實(shí)體。

我們把實(shí)體放入不同的表中,可以找出不同的表之間的關(guān)系。比如,在中國(guó),人有名,有號(hào),有字,有行第,有小名,有小字,所以我們做了別名編碼表,這是最簡(jiǎn)單的表,有17個(gè)。但地址編碼表的數(shù)量就很多,有三萬多個(gè);社會(huì)關(guān)系和親屬關(guān)系編碼表差不多五百個(gè)。把這些編碼表和數(shù)據(jù)表聯(lián)合起來,就形成了關(guān)系型數(shù)據(jù)庫(kù)。

在關(guān)系型數(shù)據(jù)庫(kù)中,如果我們想要知道一個(gè)人在一生中經(jīng)過了什么地點(diǎn),會(huì)先做一個(gè)人名表,這是最重要的,沒有它就不知道主人公是誰,然后我們將地名表與之對(duì)應(yīng)。但是如何確定一個(gè)地名和人物的關(guān)系呢?這個(gè)地點(diǎn)是他的籍貫嗎?或是他的故居嗎?或是他的工作地嗎?這時(shí)我們把地點(diǎn)(places)和關(guān)系(relations)的表相對(duì)應(yīng),就能解決問題。或者說,我們想知道某個(gè)時(shí)代的所有宰執(zhí)官員間是否有親屬關(guān)系,就需要把人名、任官、親屬關(guān)系等表格聯(lián)系起來考察。CBDB是關(guān)系型數(shù)據(jù)庫(kù),組織不同實(shí)體間的聯(lián)系,這是關(guān)系型數(shù)據(jù)庫(kù)的主旨。我們從傳記資料中提出不同類型的數(shù)據(jù),放在不同的實(shí)體之內(nèi),同時(shí)在這些不同實(shí)體之間建立了多種形式的聯(lián)系,通過將不同的實(shí)體聯(lián)系起來,我們可以得到一些新信息,來解決一些問題。

CBDB有很多查詢?nèi)肟?,每個(gè)查詢?nèi)肟趯?duì)應(yīng)不同的輸出內(nèi)容,可以進(jìn)行循環(huán)搜索。在社會(huì)關(guān)系查詢窗體中,CBDB能夠找到人物之間的社會(huì)關(guān)系網(wǎng)絡(luò)。我們?cè)诖嘶A(chǔ)上設(shè)計(jì)了一個(gè)四值度量法,用于社會(huì)關(guān)系的親疏遠(yuǎn)近。比如我的朋友是第一度,朋友的朋友是第二度,以此類推。如下圖,查詢王陽明到第三度的社會(huì)關(guān)系,可以得到這個(gè)社會(huì)網(wǎng)絡(luò)圖:

或者我們可以用CBDB來做空間分析,例如可以考察親屬關(guān)系的地理分布。比如江西吉州的親屬關(guān)系分布圖,可以發(fā)現(xiàn),北宋時(shí)期親屬分布圖是全國(guó)性的、很分散的,可是到宋末元初就地方化了。這種現(xiàn)象的形成不但在吉州,在金華、紹興、贛州等各個(gè)地方都是這樣。CBDB會(huì)證明有這樣的現(xiàn)象,但不會(huì)解釋為什么有這樣的現(xiàn)象,而這正是學(xué)者們,特別是歷史學(xué)者們?cè)撟龅摹忉屖录l(fā)生的原因。我的新書《志學(xué)斯邑:十二至十七世紀(jì)婺州士人之志業(yè)》(Localizing Learning: The Literati Enterprise in Wuzhou, 1100-1600)就討論了這個(gè)問題,中文版預(yù)計(jì)在明年出版。

CBDB也可以用來進(jìn)行統(tǒng)計(jì)分析,下圖是對(duì)唐代男性和女性死亡年齡的數(shù)據(jù)統(tǒng)計(jì)圖,可以發(fā)現(xiàn)唐代女性在青壯年時(shí)期的死亡率明顯高于這一時(shí)期的男性,這是由于生育風(fēng)險(xiǎn)。

CBDB不是一個(gè)傳記辭典,盡管在不斷修訂,但并不要求數(shù)據(jù)各方面都精確無誤。CBDB服務(wù)于群體傳記學(xué)研究,致力于把很多數(shù)據(jù)聯(lián)合在一起,形成一個(gè)大概的模型。我們也可以提供某一個(gè)人傳記的各方面數(shù)據(jù),然而作為數(shù)據(jù)庫(kù),更重要的是提供范圍和數(shù)量上更大規(guī)模的數(shù)據(jù),從而對(duì)研究提供幫助。

CBDB一直在發(fā)展。我們的內(nèi)容在不斷更新,現(xiàn)在查詢到的數(shù)據(jù)圖和明年的可能會(huì)有細(xì)微的不同,我們?cè)诓粩嘣黾託v史數(shù)據(jù),擴(kuò)大數(shù)據(jù)庫(kù),比如一直在進(jìn)行的對(duì)地方志和清代朱卷的數(shù)據(jù)挖掘、明代書信項(xiàng)目等,社會(huì)人士也可以通過API進(jìn)行眾包輸入,擴(kuò)充和校對(duì)數(shù)據(jù)。我們希望專業(yè)的人可以加入,幫助我們完善CBDB數(shù)據(jù)庫(kù)。

今年三月哈佛大學(xué)舉辦了“業(yè)界工具:通往未來”(Tools of the Trade: The Way Forward)的數(shù)字人文國(guó)際會(huì)議,來自中國(guó)、日本、美國(guó)、加拿大、歐洲各國(guó)的學(xué)者都介紹了自己的研究成果和數(shù)字人文項(xiàng)目,他們的PPT都已在網(wǎng)絡(luò)公開。2018年,我在一次會(huì)議上討論了網(wǎng)絡(luò)基礎(chǔ)設(shè)施建設(shè)的問題。什么是數(shù)字人文基礎(chǔ)設(shè)施?最基本的是硬件設(shè)施,但也包含了代碼庫(kù)、軟件等方面的要求。之所以要做這些基礎(chǔ)設(shè)施,是因?yàn)槲覀兊臄?shù)據(jù)庫(kù)正在多元化,有很多獨(dú)立的數(shù)據(jù)庫(kù),彼此之間關(guān)聯(lián)很少。打比方,如果你要查閱一本書,不確定它有沒有被數(shù)據(jù)化,就需要到很多地方、通過不同途徑進(jìn)行查詢,查人物也是一樣。所以要提高查詢的效率,我們就需要把多元化的數(shù)據(jù)庫(kù)聯(lián)合起來,提供一鍵式的跨數(shù)據(jù)庫(kù)學(xué)術(shù)資料檢索服務(wù),這需要開發(fā)通用平臺(tái)作為中國(guó)研究的網(wǎng)絡(luò)基礎(chǔ)設(shè)施,這是一個(gè)挑戰(zhàn)。

(文中圖片由包弼德教授提供)
    責(zé)任編輯:顧明
    圖片編輯:張穎
    校對(duì):欒夢(mèng)
    澎湃新聞報(bào)料:021-962866
    澎湃新聞,未經(jīng)授權(quán)不得轉(zhuǎn)載
            查看更多

            掃碼下載澎湃新聞客戶端

            滬ICP備14003370號(hào)

            滬公網(wǎng)安備31010602000299號(hào)

            互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006

            增值電信業(yè)務(wù)經(jīng)營(yíng)許可證:滬B2-2017116

            ? 2014-2026 上海東方報(bào)業(yè)有限公司