- +1
國(guó)內(nèi)首個(gè)楔形文字在線數(shù)據(jù)庫(kù)DEMC上線
?早期兩河流域契約數(shù)據(jù)庫(kù)(DEMC)作為國(guó)內(nèi)首個(gè)自主開發(fā)的楔形文字在線數(shù)據(jù)庫(kù),是教育部哲學(xué)社會(huì)科學(xué)研究重大課題攻關(guān)項(xiàng)目(23JZD040)的階段性研究成果之一。目前其1.0版本已經(jīng)上線(網(wǎng)址:http://wx.xdsxds.com/layout/home),提供免費(fèi)使用服務(wù)以及AI助手服務(wù)。

為服務(wù)于國(guó)內(nèi)世界古代史、古文字學(xué)、經(jīng)濟(jì)史、法律史、比較法學(xué)、數(shù)字人文等領(lǐng)域?qū)W者的研究需求,DEMC旨在對(duì)分散于全球各地圖書館、博物館、檔案館的早期兩河流域(公元前三千紀(jì))契約文書資源進(jìn)行數(shù)字化采集,這些資源實(shí)體的分布廣泛、專業(yè)性強(qiáng)且存在大量未出版內(nèi)容,其發(fā)表渠道也非常零散,傳統(tǒng)紙質(zhì)期刊與電子資源的割裂造成了文獻(xiàn)搜集的難度。DEMC通過數(shù)字人文技術(shù)整合上述碎片化資源,以期構(gòu)建集數(shù)據(jù)采集、文本挖掘、多標(biāo)簽分類、多模態(tài)關(guān)聯(lián)展示及可視化于一體的綜合性平臺(tái),為上述各領(lǐng)域的研究者提供系統(tǒng)化研究工具。
DEMC數(shù)據(jù)庫(kù)主要收錄兩河流域早期的楔形文字文本資源,具體包含三個(gè)時(shí)期:古蘇美爾時(shí)期?(又稱前薩爾貢、早王朝時(shí)期)、阿卡德時(shí)期?(又名薩爾貢王朝)和新蘇美爾時(shí)期?(即烏爾第三王朝)。在內(nèi)容上,DEMC數(shù)據(jù)庫(kù)主要收錄的契約文書以買賣契約和借貸契約為主。除契約文書的中英文及拉丁轉(zhuǎn)寫文本內(nèi)容外,數(shù)據(jù)庫(kù)還收錄與之相關(guān)的各類多模態(tài)資源?,主要包括原始泥板照片、臨摹圖像等,并記錄相關(guān)資源實(shí)體的館藏信息,以便提供全方位的研究材料。

DEMC數(shù)據(jù)庫(kù)主要包括四種功能,涵蓋從數(shù)據(jù)采集到知識(shí)服務(wù)的全過程。

DEMC以技術(shù)成熟度較高、通用性較強(qiáng)的FileMaker Pro工具為基礎(chǔ)進(jìn)行開發(fā)?,該系統(tǒng)支持與MySQL、Oracle等主流的關(guān)系數(shù)據(jù)庫(kù)進(jìn)行數(shù)據(jù)集成和數(shù)據(jù)共享,其主要功能包括對(duì)早期楔形文字契約文書資源進(jìn)行標(biāo)準(zhǔn)化數(shù)據(jù)存儲(chǔ)?,制定統(tǒng)一的文本、圖像采集與整合標(biāo)準(zhǔn),并以嚴(yán)格的專業(yè)元數(shù)據(jù)系統(tǒng)進(jìn)行結(jié)構(gòu)化約束;同時(shí)保留?動(dòng)態(tài)擴(kuò)展能力,在使用過程中可以靈活增補(bǔ)所需的新字段。
數(shù)據(jù)庫(kù)不僅提供文本的轉(zhuǎn)寫與英漢雙語(yǔ)翻譯,還包含多個(gè)專業(yè)字段,如契約類型、固定格式、術(shù)語(yǔ)、標(biāo)的物與數(shù)量、締約方(買賣契約中的賣方/買方、借貸契約中的貸方/借方)、見證人、誓言、其他關(guān)聯(lián)信息,以及文本的出版信息、年代、出土地點(diǎn)、收藏機(jī)構(gòu)、對(duì)應(yīng)CDLI編號(hào)等基礎(chǔ)信息。
為在后續(xù)實(shí)現(xiàn)更專業(yè)、高效的檢索,并在此基礎(chǔ)上提供細(xì)粒度的知識(shí)服務(wù),DEMC對(duì)CDLI的語(yǔ)義知識(shí)表示框架進(jìn)行了擴(kuò)展,對(duì)兩河早期契約文本的結(jié)構(gòu)進(jìn)行深度解析、并以CIDOC-CRM、FOAF為基礎(chǔ),融合《民法典》索引平臺(tái)的相關(guān)敘詞索引 ,實(shí)現(xiàn)了對(duì)契約文書內(nèi)容的語(yǔ)義關(guān)聯(lián)構(gòu)建。擴(kuò)展后的語(yǔ)義結(jié)構(gòu)除包含CDLI提供的各種元數(shù)據(jù)之外,增設(shè)了Text Information、Historical Document、Visual Item等實(shí)體類分別用于表示契約文書文本特征、契約文書的內(nèi)容結(jié)構(gòu)及相關(guān)聯(lián)的多模態(tài)資源進(jìn)行組織和關(guān)聯(lián)。對(duì)兩河早期契約文書中的主體(subject)、客體(object)、甲方(agent)、乙方(patient)、擔(dān)保人(guarantor)、見證人(witness)、名義見證人(nominal witness)、簽約(signed)、執(zhí)行(executed)等專有概念進(jìn)行創(chuàng)新性界定并實(shí)現(xiàn)了細(xì)粒度的語(yǔ)義關(guān)聯(lián)構(gòu)建,實(shí)現(xiàn)了針對(duì)買賣(sale)、借貸(Loan)、租賃(Lease)等不同類型契約文書內(nèi)容的知識(shí)表示(以CDLI/P112333為例)。

URI、契約類型、主體、客體、甲方、乙方、擔(dān)保人、見證人、名義見證人、簽署時(shí)間、執(zhí)行時(shí)間、關(guān)聯(lián)文本、文物載體
在數(shù)據(jù)應(yīng)用環(huán)節(jié),DEMC提出在現(xiàn)有語(yǔ)義架構(gòu)的基礎(chǔ)上對(duì)數(shù)據(jù)庫(kù)中的資源進(jìn)行知識(shí)抽取和知識(shí)庫(kù)構(gòu)建的過程。
例如,對(duì)于契約文本中的“主體”角色,可以通過如下方式進(jìn)行自動(dòng)知識(shí)抽取:
# 語(yǔ)義角色分類示例
roles = ["主體(subject)", "客體(object)", "甲方(agent)",
"乙方(patient)", "擔(dān)保人(guarantor)", "見證人(witness)",
"名義見證人(nominal witness)", "簽約時(shí)間(signed)", "執(zhí)行時(shí)間(executed)"]
在知識(shí)抽取之后,還可以利用RAG等新興的人工智能技術(shù)對(duì)相關(guān)資源構(gòu)建可視化服務(wù)框架,并提供檢索和智能化問答功能。
通過全面介紹DEMC數(shù)據(jù)庫(kù)的核心目標(biāo)、技術(shù)架構(gòu)、數(shù)據(jù)流模型及多樣化功能模塊,并簡(jiǎn)要概述全棧開發(fā)的技術(shù)解決方案,以完整呈現(xiàn)該平臺(tái)的潛力與功能。用戶可通過多字段檢索獲取全部信息與數(shù)據(jù)。





- 報(bào)料熱線: 021-962866
- 報(bào)料郵箱: news@thepaper.cn
滬公網(wǎng)安備31010602000299號(hào)
互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006
增值電信業(yè)務(wù)經(jīng)營(yíng)許可證:滬B2-2017116
? 2014-2026 上海東方報(bào)業(yè)有限公司




