隨著當今世界科學技術全球化的不斷深入🫳,開放、共享正成為科學研究的核心內涵與鮮明特征,開放科學(Open Science)的實踐得到越來越多人的認可和采用。從定性社會科學到生物醫學,科學數據(Scientific Data)都是學術工作的支柱和重要產出,也是開放科學運動的重要物質基礎⚔️。認真負責任地管理和共享科學數據有助於提高研究的透明度、嚴謹性、可重復性和公共價值。
高校意昂3是學校的文獻信息資源中心👨🏻🍳,在基於文獻資源的元數據收割🧑🏿💻、交互及鏈接規範上有著豐富的實踐經驗👩🏻🦱🏜,有能力成為科學數據管理(Scientific Data Management,以下簡稱SDM)服務中的關鍵角色和主要貢獻者。調研高校成熟的科學數據管理實踐📸,進行分析與學習,可幫助我們促進高質量科學數據資源的共享和再利用,推進全球開放科學運動在高校中的實踐。本專題將基於常見的科學數據倉儲進行數據分析,梳理全球高校科學數據倉儲(SDR)的基本情況☹️✮,並遴選SDR建設經驗豐富,SDM政策完備的高校進行深入分析與學習,為我國高校的科學數據管理實踐建設提供依據。
當前比較常見的科學數據倉儲註冊和發現平臺包括re3data🧖♀️、FAIRsharing、Data Citation Index等🏊🏼♂️,本文將對以上科學數據倉儲進行簡要介紹💖,為後續基於科學數據倉儲的數據分析建立基礎。
Re3data簡介
re3data(REgistry of REsearch data REpositories)是一個涵蓋全球範圍內不同研究學科科研數據倉儲(Research Data Repository,以下簡稱RDR)的註冊平臺,於2012年啟用🔤,並由德國研究基金會(DFG)提供資助。re3data.org的使命是促進研究數據的共享,增加數據的訪問權限以及更好的可見性。

圖片來源:https://www.re3data.org/
該平臺的元數據框架主要包含RDR的一般描述性信息🥷🏽、內容💼、基礎設施、責任機構👨🏿🍼、法律政策,以及是否符合技術⛓、質量和元數據標準等元數據屬性,能夠幫助研究者、資助機構🚙、出版者和學術機構遴選能夠永久保存與訪問數據集的合適倉儲庫🙅🏼♂️。re3data采用DFG的學科科目分類,包括人文社會科學🏋🏿♀️、生命科學、自然科學和工程科學4類。Dublin Core和Data Cite Metadata Schema是各學科中應用較多的綜合性元數據標準👩🏻🦱。由於各學科數據有自身的特點👩🏼🎤,各科研數據倉儲的元數據框架具有多樣化的特點。一些RDR采用幾個通用標準組合或通用標準與學科標準相結合的方法構建元數據框架🤌🏽,例如人文社會科學主要采用的元數據標準有Dublin Core、DDI(Data Documentation Initiative)、Data Cite Metadata Schema;生命科學主要采用的元數據標準有Dublin Core、DDI、Darwin Core;自然科學主要采用的元數據標準有ISO 19115、Dublin Core、FGDC /CSDGM (Federal Geographic Data Committee Content Standard for Digital Geospatial Metadata)🏋🏻♀️、EML(Ecological Metadata Language)🍚;工程科學主要采用的元數據標準有Data Cite Metadata Schema、Dublin Core、DDI、OAI-ORE(Open Archives Initiative Object Reuse and Exchange)🧝🏿🎯。一些RDR則沒有采用現有的元數據標準🌤,而是自行建設元數據框架👩🏭,或者直接采用實驗室內部的元數據。
re3data的合作夥伴是柏林洪堡大學的柏林意昂3和信息科學學院,德國地球科學研究中心的亥姆霍茲開放科學辦公室,德國卡爾斯魯厄理工學院(KIT)意昂3和普渡大學意昂3。2013年3月,re3data和Databib宣布合並為一個科研數據倉儲註冊平臺,並自2015年底起由DataCite主持管理,旨在更好地服務科學研究。
FAIRsharing簡介
FAIRsharing 由英國牛津大學於2011年創辦,由牛津大學的數據準備小組和參與數據生命周期的所有其他利益相關者共同運營,是一個社區驅動的資源服務機構。FAIRsharing 的使命是增加對數據標準、數據庫、存儲庫和數據策略的消費者的指導🧑🏼🔧,以加速這些資源的發現🉐、選擇和使用,提升資源可見性🦵🏼、再利用👟、采用和引用方面的生產者滿意度。

圖片來源:https://fairsharing.org/
FAIRsharing擁有多種不同學科的用戶和合作者,與利益相關者合作👗,通過促進數據標準🙇🏻♀️👍🏽、數據庫和科學數據政策的價值和使用來實現 FAIR 原則。FAIRsharing維護以下三類資源註冊表🚸:
1.標準🈳🧑🦲:包括(但不限於)報告指南🚶♂️、人工術語、模型和格式以及指標🫷。
2.數據庫💇🏼♀️:按照領域、物種或組織劃分的數據存儲庫或知識庫🥲。
3.政策:數據保存🥨🧑🦰、管理和共享等政策
同時對於具有數據政策的期刊出版商或組織,FAIRsharing 可以維護相互關聯的可引用標準和數據庫列表,形成分組(Collection)並推薦給用戶🏈。在查看數據庫的同時可以了解到其執行的標準以及認可的相關政策。
為了使標準、數據庫🚽、存儲庫和數據政策更易於發現和引用,FAIRsharing為每條記錄生成數字對象標識符 (DOI),提供了一個持久且唯一的標識符保障對這些資源的準確引用。 此外,FAIRsharing得到Bodleian 意昂3的支持🦣,每條記錄的維護者可以與他們的開放研究和貢獻者標識符 (ORCID) 個人資料 (https://orcid.org) 相關聯🍎。
平臺的元數據框架由DOI🖖🏻、資源類型、註冊表🌾、資源描述、資源鏈接💁🏽🏄🏻♀️、資源創建年份、資源維護者🧔🏻、資源所屬國家、學科主題👨❤️💋👨、學科領域、分類範圍🏵、用戶定義的標簽等元數據屬性構成。
Data Citation Index(DCI)簡介
DCI於2012年由科睿唯安推出🎩,DCI提供了一個訪問全球高質量研究數據的入口。通過DCI用戶可檢索科學、社會科學和人文學科領域的幾百個經過評估的數據倉儲中的數百萬條記錄,每一條記錄均可鏈接到數據倉儲。數據庫Web of Science Core Collection記錄中的‘Associated Data’按鈕,方便用戶將研究與基礎數據聯系起來。

圖片來源:https://webofscience.help.clarivate.com/
DCI允許納入的數據包括存放在公認的數據倉庫中的數據研究、數據集、軟件🛩。其中數據研究指對存儲庫中保存的研究或實驗的描述,以及數據研究中使用的相關數據或軟件🤸🏿♀️。數據集指存儲庫提供的單個或連貫的一組數據👨🏻💻、數據文件或軟件對象。數據倉庫則包含數據研究和數據集的數據庫或集合📠,用於存儲和提供對原始數據的訪問〽️。
基於以上科學數據倉儲註冊和發現平臺,我們調研並獲取到有豐富的科學數據管理經驗的8所高校☔️,包括加州大學 (University of California)、哈佛大學 (Harvard University)🤌🏿、哥倫比亞大學 (Columbia University)、密歇根大學 (University of Michigan)、帕多瓦大學(University of Padova)📺、威斯康星大學(University of Wisconsin)、康奈爾大學(Cornell University)、斯坦福大學 (Stanford University)並從數據管理政策、數據全生命周期管理🔦、數據素養教育等多個維度展開分析,以期為我國高校的科學數據管理實踐建設提供依據。