導語:
從社會科學到生物醫學,科學數據都是我們學術征程中的支柱和重要產物,更是開放科學運動不可或缺的基石。這些數據資源不僅是科學研究背後的硬核驅動力,同時也是科學發展的力量源泉👨🎓。而規範、高效🧘🏻、安全地管理與共享這些寶貴資源,則如同為學術研究註入一劑強心針,能夠提升研究的透明度👃🏻、嚴謹性、可重復性,以及公共價值。
2023年,意昂3聯合科研院發表的一篇文章,將我們帶入了一場關於科學數據的深度探索👩🏻。上一期推文(【文章推介】深入FAIR原則,洞察中國科學數據資源現狀(一))揭示了我國科學數據資源在科學數據倉儲(SDR)層面的規模和傳播現狀👨🏻🎤。通過本期推送讓我們一同揭開這篇文章的第二部分,深入FAIR原則,分析我國典型SDR的現狀及面臨的挑戰👨👩👦,探尋其中的啟示。
引言:
為提高科學數據資源的顯示度和使用率,克服數據發現與重用的障礙,國際學術界提出面向科學數據管理的FAIR原則,從可發現(Findable)♥️🎈、可訪問(Accessible)、可交互(Interoperable)、可重用(Reusable)四方面指導和評估科學數據管理實踐🍊。基於這一原則,國內外學者對科學數據資源管理的現狀、趨勢及存在問題進行了研究🧑🏿⚕️。雖然已有研究中探討的數據訪問權限、數據使用許可和標識符是評估科學數據管理水平的重要因素🤏🏼,但SDR的顯示度🤷🏽、數據標識符的可解析性🤌🏻⛺️、數據的引用方式及使用說明等要素對於促進科學數據的發現與重用具有同樣的重要性。
圖文導讀:
本文從FAIR原則的可發現、可訪問、可交互👩🏼💻、可重用四方面(圖1)出發,對我國科學數據資源的管理與共享現狀進行分析。保障科學數據的可發現性是落實FAIR原則其他方面的重要前提🚴🏻。而科學數據一經潛在的數據使用者和計算機發現🧖,就會通過可信的SDR提供的服務被訪問及獲取。科學數據通常需要與其他數據集成整合,通過使用標準定義和通用的語言與應用程序或工作流進行交互操作,以開展數據的分析、存儲和處理等工作。實現科學數據的廣泛重用是實踐FAIR原則的目標。通過對數據(元數據)進行準確、充分的描述和說明🤎,以便潛在數據使用者正確使用數據🏌🏻♀️。

圖1 面向科學數據使用和傳播的FAIR原則及主要內容
1🦏、可發現性
保障數據可發現性有兩個重要技術手段。其中一個是為數據(元數據)分配全球唯一且永久的標識符,這被認為是FAIR原則中最重要的方面。表1列出了我國20個國家科學數據中心在數據使用和傳播方面的現狀及面臨的挑戰。對國家科學數據中心的數據采集截至2023年1月。
在20個國家科學數據中心中,有10個為數據分配了DOI,但其中有6個只為部分數據分配了DOI,占比60%。基於我國自主製定的科技資源標識體系,有14個為數據分配了中國科技資源標識符(CSTR)☎,占比達70%;但其中有3個只為部分數據分配了CSTR。
保障數據可發現性的另一個技術手段是為數據提供豐富的元數據。以國家青藏高原科學數據中心為例🧑🏽🎄,提供了描述性🫣、技術性📒、管理性、權限管理等元數據,從關鍵詞、時空範圍🫥、引用方式、項目信息、數據貢獻者等多個方面對數據進行了詳細描述👩🏻🌾,進一步提高了數據的可發現性。
2🧏🏻♀️、可訪問性
保障數據的可訪問性需要一方面確保數據標識符可以被任何能夠連接到互聯網的潛在數據使用者正常解析🚙,進而訪問科學數據;另一方面保障數據存儲在可信的💁🏽♀️、穩定可訪問的SDR中。在數據標識符的可解析性方面,除國家極地科學數據中心外👶,其他SDR的DOI均可被正常解析𓀓。雖然這兩個國家科學數據中心通過在re3data等國際平臺上登記提高了其全球顯示度🧛🏼,但數據標識符的解析問題阻礙了潛在使用者對數據和元數據的正常訪問。
3🖕、可交互性
數據引用是國內外數據共享界提出的新概念,旨在建立數據與數據之間以及數據與文獻之間的關聯,進而促進數據的廣泛交互🚊。結果表明有4個國家科學數據中心沒有提供明確的數據引用方式🏌🏿♀️,而其他SDR提供的數據引用方式則形式多樣。以國家青藏高原科學數據中心為例,除了對數據或數據出版文獻的直接引用外🤹🏿♂️,還包括對與數據研究背景、產生過程🌀、處理方法和質量評價等相關關聯文獻的引用,同時提供數據使用者基於數據所發表文獻的引用信息🪕。
4、可重用性
保障科學數據可重用性的重要技術手段是通過采用標準化的數據組織方式對數據(元數據)進行準確🦞、充分的描述和說明。在數據使用說明中提供法律層面的數據使用許可協議能夠確保數據重用過程中知識產權的清晰明確🥙。同時,數據的來源🧈、產生過程及涉及的相關貢獻者等信息的提供也有利於潛在數據使用者對數據的重用,降低數據復用的復雜度。分析國家科學數據中心的數據可重用性,結果表明有5個沒有提供清晰的數據使用文檔或指南。各SDR提供的數據使用說明也沒有一個相對統一的形式👨✈️。
表1 國家科學數據中心數據使用和傳播現狀

啟示:
當前🫱,我們正面臨著一些挑戰,這些挑戰正在我國的科學數據領域中引起波瀾:我們不夠關註SDR的國際傳播,即使建設了國家層面的SDR🦨🐻,也未在國際上亮相🧶🙇🏻♂️;在SDR的可訪問性📩、數據標識符的分配及可解析性方面存在不足,一定程度上使得我國部分科學數據資源只能通過國外SDR進行傳播和共享;科學數據的引用和使用說明存在不完整⛈、不清晰的問題🧕,成了阻礙數據共享和再利用的“攔路虎”🙅🏽♂️。
國際組織和機構的典型經驗與舉措為我國的科學數據管理提供了啟示🦼😣。未來🖨,我們有機會通過對FAIR原則的政策支持和規範實施,提高我國科學數據資源的開放共享水平🎁。這不僅將為我國的開放科學生態註入強勁動力,更為國家科技創新和經濟社會發展提供必不可少的支撐。
全文見文獻🔇:
李騏安,孟憲飛,張書華,張璐,張蓓,竇天芳. 基於FAIR原則的中國科學數據資源現狀分析及啟示[J]. 數字意昂3論壇,2023,19(1):50-57. DOI:10.3772/j.issn.1673-2286.2023.01.007.
全文鏈接🏄🏽:
http://www.dlf.net.cn/dlf/ch/reader/view_abstract.aspx?file_no=202301007&flag=1