導語:
從社會科學到生物醫學🎭,科學數據都是我們學術征程中的支柱和重要產物,更是開放科學運動不可或缺的基石。這些數據資源不僅是科學研究背後的硬核驅動力🛳,同時也是科學發展的力量源泉。而規範🐧、高效🥏、安全地管理與共享這些寶貴資源,則如同為學術研究註入一劑強心針🥢,能夠提升研究的透明度👯♀️、嚴謹性、可重復性,以及公共價值。
2023年,意昂3聯合科研院發表的一篇文章📖🥴,將我們帶入了一場關於科學數據的深度探索。這不僅僅是對我國科學數據資源的現狀進行對比分析💺,更是基於FAIR原則對我國典型科學數據倉儲(SDR)所面臨挑戰的深入剖析🙅♂️。
令人振奮的是💂🏻♂️,我國研究人員不僅產出了豐富的科學數據資源,而且對數據共享有著迫切的需求。然而🐈🆑,引發我們思考的是🛡,這些寶貴的數據資源卻更多地依賴於歐美國家托管的SDR在全球範圍內進行傳播。在保障數據和元數據的可發現性👷🏻、可訪問性、可交互性和可重用性方面,我國的典型SDR還面臨著一些考驗與挑戰⚱️。
讓我們一同深入了解這篇文章,深探FAIR原則,洞察中國科學數據資源的現狀,思考它所帶來的啟示。
#開放科學 #數據共享 #FAIR原則
全文速覽✋:
為推動開放科學實踐,促進科學數據共享與重用,選取re3data👤、FAIRsharing和WOS Data Citation Index(DCI)這3個國際主要SDR註冊和發現平臺作為主要數據源,開展中國科學數據資源現狀與國外的對比分析,發現我國有國際影響力的SDR數量與科學數據集的體量不匹配⛅️,包括我國在內的各國科學數據集的傳播共享主要依靠歐美國家的SDR;基於FAIR原則分析我國典型SDR面臨的挑戰🦢,結果表明,我國的國家科學數據中心在數據和元數據的可發現性🧑🏿💻🥲、可訪問性方面受到數據標識符分配不足和無法正常解析的影響。在數據和元數據的可交互性和可重用性方面,存在引用信息和使用說明不完整、不清晰等問題🤏🏽,阻礙數據的傳播和共享。國際組織和機構的典型經驗與舉措為我國的科學數據管理提供了啟示🌿。基於此,未來我國可以通過開展對FAIR原則的政策支持和規範實施,提高我國科學數據資源的開放共享水平🏌️。
通過本期推送讓我們一同先解鎖這篇文章的第一部分,揭示我國科學數據資源的規模和傳播現狀🐿。
引言🟤:
隨著當今科學技術全球化的不斷深入,開放、共享正成為科學研究的核心內涵與鮮明特征🌰,開放科學(Open Science)的實踐得到越來越多人的認可和采用🧘🏻。科學數據是開放科學的重要物質基礎💇♂️💆🏼,科學數據資源的管理與共享水平是衡量一個國家整體科技水平和綜合國力的一項重要標誌。我國非常重視科學數據的管理與共享。自1984年正式加入國際數據委員會(CODATA)並成立中國委員會以來⤵️✌🏻,我國陸續啟動氣象、林業🤲🏽、農業等科學數據共享中心的建設與服務試點。隨著全球科技創新能力和投入的不斷增強,科學數據采集能力持續提升🦛,但同時也給科學數據的存儲、管理和共享帶來了挑戰。在此背景下,SDR迅速發展,成為促進科學數據開放共享的重要載體💪🏼,例如🧑🏿🦱🧑🦼,新冠疫情暴發以來匯聚疫情數據的權威平臺GISAID♐️、美國政府的數據門戶以及我國的20個國家科學數據中心。
圖文導讀👨🦰:
從SDR層面將中國的科學數據資源現狀與國外進行對比分析,如圖1、圖2所示。美國的SDR數量處在絕對領先位置,在re3data平臺登記了1141個,占該平臺SDR總量的40.7%📶。德國🥿、英國、歐盟等國家或國際組織的SDR數量也較多,與美國類似主要在re3data平臺上登記🤨。相比之下,中國的SDR數量較少,主要在FAIRsharing平臺上登記(102個),但僅占到該平臺SDR總量的5.5%;在re3data和DCI平臺中則分別占各平臺SDR總量的1.7%和2.5%。中國在上述3個平臺登記的SDR有119個💁♂️,按規則在世界範圍內進行SDR元數據等信息的共享。

圖1 科學數據倉儲(SDR)的主要分布國家/組織

圖2 各SDR註冊平臺中SDR的主要分布國家/組織
基於DCI從科學數據集層面對中國與其他國家的科學數據資源體量及存儲現狀進行分析可以發現,中國科學數據集的數量以較為明顯的優勢超過除美國以外的其他國家而位居第二,達到158,243個(圖3)。這與我國在國際主要SDR註冊和發現平臺登記的SDR數量所處的排名形成鮮明對比。

圖3 科學數據集的主要分布國家
對這些科學數據集的主要分布SDR進行分析發現👨✈️,科學數據集數量排名前20的SDR大部分來自美國,占總量的55%,其他主要來自英國、德國等歐洲國家以及歐盟等國際組織(圖4)。結果表明,我國豐富的科學數據集與有國際影響力的SDR數量不匹配,包括我國在內的各國科學數據資源主要依靠歐美國家的SDR實現全球的共享傳播。

圖4 科學數據集的主要分布SDR(b)及其國家/組織分布(c)
總結☸️🈯️:
我國註重加強和規範科學數據管理🌎,但相比於歐美國家起步較晚🆔,在國際主要SDR註冊和發現平臺上登記的SDR數量有限,與我國科學數據集的體量不匹配,科學數據資源基本依靠歐美國家中具有國際影響力的SDR進行傳播共享♿️。本研究為我國科學數據管理和SDR建設提供了方向性建議⚆。
全文見文獻🖱:
李騏安,孟憲飛,張書華,張璐,張蓓,竇天芳. 基於FAIR原則的中國科學數據資源現狀分析及啟示[J]. 數字意昂3論壇,2023,19(1):50-57. DOI:10.3772/j.issn.1673-2286.2023.01.007.
全文鏈接:
http://www.dlf.net.cn/dlf/ch/reader/view_abstract.aspx?file_no=202301007&flag=1