博生发布
Nature Genetics:生物医学数据集大成者DataMed

Nature Genetics:生物医学数据集大成者DataMed

浏览:188次发布日期:2017-07-05

在生物医学领域,谈到查阅文献,大家对PubMed一定不陌生。PubMed是由美国国家生物技术信息中心(NCBI)在位于美国国家卫生研究院(NIH)的美国国家医学图书馆(NLM)开发和维护的免费资源,为生物医学领域文献资源共享提供了极大的便利。现在,针对生物医学数据,也有了这样一个集大成的免费工具——DataMed1。就像在PubMed中搜索文献一样,在DataMed中我们可以方便地查询到已公开的生物医学数据,检索范围也比之前所有的生物医学数据引擎更加完整和精准!

DataMed由NIH大数据知识(BD2K)计划资助,由生物医学和健康数据发现指数生态系统(bioCADDIE)发起和实施,旨在搜集和整合生物医学公共数据,帮助研究者更有效地发现和使用共享资源,促进领域内的合作和进步。

bioCADDIE

"在高尔夫中,球童负责携带球员背包和球杆,并提供有见地的意见和道义上的支持。一个好的球童能意识到高尔夫球场中的挑战和障碍,以及应对的最佳策略。"这便是bioCADDIE项目的象征。bioCADDIE旨在帮助数据生产者,传播者和消费者在团队科学的新时代”更好地游戏“,并给玩家有洞察力的建议和实施新想法的财政支持。

众所周知,随着技术的突飞猛进(尤其是NGS的广泛应用),近十年来生物医学数据的种类和数量均呈爆炸式增长,越来越多的专业数据被公开发表和共享。这些公共数据能够为后来的研究提供很好的参考,甚至二次挖掘出新的价值。然而,虽然数据总量不断积累,但大部分数据却难以方便地获取。一方面数据分布零散,尽管有不少组织者通过建立各种数据库来改善这种窘况,但这些数据库往往只专注于某种数据类型或研究目的,或者只服务于少数团体,而且一些不太热门的数据集很难进入大家的视线;另一方面不同类型的数据之间缺失连通性,很难在不同研究团体之间通过常规方法检索数据,有一些大型数据库组织已经做了很多努力,但在数据层面还远远不够。

为了应对这种局面,NIH在2011年就指派咨询委员会(Advisory Committee to the Director,ACD)成立了数据和信息工作组(Data and Informatics Working Group,DIWG),专门就大型生物医学研究数据集的管理、整合和分析提供专家意见。在工作组报告2中,对生物医学数据提供广泛的专业检索是其中一项重要建议,DataMed正是在这样的背景下应运而生。

bioCADDIE团队基于DATS3数据模型的工作

基于DataMed广阔的视野和布局,这项工作充满了挑战性。自2015年3月开始实施以来,已有来自美国和欧盟56个机构的86位成员参与其中,为项目的顺利开展提供了深度的资源和技术支持。为了保证数据的广泛性和完整性,遵循FAIR(Findable, Accessible, Interoperable, Reusable)指南4,bioCADDIE开发了多层次的数据规范和管理模式,涵盖核心元数据规范、存储库纳入标准和DataMed搜索引擎原型,严谨而灵活的数据框架使平台易于维护和使用。

截止目前(2017/05/10),DataMed已包含66个资源库,涵盖15种数据类型,超过130万个数据集。用户通过关键词或自然语言即可方便地进行检索,同时还可以通过数据类型、数据来源或下载权限等进行过滤。

为了说明DataMed在生物医学领域检索的有效性,这里采用一个用户查询实例与其他搜索引擎进行比较。查询方式分自然语言和关键词两种。完整的自然语言查询是“在所有数据库中搜索与亨廷顿疾病相关的HTT基因的所有数据”("all data for the HTT gene related to Huntington’s disease across all databases"),相关关键字在DataMed中自动提取为“HTT基因亨廷顿氏病”("HTT gene Huntington’s disease")。将这两种查询内容分别用DataMed V1.5、OmicsDI、Google和Bing进行测试,测试日期为2016/11/02,各取前50个查询结果,由领域内专家审查结果与查询内容的相关性。

结果显示,Google和Bing的大部分返回结果与出版物和一般网页有关,而不是数据集。OmicsDI是专注于组学数据的平台,但在使用自然语言查询时,OmicsDI未返回任何结果;而用关键词查询时,虽然OmicsDI返回结果的数量较DataMed多,但对于DataMed,前10、20、50个结果的精度分别为100%、100%和100%,而OmicsDI分别为40%、45%和64%,由此可见,DataMed具有更高的检索精度。

DataMed的目前版本是2.0,但仍处于开发阶段。bioCADDIE非常重视平台的数据质量和用户的反馈,尽管从数据生产者,数据传播者和数据消费者的角度来看,维护索引的质量和成本之间的正确平衡仍悬而未决,但DataMed已经迈出了坚实的一步。希望有更多的利益相关者参与进来,以期塑造更加完善的生物医学数据分享平台。

文章来源:阜外精准医学

分享到: