从美通社获知,生命科学是通过分子遗传学为主,研究生命活动规律,从而达到治疗诊断遗传病、提高农作物产量、保护环境等目的。生命科学的数据来源和形式多样,包括基因测序、分子通道、不同的人群等。技术的提升引领了IT到DT(数据时代)的变革,基于基因组数据量越来越多的情况下,生命科学大数据的发展前景将更加广阔。利用信息技术将数据转换成更好理解的基础生命科学机制,其分析结果将给人类带来更多福音。

    计算和存储是大数据研究中不可或缺的重要技术和支撑,生命科学大数据的研究也不例外。中国科学院上海生命科学研究院(以下简称:生科院),是国家级生命科学研究平台,整体实力和技术水平处于国内领先。它的领先除了生物技术之外,信息技术也扮演者重要的角色。在本次项目中,由曙光为生科院建设生物医学大数据信息系统基础平台(以下简称:生物医学大数据平台)。平台建成后将面向生命科学研究、生物医药研发、临床医学研究与应用,推动生物医药技术企业创新发展,支撑数据密集型科学研究和生物信息共享。

    安全稳定存储系统,满足生物医学用户需求

    生物医学数据的主要类型为文本文件、图像文件、二进制文件等非结构化数据,对存储的要求主要在存储容量的大小和大文件读写通量的高低,此外少量的关键数据库、索引等结构化数据,则对存储的IOPS和稳定读写能力要求较高。

    未来,生物医学大数据平台将成为面向生物医学大数据开放研究平台,面向世界的国际数据交流接口和合作研究基地,海量生物医学大数据资源的汇聚、管理和共享,数据的安全性至关重要。

    两地三中心架构,打造高可用生物医学大数据平台

    生物医学大数据平台基础设施由三个中心组成,分别为张江中心、岳阳路中心和贵州中心,每个中心都需要承载相关的业务系统。三个中心通过科技网链路相互连通,通过同城双活、异地容灾的两地三中心架构,满足生物医学大数据平台业务高可用和高稳定性。

    存储系统作为本项目的重要建设内容,分别构建了业务系统存储、高性能存储和大容量存储三类资源,满足业务、计算和海量文件对存储空间和性能的需求。

    业务系统存储采用高性能磁盘阵列,以满足业务应用的需求;其中配备缓存加速技术满足生物数据库、云平台等高I/O读写需求。系统配置一套ParaStor分布式存储系统满足海量非结构化生物基因数据的计算需求;其大容量存储采用性价比高的分布式存储,配置Infiniband接口,满足基础海量实验数据的共享和离线备份的需求。

    存储系统在保障数据安全的同时还充分考虑的业务系统的稳定运行。在备份系统建设上,采用曙光DBStor备份存储系统和LTO5高速磁带库套件,支持异地容灾和备份系统审计,通过磁带异地存储的方式实现了系统远程容灾。

    通过多层次的存储系统设计,方案满足上海生科院生物医学大数据平台海量生物数据存储、计算与共享需求,更具备远程容灾功能,实现生物医学实验数据的集中存储、高效共享和安全保障。为生科院建立具有国际先进水平的科学研究综合数据库,提供了强有力的计算分析能力和信息安全保障。