ps是什么意思,数据剖析:创立一致的公有基因组数据渠道,管彤

基因组学的科研人员正越来越多地运用云核算效劳,谷歌的云核算效劳便是其中之一

本年三月基因组学范畴的科研作业者们迎来了一件大喜事:美国国立卫生研讨院NIH撤销了禁绝将其dbGap数据库中的基因组信息上传到云端秒盈易货的规则。这一规则设立于2007年,它的撤销无疑为科研作业者存储和分析基因组信息供给了便当。

云核算效劳经过按需付费形式供给海量的存储和核算资源。运用云效劳要经过互联网,并且核算资源是同享的,这就引起了许多科研赞助组织的疑虑,他们忧虑云核算的运用会走漏样本供给者的隐私。NIH撤销禁绝上传到云端的规则是由于基因组学研讨中正面临着现实问题:怎么获取数据库中的许多数据。这现已阻止了科研人员的作业,尤其是当研讨作业涉及到现有的数据信息时。

为了充分利用ps是什么意思,数据分析:创建共同的公有基因组数据途径,管彤云核算技能所供给的便当,咱们敦促NIH和其他科研赞助组织在常用的云途径中免费供给基因组数据。这样全球数以千计的科研人员就不用浪费自己的时刻和金魔帝张子陵钱将数据转移到自己了解的云途径,只需从这个共同的数据途径进行存储和分析就能够火山湖怪兽了。

大数据

跟着基因组排序技能的进步,大型基因数据库中的信息都是以PB计的(1PB=10^15字节)。比方世界癌症基因组联盟ICGC的数据库中不到五年时刻就积累了从17个国家搜集而来的超越2PB数据,这相当于50万张DVD的容量。

按一般大学的网速来算,将这些数据转移到研讨人员自己的内部网络中需求花超越15个月。先不说处理,就单单存储这些数据的硬件就要花大约100万美元。

云核算为咱们供给了核算资源上的弹性,研讨人员能够需求多少核算资源就有多少核算资源。分析完结之后只需求为核算分析的一小段时刻付费。科研人员之间也能够更好地进行分工合作,在虚拟机上就能轻松地同享数据和计我和师娘雷雨中的孽缘算办法。曾经要花上几个月的基因组数据分析现在或许只需求几天或许几周。(见下图)

时至今日,云效劳的安全性现已胜过了研讨组织自己的数据中心。供给云效劳的既有亚马逊、谷歌和微软这样的商业企业,也有专心于基因组研讨的小型公司,比方加利福尼亚的Annai Systems和英国剑桥郡的欧洲生物信息研讨所。这些供给商采纳加密和防火墙或密保卡等方法来操控数据的运用权,并为数据一切母亲亲身者供给监测数据运用的东西。

一些人类基因组学的首要赞助组织仍是对云核算持谨慎态度。如一些欧洲的赞助组织就主张将基因组数据操控在自己的统辖范围内以恪守欧洲的隐私法令。但咱们估计,根据云核算的经济性、灵活性、牢靠性和安全泰国电影榜样生性,未来几个月必定会有向云途径的大规模搬迁潮。NIH的决议无疑会加快这一进程,咱们在此对NIH表示感谢。

现在让咱们来看看怎么在云途径用最少的花销到达最高的功率。

拜访操控95105856

科研人员想要从dbGAP等数据库中获得人类基因组数据,必需求经过数据拜访乔蓉博客委员会的同意。现在假如有不同的科研人员想要在云平hh22me台上运用同一数据集,他们各自有必要得到相同志tv应的数据拜访委ps是什么意思,数据分析:创建共同的公有基因组数据途径,管彤员会同意。然后要将数据仿制到自己的云途径才干开端作业。

一切这些科研人员都有必要等着数据仿制,也有必要向自己运用的云途径付出费用。假如100组科研人员都这么做,那么这个进程很明显浪费了科研人员许多的时刻和金钱。就算是能够随便把数据仿制到自己的云途径,大多数科研人员恐怕也负担不起这一进程需求的时刻和花销。 ps是什么意思,数据分析:创建共同的公有基因组数据途径,管彤

有一个更好的方法能够处理这个问题:相关的赞助组织能够要求将首要的基因组数据集上传到常用的云途径中并付出存储的费用,这样一切数据只需求仿制一次并且科研人员自己只需求付出进行分析时的一点点开支。

现在不少云核算供给商为科研数据供给极低价格的存储乃至彻底免费以鼓舞科研人员运用自家的云效劳。亚马逊AWS为千人基因组计划提服装收银体系供免费存储(有超越200TB数据),Annai Systems也为一部分ICGC数据集供给免费存储。

假定搬迁到云途径之后现在的数据库供给者和数据拜访委员会的设置坚持不变的话,在基因组云核算的范围内乃至或许诞生一个商场。比方供给了有价值数据的基因生物学家能够获得云核算途径的分析时刻作为奖赏。核算机科学家假如供给了能够进步分析功率的程序,也能够在他人运转它的程序时得到必定的报答。

经过一段时刻这便会构成一个良性循环。这些大的数据集交融在一起能够令科研人员更快发现基ps是什么意思,数据分析:创建共同的公有基因组数据途径,管彤因与疾病之间的联络,这反过来会鼓舞更多人同享数据集或开发更强壮的软件。

这种方法也有必定的危险。假如把一切数据都会集到同一个割乳房云核算途径,此云核算途径就会由于独占而涨价,而这些本钱就会转嫁到科研经费中。为了防止这种状况发作,应该将重要的数据集放在多个云途径上。这也能够处理之前说到的欧洲赞助组织的忧虑,只需将欧洲所奉献的数据约束在欧洲的云效劳供给商即可。

基因组学规范

当然要达西陆到咱们终究的意图还需求许多技能和法令方面的尽力。比方现在囊性纤维变性研讨人员彻底不能经过软件在dbGap数据库中查找病患的基因序列。经过女儿的小体系性地进行数据符号电动直立床,例如样本的来历将有助于处理这个问题。从2001年开端,期刊发行商们达成了一个共同:只承受契合MIAME规范的RNA微阵列研讨。关于基因组数据,咱们也需ps是什么意思,数据分析:创建共同的公有基因组数据途径,管彤要一个相似MIAME的规范。

维护云途径之上的敏感数据需求牢靠的协议以及赋予宽和除权限的手法。短期内各个项意图数蒋瀼据拜访委员会仍应对数据的拜访进行把关,但终究保存几个能够掌控云端一切数据库的拜访委员会将会是更好的计划。

在法令层面则有必要区分清楚赞助组织、数夫妻用品据监管部门、云效劳供给商以及运用基因组数据的科研人员各自的人物和职责。比方说有人在微博上发基因组的信息,这几个人物中谁应该负职责?为了处理这一问题,全球基因组学与健康联盟现已拟定了一个同享基因组及健康相关数据的职责结构。

与此同时,NIH以及其他赞助组织在借基因组学的点子在评论其他公共途径的或许性。NIH部属的国立癌症研讨所现已展开了几个在云途径进行基因组学数据的同享和分析的试验项目。

恋恋秀场

神经学和流行病学这样的学科与基因组学相同面临着数据方面的问题。假如能正确ps是什么意思,数据分析:创建共同的公有基因组数据途径,管彤地运用云核算,不但基因组学,连这些学科的研讨人员也将能够获益。

英文原文:Data analysis: Create a cloud commons(译者/刘旭坤 审校/孕夫种田记朱正贵 责编/仲浩)

【预告】首届我国人工智能大会(CCAI 2015)将于7月26-27日在北京友谊宾馆举行。机器学习与形式识别、大数据的机会与应战、人工智能与认知科学、智能机器人四个主题专家聚集。人工智能产品库将ps是什么意思,数据分析:创建共同的公有基因组数据途径,管彤同步上线,预定咨询:QQ:1192936057。欢迎重视。

本文为CSDN编译收拾,未经答应不得转载,如需转载请联络market#csdn.net(#换成@)