您的位置:首页 > 新闻频道 > 国内新闻 > 各地新闻>正文

从璞玉到美玉——23genebank如何打造完善的生物信息系统

时间:2017-05-05 17:16:55    来源:香港卫视    浏览次数:    我来说两句() 字号:TT

  近些年,测序技术快速发展,获得个人基因组原始数据的时间和成本逐渐降低,实验流程趋近成熟。但是,众所周知,从实验室得到的原始数据,并不能直接提供有价值的疾病或药物关联信息。在接下来的更重要的步骤中,需要对这些数据进行分析、挖掘及计算,给出清晰的结论,用简明易懂的方式呈现,最终将“璞玉”打造成美玉。打个比方,各类测序仪和实验操作相当于谍战片中的发报机,是产生密码的工具,那么,生物信息学则是破译密码的高级情报专家,决定了这些密码的价值和走向。研究者更愿意把完整的生物信息分析过程比作一个精密的仪器,有很多相对独立的元件,相互之间关联传递,环环相扣地组成全套基因检测解读方案。

  揭秘23GENEBANK的基因检测信息分析系统

  在行业内的各家公司中,测序中国了解到23GENEBANK拥有众多软件著作权,并且每个软件著作的主题和基因数据分析的业务高度相关。为此,我们对23GENEBANK的基因检测信息分析系统进行了深入的探究。

  据悉,迄今为止,23GENEBANK已经构建了两套业内领先的基因检测信息分析系统(GB Master系列),并将于近期正式发布。而这两套系统都是由一个模块嵌套构成,这些模块大部分申请了软件著作权,一是保护公司知识产权,二是让寻求合作的机构有据可循。这两套系统分别针对芯片技术和二代测序技术平台,两者均实现了全自动化,可以从原始数据“一键生成”最终的检验报告。同时,智能优化后的可视化操作管理界面简明直观,操作简便,在基本的培训之后,很多合作机构可以自己操作。此外,后台磁盘阵列服务器采用了并行计算框架,能高效进行序列比对,准确识别多种变异;大型自建知识型KDB数据库支持对突变的深度解读;自主研发的疾病风险预测算法涵盖了单基因遗传病、复杂型疾病,同时还有用药推荐系统。

  在应用方面,除了满足公司自身基因检测业务的分析环节;这套系统可以开放给很多希望从事基因领域但短期内无法自己构建系统的公司使用,也可以开放给科研单位或者医院使用,进行临床、科研上的分析诊疗。

  关于系统的各个构成模块,在整个系统的布局中,有两个主要的维度,第一个维度是研究目的,分为了健康线和临床线流程;第二个维度是研究过程,分为测序数据初步分析、知识库构建、突变数据解读、自动化解读报告等。每一个分析模块,都自主开发了相应的分析软件,截至目前有九个已经获得软件著作权,还有少数几个正在申请过程中。23GENEBANK方面称:“这些解读过程中的所有环节,都经过了多层次多维度的反复验证,提供科研级别、辅助医疗级别的分析水平。”

  六大分析模块,演绎数据的“蜕变”过程

  软件著作权对一家提供检测产品的研发型公司具有不可取代的重要性和必要性,因此测序中国也了解了23GENEBANK按照研究过程的维度,一步一步将原始数据进行“蜕变”的过程。

  模块一:测序数据初步分析

  GB-NGS二代测序原始数据突变分析系统软件V1.0。

  GB-Cancer-NGS二代测序癌症原始数据突变分析系统软件V1.0。

  该模块软件是对测序原始数据的初步处理,通过和人类参考基因组的序列进行比较,找出每个个体序列中的变异。对于临床线来说,可以通过和正常组织样本的序列进行比较,找出癌症组织中特有的变异。该步骤是对序列的基本处理,可以大幅度降低原始数据的数据量,只将其中的变异信息输入到后期分析中。健康线产品GB-NGS中,其软件系统实现了从二代测序(NGS)原始数据到突变分析结果的自动流程。二代测序(NGS)原始数据为FASTQ格式,需要经过并参考基因组的比对(Mapping/Alignment),转为BAM/SAM格式,再经过突变检测步骤(variant calling),找到SNP/SNV突变信息,同时还需要检查结构变异(SV)和拷贝数变异(CNV),然后对这些突变信息进行基本注释,经过数据统计和过滤之后,得到可以用于后期解读用的结果。

  对于临床线,GB-Cancer-NGS专用于基于第二代测序技术的癌症基因组原始序列的分析。它接受主流NGS测序平台的测序结果(FASTQ格式),能对序列进行精准比对和突变识别。GB-Cancer-NGS不仅能快速、高敏度地识别单核苷酸突变(SNPs),也能精确识别配对正常与肿瘤样本之间的结构差异(SVs),并提供多种统计参数,供用户自己设定优化阈值,提高筛选有效突变的效率。在完成精准突变识别的同时,GB-Cancer-NGS也能将识别的突变与公共知识型数据库进行信息交叉配对,自动进行标注。

  模块二:知识数据库构建和匹配管理系统的开发

  GB-KDB 知识型数据库标准化管理系统软件V1.0;

  GB-DGKDB 基因变异解读相关知识型数据库及管理系统 V1.0。

  在进一步对变异解读之前,需要构建标准知识库,这也是整个分析流程中的核心环节之一。可以说,标准知识库的完善与否是所有分析解读的前提。对于一个复杂疾病,例如肝癌,影响发病的基因位点往往有很多,如果只选取部分位点和基因进行分析,可能会因为位点挑选的偏好性而得不到准确的风险预测结果。这也就是行业中经常引起困扰的地方,同样一个检测项目,得到结果的差异却很大。为了得到尽可能全面的信息,23GENEBANK做了大量有深度的数据挖掘。基础研发小组阅读了数万篇文献,深入挖掘了几十个公共数据库。然后将这些数据进行鉴别、筛选,录入其知识库。

  GB-KDB的主要目的是对知识库进行设计搭建,并且开发匹配的管理网站,GB-DGKDB为其中和疾病基因相关的核心知识库。知识库存储了突变位点、基因、疾病、药物、营养环境的基本信息以及它们之间的关联关系,主要用于注释基因芯片或者全测序分析得到的个体层面的DNA变异。由于非常高的数据复杂度,数据库的结构经过了严格的计算和优化,即方便科研人员的理解,又利于数据分析人员的数据操作。配套的管理系统即可以保护数据的私密性,又可以方便科研人员对数据质量的把控以及对数据库的版本控制。

  模块三:变异解读

  GB-CHIP 基于磁珠型芯片突变检测及解读软件 V1.0;

  GB-WGS 基于全基因组测序突变检测及解读软件 V1.0。

  GB-TarDrug 基于二代测序癌症靶向用药推荐软件V1.0。

  在获取了变异数据并且准备好了相应的知识库之后,下一个步骤就是对基因变异数据进行解读。23GENEBANK研究的变异类型,包括单核苷酸变异、插入缺失、拷贝数变异、基因融合等。

  对于其健康线产品,23GENEBANK开发了两个软件,分别针对芯片(GB-CHIP)和全测序平台(GB-WGS)的变异数据,可以匹配知识库的专家解读信息,并深挖了公有数据库(比如ClinVar等)的注释信息,根据产品的需要进行定制化的分析和解读。解读内容包括疾病、特质、用药参考等方面,最终形成的解读文本内容可供进一步排版形成报告文件。

  对于其现有临床线产品——癌症靶向用药推荐(GB-TarDrug),在获取了癌症特有的变异之后,可以快速有效地比对知识库中注释的癌症驱动基因、靶向药物基因和药物代谢相关基因,并且整合了COSMIC等数据库的注释数据,参考基于ACMG-CAP等国际临床突变解读标准,对用药效果进行了精准评估,确保全面准确分析肿瘤突变,做到精准的癌症个性化用药评估。

  模块四:风险计算评估

  GB-RISKMODEL 疾病先天风险预测软件 V1.0。

  GB-HeritGen 基于二代测序家族性遗传病突变分析软件V1.0; GB-PathoMut 基于二代测序突变致病性评价软件V1.0。

  该模块为变异解读模块中的核心算法模块,在独立进行算法开发后,反复验证成熟之后整合到变异解读模块中。

  GB-RISKMODEL主要针对健康线产品中,用于复杂疾病的患病分析评估。在将全球该行业内相关风险计算模型都进行了认真的阅读和演算之后,23GENEBANK构建了自己的算法模型GB-RISKMODEL。考虑到在很多其他模型中,都会用到相对比较主观的打分系统和阈值判断,23GENEBANK运用了一个机器学习算法对风险数据进行自动分组,并对结果做了模拟实验验证,尽可能地降低人为主观判断带来的系统误差。

  GB-HeritGen软件实现了基于二代测序数据发现潜在家族性遗传病相关突变的功能。通过分析测序数据,找出个体的突变信息,再结合家谱信息与多种经典遗传模式,找到符合家族性遗传病的突变。再基于突变的致病性和对基因功能的影响,找到符合遗传病相关特征的有临床意义的突变。

  GB-PathoMut软件则实现了基于公开数据库的突变致病性评价。这个软件通过比较突变在多个公开数据库里的已知信息,例如频率、与疾病的相关性、进化保守性、蛋白结构、蛋白功能等,获得多维信息。再依照临床评价指南,例如ACMG-AMP指南,对多维信息做分级处理,最终得到合理的致病性评价。

  模块五:解读报告自动化生成

  GB-WGS-Report新一代人类基因组全测序智能解读系统软件V1.0;

  GB-AD-Report 孕前检测自动化解读系统软件V1.0。

  GB-TarDrug-Report 癌症靶向用药检测自动化解读系统软件V1.0。

  通过对序列变异的解读,可以形成纯文本格式的解读结果,此时,23GENEBANK考虑到其用户大部分是行业外人士,所以,其科普专家、数据可视化专家,会将这写晦涩、专业的报告,进行语言加工。

  23GENEBANK独创了“GB-WGS-Report新一代人类基因组全测序智能解读系统软件”,用于生产内容翔实精准、阅读体验友好的解读报告书。该系统包含了知识型数据库对接部分和客户报告自动化生成部分。前者需要管理人员定期和定版知识型数据库对接,生成报告模板;后者需要运维人员操作,一键生成客户报告。目前,23GENEBANK所提供的报告可分析解读复杂型疾病、用药、特质营养环境等几大方向,近1000余种项目,并且还在继续扩增。同时,因为有精心制作的目录索引,用户可以非常方便地进行查询阅读。所有内容都是程序化自然语言的翻译,给出明确结论和可操作建议。报告中所有内容都转成图片,保护知识型数据的安全。

  GB-TarDrug-Report 癌症靶向用药检测自动化解读系统软件,主要针对癌症靶向用药产品,给出推荐药物、应避免药物、暂时缺乏决定性证据药物、临床试验药物等信息,并且对每个基因突变给出详细阐述,最终给出一本临床检测报告。

  模块六:辅助运维分析模块

  GB-Order 订单管理系统软件V1.0;

  GB-P2G 表型辅助诊断和风险计算系统软件V1.0。

  GB-CT 癌症临床试验查询系统软件V1.0

  该模块开发的软件,主要是对以上分析流程的辅助和补充。

  GB-P2G系统包含了四个核心模块:临床表型匹配系统模块、辅助临床诊断模块、辅助临床诊断+致病基因推断模块、表型->疾病动态风险分析模块。该系统中,会使用其他几个系统中的数据,包括测序分析系统输出的基因变异数据以及疾病风险计算系统得到的风险计算结果。

  GB-CT为癌症临床试验查询网页系统软件,在收集Clinical Trial网站的临床试验信息之后,通过UMLS语义挖掘以及人工校验方式,抽取其中核心关键词,进行分类,将其设计为调查问卷。用户可通过网页终端根据自身情况填写问卷,系统会返回匹配的临床试验等信息。

  以上就是23GENEBANK推出的全套基因检测解读系统的框架,这些系统不仅有效地解决了测序数据解读中的技术问题,而且独创了几大模块,让分析结果能够全方位体现基因检测的价值和魅力。核心分析模块均布置在自行搭建的本地计算平台,由生物信息专家进行开发维护。测序中国了解到,23GENEBANK之所以在内网环境下操作数据分析流程,而不去选用当下比较流行的云计算技术,主要是顾及客户数据的隐私与安全,并考虑到核心知识库的安全以及在数据上传、下载时产生不必要的时间成本。

  基因检测是当下具有话题热点的行业,不少新兴公司在这个过程中快速成长,体现出了其“后发优势”。当然,基因检测的关键还是在于让更多的终端用户了解、接纳和使用它,这个过程,有点像巴菲特的滚雪球理论,从微小的雪粒到一个巨大的雪球,除了需要寻找到一条很长、很高的坡,更需要的是有恒心。我们相信在这条道路上,有远见者,稳进!


请选择您浏览此新闻时的心情

相关新闻
网友评论
本文共有人参与评论
用户名:
密码:
验证码:  
匿名发表