GBT 40419-2021 健康信息学 基因组序列变异置标语言(GSVML).pdf
- 文档部分内容预览:
图3GSVML的详细结构
图4GSVML的详细结构
GB/T404192021
航空标准GSVML的详细结构(续
5GSVML的详细结构
GB/T404192021
图6GSVML的详细结构
图7GSVML的详细结构
图8GSVML的详细结构
GB/T404192021
图9GSVML的详细结构
图10GSVML的详细
GB/T404192021
图11GSVML的详细结构
2GSVML的详细结构
GB/T404192021
图13GSVML的详细结构
图14GSVML的详细结构
图15GSVML的详细结构
GB/T404192021
图16GSVML的详细结构
图17GSVML的详细结构
GSVML的详细结构(级
图18GSVML的详细结构
19GSVML的详细结松
A.1GSVML开发需求分析
附录A (资料性) GSVML开发情况说明
当前医疗保健领域中存在多种不同类型的数据。随着后基因组时代的来临,世界各国在产生临床 数据和影像数据的同时,也产生了大量的基因组数据(见图A.1)。对于基因组研究和基因组医学而言, 基因组数据的管理变得越来越重要。而采用信息化方法对临床数据、影像数据和基因组数据进行管理 已变得与基础性的湿实验(台式)研究一样重要
图A.1医疗保健领域中的主要数据类型
目前世界各国存在多种组学数据有待用于人类健康领域。基因组数据包括基因组序列、DNA序列 变异以及其他基于基因组的数据(如表达数据、蛋白组学数据、分子网络等)。本文件以DNA序列变异 为切入点、并在DNA序列变异中选择SNP为核心对象的原因有以下三个方面: a)SNP是研究最多的、与人类健康相关的序列变异; b)全世界存在大量以各种数据格式表示的SNP数据,有待用于药物发现、临床诊断和临床研究; 且学等在人类健康中的应用产生了巨大影响。 当前的观点认为SNP是了解人体对外部刺激(如外来人侵、治疗措施以及人体与环境之间的相互 作用等)产生反应的关键。外来入侵的典型案例是细菌感染,不同的个体对细菌感染的反应各不相同, 从治疗的角度,不同的患者对药物的副作用是不同的,不同环境下对外来人侵的反应也是不同的。 基因组序列变异数据在持续增加,相应的基因组序列变异注释信息也在不断增加,并填补了信息空 白。SNP数据就是典型案例。基因组序列变异数据的处理缺之乏标准化的数据格式。为了对世界各国 积累的SNP数据进行利用,应制定SNP数据交换标准,内容包括数据格式定义和信息交换等。置标语 言是满足这一要求的合理选择。 置标语言是对文本进行标记时使用的一套符号及其使用规则。标准通用置标语言(StandardGen eralizedMarkupLanguage,SGML)是第一个标准化的置标语言,与Unix系统提供的troff及nroff文 本布局语言极其相似。超文本置标语言(HypertextMarkupLanguage,HTML)是建立在SGML基础 之上的。可扩展置标语言(ExtensibleMarkupLanguage,XML)是SGML的精简本,专为Web文档而 设计。XML是可扩展的HTML(XHTML)、无线置标语言(WirelessMarkupLanguage,WML)的基 础,也是诸如简单对象访问协议(SimpleObjectAccessProtocol,SOAP)之类的系统交互协议进行标 准化定义的基础。与此相反,文本布局或文本语义与大多数文字处理文件格式一样,通常是以纯机器可
GB/T404192021
A.2GSVML开发过程
图A.2GSVML的开发过程框架
本条列出了开发GSVML的参考资料和一份并不详尽的、普适性最强的基本参考资料清单。对于 具体的主题,也会提供其他普适性较差的相关文档
本文件总结了人类健康中基因组序列变异数据交换的典型用例,具体位置用于SNP数据交换的三 类准则的六个用例。 a)类型I:临床实践应用 第一类用例是临床实践。在该用例中,SNP数据是在设施与临床专家之间进行交换。 用例1:遗传诊断或遗传咨询 在遗传诊断或遗传咨询中,SNP数据是在医学专家、实验室技术人员和咨询人员之间进行交换 这种情况中,个体的SNP数据应与其临床数据一起发送/接收。更先进的诊断还会要求增加个体的基 因组数据(包括组学数据)。 用例2:药物基因组学处方 在药物基因组学处方中,SNP数据在大多数情况下不会进行交换。交换的数据应是处方、理由及 其注释。这种情况中,个体的SNP数据不与其处方结果一起发送/接收。 用例3:基因疗法 在基因疗法中,SNP数据是在医院、其他设施、医学专家和惠者之间进行交换。这种情况下,个体 的SNP数据应与其临床数据和基因组数据一起发送/接收。 用例4:基于个体多态性的疾病预防 在基于个体多态性的疾病预防中,SNP数据是在医学专家和实验室技术人员之间进行交换。这种
GB/T404192021
情况中,个体的SNP数据应与其临床数据一起发送/接收。 b)类型Ⅱ:临床试验应用 在临床试验中,SNP数据是在医院、研究机构、医学专家和制药公司之间进行交换。这种情况中, 个体的SNP数据应与其临床数据和用于详细说明实验所需的其他数据一起发送/接收。所需的临床数 居取决于临床试验所处的阶段。早期临床试验阶段不需要很多个体,但需要很多参数,而在后期的临床 试验阶段则相反。 c)类型Ⅲ:转化研究应用 在转化研究中,SNP数据是在医院、研究机构、医学专家、研究人员和制药公司之间进行交换。这 钟情况中,个体的SNP数据应与其临床数据和用于详细说明实验说明所需的其他数据一起发送/接收。 所需的临床数据元素数量将是几十个,而每个个体有很多参数
A.3.2.2临床应用场景说明
图A.3是GSVML在临床应用场景中的通用用例。 通过GSVML,每个执行者都可以顺利地交换数据,而不需改变其现有的数据库模式。同样,研究 人员也可以轻松地交换基因组序列变异数据, 例如,在遗传诊断中,个体的SNP数据是在诸如医院和医学实验室之类的设施之间进行交换。这 些数据也在医学专家、实验室分析人员、咨询人员以及在某些情况中的患者本人之间进行交换。其中, 个体的SNP数据应与其临床数据和某些情况中的组学数据封装在一起用于进一步的检查。为了分析 个体的SNP数据,就需要将个体的SNP数据与派生于SNP数据但具有不同类型数据格式的数据库进 行比较。
A.3.2.3用例和必备元素
图A.3通用用例框架示例
GB/T40419—2021表A.1用例与必备元素的总结(续)E——必需变异数据直接注释间接注释NE—非必需R—参考(知识)位置流行病学个体频率实验基因组学临床疾病环境用例/等位相关分析其他组序注释注释表型准则参与方类型部位长度区域人口流行条件元素基因基因等病学列医学专家源自CT药物药剂师基因正常正常作为医院REEERRERNENENEE组学没有没有结果药店的处患者方制药公司医学专家临床护士尽最大包括应基因作为实践REEERRRENENER对方E疗法CT可能结果信息医院基于个体医学专家包括多态包括候选营养REERREENENENE其他NE性的疾病史人员咨询人员多态性疾病预防医学专家临床调查包括详员护士尽最大候选临床试验EEEEERERE可能细的时E研究人员间进程人员临床检查(CT等)医学专家临床调查包括详员护士尽最大细的时候选转化研究EEEEEREREE研究人员可能间进程人员临床检查(CT等)25
A.3.3SNP数据库的多样性
A.3.3.1数据库的多样性
表A.2给出了国际现有SNP数据库的多样性分析结果。 表A.2中的第一行是国际SNP数据库,第一列是比对条件。 以分子类型为例,每个数据库都使用了单词“cDNA”或“RNA”。这两个词在序列方面意义几乎相 同,但实验准备却不同。 再以生物体为例,智人与人类的意义几乎相同,但表现形式却不同
表A.2国际现有SNP数据库的多样性分析结果
A.3.3.2数据表示的多
表A.3给出了SNP数据库中数据表示的多样性
GB/T404192021
表A3SNP数据库中数据表示的多样性
SNP数据的表示也有很大的差异。 表A.3中的第一行是国际SNP数据库,第一列是比对条件。 例如,SNP数据库中,5和3侧翼序列的表示完全不同。 再例如,SNP数据库中,关于SNP表示、重复表示和删除表示的等位基因表示是不同的。 为了这些数据库能在世界范围内有效地交换数据,需对数据表示层的数据交换格式进行标准化
A.3.3.3序列变异数据表示的多样性
表A.4给出了序列变异数据表示的多样性 表A.4中的第一行是国际SNP数据库,第一列是变异数据比对条件。
表A.4SNP数据库之间序列变异数据表示的多样性(续)
GB/T404192021
表A4SNP数据库之间序列变异数据表示的多样性(续)
A.3.4置标语言比对
A.3.4.2置标语言到数据类别的映射
A.3.4.2.1通则
每种置标语言都有其特定的应用目标。将每种置标语言映射到表A.1中的数据类别可说明 GSVML在置标语言中的定位
生物信息学序列置标语言
生物信息学序列置标语言(BioinformaticSequenceMarkupLanguage,BSML)对生物序列信息进 行编码,包括对诸如序列、基因、电泳凝胶和多重比对之类的有生物学意义的对象的图形表示。BSMI 可将分子序列数据表示为表A.1中间接注释的组学数据和直接注释的个体序列。
A.3.4.2.4系统生物学置标语言(SBML)
系统生物学置标语言(SystemsBiologyMarkupLanguage,SBML)可表示许多研究中常见的生物 系统的模型,包括细胞信号通路、代谢通路、生化反应等。SBML可用来表示诸如表A.1中间接注释的 组学注释的分子网络。
A.3.4.2.5RNAMI
A.3.4.2.6PolvMAPr
PolyMAPr是一个以SNP为中心的程序,试图实现对公共数据库(dbSNP、CGAP和JSNP)的 注释和功能分析。该程序可用于查找表A.1中的直接注释中所描述的相关基因。PolyMAPr不 钟置标语言,而是一个以SNP为中心的概念,因此本文件对该程序也进行了调研
A.3.5与 HL7 的交互分析
HL7是健康信息交换与传输标准协议之一。HL7v3是HL7的最新版本,采用了面向对象的开发 方法和参考信息模型(ReferenceInformationModel,RIM)。RIM具有强大的描述创建消息的能力。 IL7不仅可以描述临床检查数据、处方数据等临床信息,还可以通过统一模型描述等位基因、SNP等遗 专信息。此外,由于临床基因组学工作组(ClinicalGenomicsWorkGroup,CGWG)和HL7一样将个 本化用药作为目标,正在推进遗传组信息电子交换标准的制定工作。 本条通过对CGWG开发的HL7v3(第10次投票版本)基因型模型(见图A.5)与GSVML的内容 进行比对来检验与HL7的交互能力
GB/T404192021
A.3.5.2与HL7的比对
L7v3基因型信息模型与
HL7基因型模型描述了与基因型相关的数据。HL7建议基因型作为健康领域中基因组信息交换 的基本单位。HL7基因型模型并不是生物学模型,而是针对个性化医疗愿景的医疗保健需求。相比之 下,虽然GSVML具有几乎相同的目的,但其优先考虑的是变异本身,并致力于开发出更合适的临床生 物学模型。这种差异通常反映在这些模型的切人点、结构和内容等方面的差异上(如A.3.5.2.2~ A.3.5.2.4所述)
A.3.5.2.2 切入点
HL7v3基因型模型的切人点是基因型(基因位点)。相反,GSVML的切人点是变异位点 A.6)。
装修工艺、技术A.3.5.2.3结构
图A.6GSVML需求应考虑的因素
HL7基因型模型的主要元素是基因型、等位基因、变异、表达、序列和表型。基因型与父系和母 原染色体上的一对等位基因有关联。这些等位基因与变异、表达和序列有关。此外,所有元素都与 有关。GSVML中,变异与基因型、等位基因和序列有关。表达和表型被描述为直接注释或间接 具体见图A.7。
图A.7HL7基因型模型与GSVML的结构
A.3.5.2.4内容
GB/T404192021
HL7v3基因型模型和GSVML都具有遗传信息和源自遗传信息的基础信息。在HL7v3中,相关 联的临床信息是在其他信息模型中进行描述的。另一方面镀铬标准,GSVML具有描述各种相关联的信息(如实 验条件、流行病学、统计信息等)的能力。在临床应用中利用变异数据时需要这些信息。GSVML内容 与HL7v3基因型模型的比对见表A,5
....- 相关专题: 健康信息