单核苷酸多态性

时间:2024-01-24 23:01:27编辑:笔记君

单核苷酸多态性,通常缩写为SNP(/sn?p/;复数/sn?ps/),是发生在基因组特殊位置的单个核苷酸的替换,其中每个变异在群体中存在一定程度(例如>1%)。

在人类基因组的特定碱基位置上,C核苷酸可能出现在大多数个体中,但是在少数个体中,该位置被A占据。这意味着在该特定位置上存在单核苷酸多态性,并且两种可能的核苷酸变异——C或A——被称为该位置的等位基因。

单核苷酸多态性预示了我们对多种疾病(如镰状细胞性贫血、β地中海贫血和单核苷酸多态性导致的囊性纤维化)的易感性差异。 疾病的严重性和身体对治疗的反应也是遗传变异的表现。例如,APOE(载脂蛋白E)基因的单碱基突变与阿尔茨海默病的风险较低相关。

单核苷酸变体(SNV)是单核苷酸的变体,没有任何频率限制,可能出现在体细胞中。体细胞单核苷酸变异(比如,由癌症引起)也可以称为单核苷酸变异。

类型Types of SNPsNon-coding regionCoding regionSynonymousNonsynonymousMissenseNonsense

单核苷酸多态性可能属于基因编码序列、基因非编码区或基因间区(基因间区)。由于遗传密码的简并性,编码序列中的单核苷酸多态性不一定改变产生的蛋白质的氨基酸序列。

编码区的SNPs有两种类型:同义和非同义SNPs。同义SNPs不影响蛋白质序列,而非同义SNPs改变蛋白质的氨基酸序列。非同义SNPs有两种类型:错义和无意义。

不在蛋白质编码区的单核苷酸多态性仍可能影响基因剪接、转录因子结合、信使核糖核酸降解或非编码核糖核酸序列。受这种类型的单核苷酸多态性影响的基因表达被称为eSNP(表达单核苷酸多态性),可以位于基因的上游或下游。

应用关联研究可以确定基因变异是否与疾病或性状相关。标签单核苷酸多态性(tag SNP)是基因组中一个具有高度连锁不平衡(两个或多个位点等位基因的非随机关联)的区域的代表性单核苷酸多态性。标签单核苷酸多态性在全基因组单核苷酸多态性关联研究中是有用的,在全基因组单核苷酸多态性关联研究中,数十万个单核苷酸多态性是基因分型的。单体型映射:等位基因或脱氧核糖核酸序列的集合可以被聚集,这样一个单核苷酸多态性可以识别许多连接的单核苷酸多态性。连锁不平衡是群体遗传学中的一个术语,指等位基因在两个或多个位点的非随机关联,不一定在同一条染色体上。它是指基因组中紧密相连的单核苷酸多态性等位基因或脱氧核糖核酸序列倾向于一起遗传的现象。LD受两个参数的影响:1)单核苷酸多态性之间的距离。2)重组率。频率

在不同人群中发现了超过8400万个单核苷酸多态性。一个典型的基因组在400万到500万个位点上不同于参考人类基因组,其中大部分(超过99.9%)由单核苷酸多态性和短序列组成。

在基因组中

单核苷酸多态性的基因组分布不均匀;单核苷酸多态性出现在非编码区的频率高于编码区,或者一般来说,在自然选择起作用并“固定”构成最有利遗传适应的单核苷酸多态性等位基因(消除其他变体)的地方。 其他因素,如基因重组和突变率,也可以决定单核苷酸多态性密度。

单核苷酸多态性密度可以通过微卫星的存在来预测:特别是腺苷酸微卫星是单核苷酸多态性密度的有效预测因子,长的(AT)重复片段通常被发现存在在单核苷酸多态性频率显著较低和GC含量较低的区域。

在人群中

人类群体之间存在差异,因此在一个地理或种族群体中常见的单核苷酸多态性等位基因在另一个群体中可能要罕见得多。在一个群体中,单核苷酸多态性可以被赋予一个较低的等位基因频率——在特定群体中观察到的某一位点的最低等位基因频率。这只是单核苷酸多态性的两个等位基因频率中较小的一个。

重要性

人类基因序列的变化会影响人类疾病的发生以及对病原体、化学物质、药物、疫苗和其他药剂的反应。单核苷酸多态性对个性化医学也至关重要。 例子包括生物医学研究、法医学、药物遗传学和疾病成因,如下所述。

临床研究

单核苷酸多态性在临床研究中最重要的是在全基因组关联研究中比较不同队列(如有疾病和无疾病的匹配队列)之间的基因组区域。单核苷酸多态性已经在全基因组关联研究中用作与疾病或正常性状相关的基因定位的高分辨率标记。对表型没有明显影响的单核苷酸多态性(所谓的沉默突变)在全基因组关联研究中仍然是有用的遗传标记,因为它们的数量和世代间的稳定遗传。

法医学

单核苷酸多态性最初用于将法医DNA样本与嫌疑人进行匹配,但随着基于串联重复序列的脱氧核糖核酸指纹技术的发展,它已经被淘汰。当前的新一代测序(NGS)技术可能允许在法医应用中更好地使用单核苷酸多态性基因分型,只要避免有问题的基因座。 在未来,SNPs可能被用于一些表型线索的取证,如眼睛颜色、头发颜色、种族等。Kidd等人已经证明,一个由19个SNPs组成的小组可以在所研究的40个人群中识别出匹配概率很高的种族群体(Pm=10^-7)。 这可能有潜在用途的一个例子是对未知个体骨骼化遗骸可能的预解剖外观进行艺术重建。虽然严格地基于人类学特征,面部重建可以相当精确,但是其他包括眼睛颜色、皮肤颜色、头发颜色等数据可能会让重建更精确。

在法医样本或降解样本数量较少的情况下,由于潜在标记物的丰富性、对自动化的适应性以及所需片段长度可能减少到仅60-80 bp,单核苷酸多态性方法可能是STR方法的良好替代方法。在脱氧核糖核酸图谱数据库中没有字符串匹配的情况下;不同的单核苷酸多态性可以用来获得关于种族、表现型、谱系甚至身份的线索。

遗传药理学

一些单核苷酸多态性与不同药物的代谢有关。 癌症、传染病(艾滋病、麻风病、肝炎等)等多种人类疾病的关联。)具有不同SNPs的自身免疫性、神经精神性和许多其他疾病可以作为药物治疗的相关药物基因组靶标。

疾病

单个单核苷酸多态性可能导致孟德尔病,尽管对于复杂的疾病,单核苷酸多态性通常不单独发挥作用,相反,它们与其他单核苷酸多态性协同工作,表现出骨质疏松症的疾病状态。 该领域最早的成功之一是在APOC3(载脂蛋白C3基因)的非编码区发现了一个单碱基突变,该突变与高甘油三酯血症和动脉粥样硬化的高风险相关。

所有类型的单核苷酸多态性都可能具有可观察到的表型或导致疾病:

非编码区的单核苷酸多态性可能表现出更高的癌症风险, 并可能影响基因结构和疾病易感性。 非编码SNPs也可以改变基因的表达水平,如eQTL(表达数量性状基因座)。编码区的单核苷酸多态性:顾名思义,同义替换不会导致蛋白质中氨基酸的变化,但仍能以其他方式影响其功能。一个例子是多药耐药基因1 (MDR1)中看似沉默的突变,其编码从细胞中排出药物的细胞膜泵,可以减缓翻译并允许肽链折叠成不寻常的构象,导致突变泵功能减弱(在MDR1蛋白中,例如,C1236T多态性将多肽氨基酸位置412的GGC密码子改变为GGT(均编码甘氨酸),C3435T多态性将ATC改变为位置1145的ATT(均编码异亮氨酸))。非同步替换:错义——单个碱基的变化导致蛋白质氨基酸的变化及其导致疾病的功能障碍(例如,LMNA基因中的1580G>T单核苷酸多态性——脱氧核糖核酸序列中的1580位(CGT密码子)导致鸟嘌呤被胸腺嘧啶取代,在脱氧核糖核酸序列中产生CTT密码子,在蛋白质水平上导致527位的亮氨酸取代精氨酸, 在表型水平上这表现为重叠的下颌骨发育不良和早衰综合征)无意义——在脱氧核糖核酸序列中的点突变,导致转录的脱氧核糖核酸中的过早终止密码子或无意义密码子,以及截短的、不完整的、通常无功能的蛋白质产物(如囊性纤维化跨膜传导调节基因G542X突变引起的囊性纤维化)。例子rs6311和rs6313是人类染色体13上血清素5-HT2A受体基因的单核苷酸多态性。F5基因中的单核苷酸多态性导致莱顿因子血栓形成倾向。rs3091244是人类染色体1上CRP基因中三链单核苷酸多态性的一个例子。TAS2R38编码PTC品尝能力,并包含6个注释的SNPs。编码无花果蛋白酶的FCN1基因中的rs148649884和rs138055828削弱了重组无花果蛋白酶的配体结合能力。脱氧核糖核酸错配修复基因PMS2 (rs1059060,Ser775Asn)的内含子单核苷酸多态性与精子脱氧核糖核酸损伤增加和男性不育风险有关。数据库

正如基因一样,SNPs也有生物信息学数据库。

dbSNP 数据库是国家生物技术信息中心(NCBI)的SNP数据库。截至2015年6月8日,数据库单核苷酸多态性列出了149,735,377个人类单核苷酸多态性。Kaviar 是来自多个数据源的SNP概要,包括dbSNP。SNPedia 是一个维基风格的数据库,支持个人基因组注释、解释和分析。OMIM 数据库描述多态性和疾病之间的关联(例如,以文本形式给出疾病)。dbSap——用于蛋白质变异检测的单一氨基酸多态性数据库。人类基因突变数据库提供导致或与人类遗传疾病和功能性相关的 单核苷酸多态性相关的基因突变。国际单倍体项目,研究人员正在鉴定标签单核苷酸多态性,以便能够确定每个受试者中存在的单倍体集合。GWAS中心允许用户在一个或多个全基因组关联研究中直观地询问实际的汇总级关联数据。

国际单核苷酸多态性图谱工作组通过与基因库中插入大克隆片段的基因组序列比对,绘制了每个单核苷酸多态性侧翼的序列。这些比对被转换成染色体坐标,如表1所示。这个列表已经大大增加了,例如,卡维亚数据库现在列出了1.62亿个单核苷酸变异体。

ChromosomeLength(bp)All SNPs TSC SNPs Total SNPskb per SNPTotal SNPskb per SNP1214,066,000129,9311.6575,1662.852222,889,000103,6642.1576,9852.903186,938,00093,1402.0163,6692.944169,035,00084,4262.0065,7192.575170,954,000117,8821.4563,5452.696165,022,00096,3171.7153,7973.077149,414,00071,7522.0842,3273.538125,148,00057,8342.1642,6532.939107,440,00062,0131.7343,0202.5010127,894,00061,2982.0942,4663.0111129,193,00084,6631.5347,6212.7112125,198,00059,2452.1138,1363.281393,711,00053,0931.7735,7452.621489,344,00044,1122.0329,7463.001573,467,00037,8141.9426,5242.771674,037,00038,7351.9123,3283.171773,367,00034,6212.1219,3963.781873,078,00045,1351.6227,0282.701956,044,00025,6762.1811,1855.012063,317,00029,4782.1517,0513.712133,824,00020,9161.629,1033.722233,786,00028,4101.1911,0563.06X131,245,00034,8423.7720,4006.43Y21,753,0004,1935.191,78412.19RefSeq15,696,67414,5341.08Totals2,710,164,0001,419,1901.91887,4503.05命名法

单核苷酸多态性的命名可能令人困惑:单个单核苷酸多态性可能存在几种变异,但尚未达成共识。一种表示单核苷酸多态性的方法是写带有前缀、句点和“大于”符号,显示野生型和改变的核苷酸或氨基酸;例如,c.76A>T. SNPs经常用它们的dbSNP rs数来表示。

单核苷酸多态性分析

单核苷酸多态性通常是双等位基因,因此很容易分析。 发现新的单核苷酸多态性和检测已知单核苷酸多态性的分析方法包括:

脱氧核糖核酸测序;毛细管电泳;质谱分析;单链构象多态性(SSCP);单碱基延伸;电化学分析;变性高效液相色谱和凝胶电泳;限制性片段长度多态性;杂交分析;预测单核苷酸多态性效应的程序

单核苷酸多态性中比较重要的一类是那些与导致蛋白质水平氨基酸变化的错义突变相对应的多态性。特定残基的点突变对蛋白质功能有不同的影响(从无影响到完全破坏其功能)。通常,具有相似大小和物理化学性质的氨基酸改变(例如亮氨酸被缬氨酸取代)具有温和的效果,反之亦然。类似地,如果单核苷酸多态性破坏二级结构元件(例如α螺旋区脯氨酸被取代),这种突变通常会影响整个蛋白质的结构和功能。利用这些简单的和许多其他机器学习导出的规则,开发了一组预测单核苷酸多态性效应的程序:

SIFT 这个项目基于氨基酸的物理性质和序列同源性,提供了实验室诱导的错义或非同源突变如何影响蛋白质功能的见解。LIST (局部同一性和共享分类群) 估计突变所导致的由蛋白质功能的改变的所产生的潜在有害。这是基于这样一个假设,即与人类密切相关的物种中观察到的变异在评估潜在危害时,比那些远亲物种中的变异更为重要。SNAP2SuSPectPolyPhen-2PredictSNP突变网站:官方网站 official websiteVariant Effect Predictor 恩塞布勒项目中的变量效应预测器SNPViz 该程序提供了受影响蛋白质的三维表示,突出了氨基酸的变化,这样医生就可以确定突变蛋白质的致病性。

上一篇:拉菜

下一篇:抖店平台