"1绪言
Ammar Al-Chalabi1 and Laura Almasy 2
1MRC Centre for Neurodegeneration Research, Kings College London, London SE5 8AF, United
Kingdom;2 Southwest Foundation for Biomedical Research, San Antonio, Texas 78227
1.1为什么遗传学重要
现代遗传学研究的核心在于:通过了解何种遗传变异导致疾病表型,我们能搞清楚疾病发病机制并因此可能干预或预防疾病。我们距离全面理解人类基因组以及其与疾病或其他表型的关系这一努力目标还非常遥远,但我们已经取得了显著进步,某些疾病已经开始向我们暴露它们的秘密了。
在本书中,我们着眼于将遗传学家用来鉴定疾病基因的工具和概念以及支撑这些遗传学概念的统计学理论结合起来。对人类遗传学感兴趣的或者在研究中需要用到遗传学技术的研究者会发现这些内容很有用,尤其对那些研究复杂遗传疾病的研究者而言。本书涉及一些统计学和数学知识,但通过一个章节对统计学进行简要介绍以及每个特定章节进行详细的用法解释,理解这些内容并不需要特别的统计学能力。书中覆盖的主题内容广泛,但主要强调关联研究,这是由于关联研究是目前众多复杂疾病研究设计的基础。另外,本书也涵盖了经典的方法,如连锁分析,这是由于这些方法对研究各种表型非常有用,也是后续很多方法的基础,研究者需要理解这些方法才能合理评价已有的研究结果。这些章节对从事遗传研究的人来说既是一个操作指南合集,也是各个领域的内容综述,这使得其成为那些既想知道如何做又想知道为什么的研究人员的非常宝贵的资源。
1.2现代遗传学简明史
1.2.1紧跟遗传学思想遗传学正以非常快的速度发展,一个很好的体现是里程碑式的重要进展被飞速超越。尽管遗传学发展到当前认识水平的过程经历了很多重要的阶段,但知识的主要跨越性发展要么取决于新的方法(数学、概念或技术),要么来自现有的观念被推翻或者融合。
1.2.2孟德尔、达尔文以及遗传的波-粒辩论
1859年达尔文发表了他的依赖于遗传观点的进化理论(Darwin 1859)。之后的1865年出现了第一个真正的针对遗传现象的现代科学分析:奥地利布隆城圣汤姆斯修道院的牧师格列高尔 孟德尔实施了他精细的豌豆杂交与计数实验Mendel 1866。1905年,William Bateson提出了遗传学(genetics)这个词,成为第一个遗传学教授,那是在英国剑桥大学。在当时,遗传机制到底是基于粒子还是基于波存在很大的争议。Bateson认为基因是波或者是震动,而Karl Pearson(卡方检验、回归和相关等概念的提出者)认为基因是一个个的颗粒(历史上对光的本质也有类似的甚至更长时间的争论)。孟德尔定律只能用遗传的粒子理论来解释,而似乎带有渐变过程的进化理论则难以用粒子理论来解释,相反用波-动理论就能很好地解释(可以容许亲本性状混合)。另外,波-动理论则无法解释进化理论中的多样性问题:任何混合方式最终都会随着时间带来多样性的丢失。这个矛盾在1918年被Ronald Fisher(他提出了“统计变量”这一概念)解决了,他和J-B-S- Haldane 以及Sewell Wright一起证实了基于粒子的遗传多基因学说可以同时符合孟德尔定律以及进化理论Fisher 1918。1903~1910年,Walter Sutton和Thomas Hunt Morgan发现位于染色体上的基因是遗传单元。因此,19世纪末和20世纪初产生了现代遗传学和统计学的基础理论,这也是本书各种概念的直接源头。
1.2.3分子生物学的中心法则
20世纪30年代至40年代产生了遗传学的中心法则(1941年提出,1958年正式形成),该法则认为遗传信息从DNA(1933年发现位于染色体内)到RNA,再到蛋白质,而不是相反方向Crick 1970。由于逆转录病毒和朊病毒的发现,中心法则在1964年和1982年两次被修订。
1.2.4DNA和遗传密码
1953年,James D- Watson和 Francis H-C- Crick利用Rosalind Franklin(Maurice Wilkins实验室的工作人员)的晶体数据确定了DNA的碱基配对双螺旋结构。然后在1967年,我们现在称为遗传密码的碱基-蛋白质对应关系被众多科学家一一破解。现在,我们知道只有不到2%的人类基因组DNA是编码蛋白质的,显然遗传密码远没有被彻底破解,我们仍然未完全理解基因组内剩余的98%的信息。
1.2.5基因组学时代的来临
20世纪70年代见证了基因组学时代的到来。1972年Walter Fiers小组发表了第一个基因序列:噬菌体MS2衣壳蛋白的基因序列;1976年第一个完整的RNA基因组也问世,也是MS2的;随后在1977年,Fred Sanger发表第一个完整的DNA基因组(噬菌体ΦX174)Min Jou et al- 1972; Fiers et al- 1976; Sanger et al- 1977。
1983年,Kary Mullis发明了聚合酶链反应技术(PCR技术),该技术将分子生物学真正带入基因组时代。1990年人类基因组计划正式启动,2001年宣布完成,到2003年4月14日完成度达到99%,精确度达到99-99%Lander et al- 2001; Venter et al- 2001。
1.2.6后基因组时代
我们现在处于后基因组时代。这个时代具有以下特点(也是当前研究的热点):通过广泛的国际合作来获得足够的统计学力量以发现常见疾病的常见变异;通过深度测序来研究罕见序列变异;生物样本库和流行病调查研究的协同;基因组的结构变异研究;内含子和基因间DNA(曾被称为垃圾DNA)的重要性;表观遗传学;RNA的新功能;统计理论和计算能力的发展以及1000美元基因组测序。
1.3复杂疾病研究如何融入遗传学
复杂疾病的遗传学起源于这样一种认识:“一个基因,一种疾病”的模型过于简单,不能解释非孟德尔遗传性疾病的家族聚集倾向,也不能接受正常人和患者表现出来的复杂表型。本书选择的主题不可能包括所有的内容,但确实构成一个连贯符合逻辑的整体。本书一开始简要介绍遗传学家用到的基本统计学知识,接着是关于流行病学重要性的一个综述。之后本书介绍了变量构成和连锁分析以及基于家系的关联测试。然后几章是关于基因组关联研究、其中遇到的问题、如何成功克服这些问题的内容。本书还包括了荟萃分析和归因、基因和环境的相互作用、拷贝数变异以及通路分析、肿瘤遗传学、RNA剪切与复杂疾病等领域的最新思想。最后汇集了一些最新的实验技术。
1.4最后感想
毫无疑问,我们目前对基因组的认识会在几年之后发生巨大的变化。当我们破解非编码DNA的功能、理解微小RNA(miRNA)、表观遗传学信号以及基因之间的复杂交互作用,并且理解了蛋白质翻译之后的修饰控制后,我们才能真正理解基因组的复杂性:这种隐藏在貌似简单的遗传序列后的复杂性。
参考文献
Bateson, W. 1907. The Progress of Genetic Research. In Report of the Third 1906 International Conference on Genetics: Hybridizationthe cross-breeding of genera or species, the cross-breeding of varieties, and general plant breeding ed. W. Wilks. Royal Horti-cultural Society, London.
Crick, F. 1970. Central dogma of molecular biology. Nature 227: 561-563.
Darwin, C. 1859. On the origin of species by means of natural selection, or the preservation of favoured races in the struggle for life.
Fiers, W., Contreras, R., Duerinck, F., Haegeman, G., Iserentant, D.,Merregaert, J., Min Jou, W., Molemans, F., Raeymaekers, A., Van den Berghe, A., et al. 1976. Complete nucleotide-sequence of bacteriophage MS2-RNA—Primary and secondary structure of replicase gene. Nature 260: 500-507.
Fisher, R.A. 1918. The correlation between relatives on the supposition of Mendelian inheritance. Trans. R. Soc. Edinb. 52: 399-433.
Lander, E.S., Linton, L.M., Birren, B., Nusbaum, C., Zody, M.C., Baldwin, J., Devon, K., Dewar, K., Doyle, M., FitzHugh, W., et al. 2001.Initial sequencing and analysis of the human genome. Nature 409:860-921.
Mendel, G. 1866. Versuche über Pflanzen-Hybriden. Verh. Naturforsch. Ver. Brünn 4: 3-47.
Min Jou, W., Haegeman, G., Ysebaert, M., and Fiers, W. 1972. Nucleotide sequence of the gene coding for the bacteriophage MS2 coat protein. Nature 237: 82-88.
Mullis, K.B. and Faloona, F.A. 1987. Specific synthesis of DNA in vitro via a polymerase-catalyzed chain reaction. Methods Enzymol.155: 335-350.
Sanger, F., Air, G.M., Barrell, B.G., Brown, N.L., Coulson, A.R., Fiddes, C.A., Hutchison, C.A., Slocombe, P.M., and Smith, M. 1977.Nucleotide sequence of bacteriophage phi X174 DNA. Nature 265: 687-695.
Venter, J.C., Adams, M.D., Myers, E.W., Li, P.W., Mural, R.J., Sutton,G.G., Smith, H.O., Yandell, M., Evans, C.A., Holt, R.A., et al.2001. The sequence of the human genome. Science 291: 1304-1351.
Watson, J.D. and Crick, F.H. 1953. Molecular structure of nucleic acids;a structure for deoxyribose nucleic aci"