《生物序列分析》在结构上大致可以分为四个部分,每个部分所覆盖的问题分别是:二序列联配、多序列联配、
系统发育树和RNA结构,具体分为:二序列联配、Markov链与隐马模型、使用HMM的二序列联配、朋于序列家族的列型HMM、多序列联配方法、构造系统发育树和系统发育的概率论方法,《生物序列分析》介绍的列型MM、多序列联配方法、构造系统发育树和系统发育的概率论方法,《生物序列分析》介绍的一些方法将不同的生物信息来源整合到一般的、清晰且可操作的序列分析概率论模型中,有助于研究者深入了解生物序列分析的基础。
Richard Durbin,1987年获得博士学位,研究方向为蠕虫神经系统的发育与组织。英国Sanger中心生物信息部负责人,先后参与线虫基因组和人类基因组项目、WormBase线虫模式生物数据库ACEDB基因组数据库、Pfam
蛋白质结构域数据库以及Ensembl脊椎动物
基因组注释。与SeanEddy、Anders Krogh以及Graeme Mitchison一起撰写了Biological Sequence Anaivsis一书,并于1998年由
剑桥大学出版社出版。
Sean Eddy,Janelia Farms的17个研究小组负责人之一,部分隶属于霍华德·休斯医学研究会,当前致力于计算基因组序列分析,使用概率论建模技术开发新算找DNA、RNA和蛋白质序列的特征。他的主要兴趣一个是识别新的结构和催化RNA,另一个是识别远缘的蛋白质同源序列。
Anders Krogh,哥本哈根大学生物信息中心负责人、生物信息学教授,因David Haussler——起率先在生物信息学领域使用隐马模型而闻名。作为Biological Sequence Analvisis一书的作者之一。他同时也是另一本更早一些的神经网络教科书的作者之一。他当前的研究兴趣包括启动子分析、
非编码RNA,基因预测以及
蛋白质结构预测。
Graeme Mitchison,剑桥大学
分子生物学实验室教员,量子计算研究者和计算生物学家,从事序贯弱度量、deFinetti定理量子等研究。
1992年在Snowbird举行的一次神经网络会议上,Darid Haussler及其
加州大学圣克鲁斯分校(UCSC)的同事们(其中也包括本书作者之一Anders Krogh)描述了使用概率论模型对蛋白质序列进行多序列联配建模的初步结果,他们称这种模型为隐马模型(HMM)。随后他们的技术报告复本被广泛地传播,其中一些流传到剑桥大学的MR(
分子生物学实验室)。在那里,Richard Durbin和Graeme Mitchison刚刚将自己的研究兴趣从神经建模转移到计算基因组序列分析上来,Sean Eddy当时是该实验室的一名博士后,其研究背景是实验分子遗传学,他对计算分析非常感兴趣。不久以后Anders Krogkt也到剑桥大学工作了一年。
我们都快速地接受了概率论建模的思想,并且相信HMM及其随机文法对应物是优美的数学对象,十分适合获取埋藏在生物序列中的信息。圣克鲁斯小组和剑桥小组很快独立地开发了各自免费的HMM序列分析软件包,并且各自独立地将HMM方法推广到用于RNA二级结构分析的随机上下文无关文法上。与此同时,在
加州理工学院喷气推进实验室(JPL/caltech),由Pierre Baldi领导的另一个研究小组也受Snowbird会议成果的启发,进行着基于HMM方法的研究。