以下是利用蛋白质数据和基因序列精准构建进化树的一般步骤:
一、数据获取
1. 蛋白质数据
从公共数据库(如UniProt、PDB等)获取目标蛋白质的氨基酸序列数据。这些数据库提供了大量经过注释和验证的蛋白质信息。
如果是自行研究的蛋白质,可以通过蛋白质纯化、测序技术(如质谱法测定蛋白质序列)来获得准确的氨基酸序列。
2. 基因序列
从NCBI(美国国立生物技术信息中心)的GenBank等数据库中获取相关基因的核酸序列。GenBank包含了来自世界各地的基因序列数据,具有广泛的物种覆盖范围。
对于新测序的基因,可以使用基因测序技术(如Sanger测序、二代测序技术Illumina等)得到基因序列,然后进行质量控制和序列拼接等处理。
二、序列比对
1. 蛋白质序列比对
常用工具为Clustal Omega、MUSCLE等。这些工具通过算法寻找蛋白质序列之间的相似区域,确定氨基酸残基的对应关系。
例如,Clustal Omega可以处理大量的蛋白质序列,并提供多种输出格式,比对结果能够反映出不同蛋白质之间在进化过程中的保守性和变异性。
2. 基因序列比对
软件如MAFFT(Multiple Alignment using Fast Fourier Transform)较为常用。它在比对核酸序列时能够快速准确地找到最佳比对结果。
对于基因序列比对,需要考虑密码子的特性,特别是在处理编码区序列时,要注意同义突变和非同义突变的区别,这有助于在后续分析中更好地理解基因功能的进化。
三、选择合适的进化模型
1. 模型评估
对于蛋白质序列,可以使用软件如ModelTestNG来评估不同的氨基酸替代模型,如JTT(Jones Taylor Thornton)模型、WAG(Whelan and Goldman)模型等。这些模型基于不同的假设来描述氨基酸在进化过程中的替代模式。
在基因序列方面,常见的模型有HKY(Hasegawa Kishino Yano)模型、GTR(General Time Reversible)模型等。同样可以使用jModelTest等工具来选择最适合基因序列数据的进化模型。
2. 确定模型
根据模型评估的结果,选择具有最佳拟合度(通常根据AIC 赤池信息准则或BIC 贝叶斯信息准则来判断)的进化模型,以确保后续进化树构建的准确性。
四、进化树构建
1. 基于距离的方法(适用于蛋白质和基因序列)
例如邻接法(Neighbor Joining,NJ),这种方法计算序列之间的距离矩阵,然后根据距离构建进化树。它的计算速度相对较快,适合大规模数据集的初步分析。
在软件MEGA(Molecular Evolutionary Genetics Analysis)中可以方便地实现邻接法构建进化树。MEGA还提供了丰富的序列编辑、比对和进化树美化等功能。
2. 最大似然法(Maximum Likelihood,ML)
对于蛋白质和基因序列都适用。它基于给定的进化模型计算每个可能的进化树的似然值,然后选择似然值最大的进化树作为最优结果。
RAxML(Randomized Axelerated Maximum Likelihood)是一款高效的用于最大似然法构建进化树的软件,尤其适用于处理大数据集。
3. 贝叶斯推断法(Bayesian Inference)
软件MrBayes是进行贝叶斯推断构建进化树的常用工具。贝叶斯方法考虑了先验知识和数据的似然性,通过马尔可夫链蒙特卡洛(MCMC)算法来抽样可能的进化树,最终得到反映进化关系的后验概率分布。
五、进化树评估与优化
1. 评估指标
对于构建好的进化树,可以使用自举检验(Bootstrap)来评估进化树分支的可靠性。一般来说,自举值越高(通常大于70%被认为是比较可靠的分支),表示该分支在多次抽样分析中的稳定性越高。
2. 优化调整
如果发现进化树存在不合理的分支结构或者低自举值的情况,可以重新检查数据的准确性、比对结果以及进化模型的选择是否合适。有时可能需要调整数据的范围(如排除一些异常序列)或者尝试其他的分析方法。
|
|