蛋白質超家族
蛋白質超家族(英語:protein superfamily)是對可以找到共同祖先的最大一組蛋白質的合稱。一般而言,共同祖先是基於結構比對[1]和物理性質得出的,即使序列相似性不高,[2]也可能會具有共同祖先。蛋白質超家族中往往還會有內部聯繫相對更近的蛋白質家族。[2][3]
識別
[編輯]蛋白質超家族可以用多種方法進行鑑定。
序列相似性
[編輯]之前,不同蛋白質序列之間的相似性曾被作為推斷同源性最常用的指標。[5]序列相似性被認為是相關性的一個指示物,因為相似的序列很有可能來自於基因重複和趨異進化,而不太可能來自於趨同進化。由於密碼子簡併的緣故,蛋白質的胺基酸序列一般比核酸序列更具有同源性。由於某些胺基酸的性質較為相似(在大小、電荷、疏水性等方面),發生在它們之間的保守突變往往對蛋白質的功能僅具有中性的影響。基本上,蛋白質序列中最保守的區段就是它們的結合活性位點和催化活性位點,因為這些區域發生的突變往往會對蛋白質功能產生負面的影響,從而不會在進化中流傳下來。
然而,用序列相似性來推斷同源性也有諸多不足。首先,相似的結構也可以來自於相似性較低的序列;其次,在漫長的進化過程中,相關序列之間的相似性也可能會降到無法識別的地步;最後,具有較多插入和刪除突變的序列也很難用序列比對進行分析。例如,在PA蛋白酶超家族中,沒有一個胺基酸殘基是在所有成員中都相同的,即使是在催化三聯體處的胺基酸也是如此。反之,PA超家族中的C04蛋白酶家族就是基於序列比對而劃分出來的。
不過,序列相似性如今依然是推斷同源性特徵最常用的指標,因為已知的蛋白質序列數量要遠遠超過已知的蛋白質三級結構數量。受限於蛋白質結構數據的不足,蛋白質超家族的劃分仍然十分依賴序列相似性的分析[6]。
結構相似性
[編輯]蛋白質結構在進化上比蛋白質序列更為保守,具有相似結構的蛋白可以具有完全不同的的胺基酸序列。[7]在足夠長的進化時間尺度上,胺基酸序列(一級結構)上的相似性幾乎難以發現,但是二級結構的元件和三級結構的基序仍然是高度保守的。一些蛋白動力學特徵[8]和構象改變的方式也有可能被保存下來,例如絲氨酸蛋白酶抑制劑(Serpin)超家族。[9]因此,即使序列上無法找到相似性,也可以通過蛋白質結構信息來推斷其同源性。結構比對的程序,例如DALI,就可以通過分析蛋白的三維結構來尋找與之有相似摺疊方式的其他蛋白。[10]然而,在少數情況下,相關的蛋白質也有可能進化出不同的結構,從而只能夠用其他的手段鑑定其同源性。[11][12][13]
機理相似性
[編輯]同一蛋白質超家族中,雖然底物的特異性會有較大不同,酶促反應的機理大多是保守的。[14]具有催化活性的胺基酸殘基一般也以相同的順序出現在蛋白質序列中。[15]在PA蛋白酶超家族中,即使各個家族間催化三聯體的胺基酸殘基已經相差甚遠,但它們採用的催化機理都是相似的——與蛋白質、多肽或胺基酸發生共價親核反應。[16]但是,僅僅是機理的相似性無法證明同源性,因為一些相似的催化機理是由不同的超家族多次獨立地,以趨同進化的方式得到的結果;[17][18][19]在同一超家族內也會存在一系列不同(或許在化學意義上類似)的催化機理。[14][20]
進化意義
[編輯]蛋白質超家族代表了我們現在鑑定蛋白質共同祖先的能力極限。[21]現今,這是基於直接證據的,可以劃分出的最大進化類群。它們也因此代表了一些極為古老的進化事件。例如,有些蛋白質超家族的範圍包括了生物類群的全部五界,說明了這些超家族的共同祖先蛋白存在於地球上所有生物的最後共同祖先(LUCA)體內。[22]
多樣性
[編輯]大部分的蛋白質(66-80%的真核蛋白質和40-60%原核蛋白質)含有多個結構域,[5]在進化過程中,不同超家族的結構域之間會發生互相混合,事實上不與其他超家族發生重組的超家族是很難找到的。[5][1]當結構域之間發生重組時,其從N端到C端的順序往往是保守的。此外,在自然界可以找到的結構域組合比理論上可能出現的情況要少得多,或許是自然選擇的結果。[5]
蛋白質超家族的例子
[編輯]鹼性磷酸酶超家族 - 具有相似的αβα三明治結構[23],催化機理也有相似之處。[24]
免疫球蛋白超家族 - 相似的反平行β摺疊結構,在識別、結合、黏附功能上具有重要性。[27][28]
PA蛋白酶超家族 - 具有相似的類胰凝乳蛋白酶雙β桶狀結構,相似的蛋白酶解機理,但是序列相似性<10%。[2][29]
Ras超家族 - 相似的催化G結構域,由6個β片層和5個α螺旋組成。[30]
絲氨酸蛋白酶抑制劑超家族 - 具有相似的高能應力摺疊,可以發生較大的構象改變,並從而抑制絲氨酸蛋白酶和半胱氨酸蛋白酶的活性。[9]
蛋白質超家族資源
[編輯]已有若干生物資料庫收錄了蛋白質超家族和結構摺疊的數據,例如:
- Pfam - 蛋白質家族、序列比對數據
- PROSITE - 蛋白質結構域、家族、功能位點
- PIRSF - 超家族分類系統
也有可供在蛋白質資料庫(PDB)中尋找特定相似結構的算法,例如:
- DALI - 基於距離對齊矩陣的結構比對方法
參見
[編輯]參考文獻
[編輯]- ^ 1.0 1.1 Dali server: conservation mapping in 3D. Nucleic Acids Research. July 2010, 38 (Web Server issue): W545–9. PMC 2896194 . PMID 20457744. doi:10.1093/nar/gkq366.
- ^ 2.0 2.1 2.2 MEROPS: the database of proteolytic enzymes, their substrates and inhibitors. Nucleic Acids Research. January 2012, 40 (Database issue): D343–50. PMC 3245014 . PMID 22086950. doi:10.1093/nar/gkr987.
- ^ Updating the sequence-based classification of glycosyl hydrolases. The Biochemical Journal. June 1996, 316 (Pt 2): 695–6. PMC 1217404 . PMID 8687420. doi:10.1042/bj3160695.
- ^ Clustal FAQ #Symbols. Clustal. [8 December 2014]. (原始內容存檔於2016-10-24).
- ^ 5.0 5.1 5.2 5.3 The folding and evolution of multidomain proteins. Nature Reviews Molecular Cell Biology. April 2007, 8 (4): 319–30. PMID 17356578. doi:10.1038/nrm2144.
- ^ SUPFAM--a database of potential protein superfamily relationships derived by comparing sequence-based and structure-based families: implications for structural genomics and function annotation in genomes. Nucleic Acids Research. January 2002, 30 (1): 289–93. PMC 99061 . PMID 11752317. doi:10.1093/nar/30.1.289.
- ^ Protein families and their evolution-a structural perspective. Annual Review of Biochemistry. 2005, 74 (1): 867–900. PMID 15954844. doi:10.1146/annurev.biochem.74.082803.133029.
- ^ Sequence evolution correlates with structural dynamics. Molecular Biology and Evolution. September 2012, 29 (9): 2253–63. PMC 3424413 . PMID 22427707. doi:10.1093/molbev/mss097.
- ^ 9.0 9.1 The serpins are an expanding superfamily of structurally similar but functionally diverse proteins. Evolution, mechanism of inhibition, novel functions, and a revised nomenclature. The Journal of Biological Chemistry. September 2001, 276 (36): 33293–6. PMID 11435447. doi:10.1074/jbc.R100016200.
- ^ Dali server update. Nucleic Acids Research. July 2016, 44 (W1): W351–5. PMC 4987910 . PMID 27131377. doi:10.1093/nar/gkw357.
- ^ Evolution of primate α and θ defensins revealed by analysis of genomes. Molecular Biology Reports. June 2014, 41 (6): 3859–66. PMID 24557891. doi:10.1007/s11033-014-3253-z.
- ^ Structural drift: a possible path to protein fold change. Bioinformatics. April 2005, 21 (8): 1308–10. PMID 15604105. doi:10.1093/bioinformatics/bti227.
- ^ Proteins that switch folds. Current Opinion in Structural Biology. August 2010, 20 (4): 482–8. PMC 2928869 . PMID 20591649. doi:10.1016/j.sbi.2010.06.002.
- ^ 14.0 14.1 Dessailly, Benoit H.; Dawson, Natalie L.; Das, Sayoni; Orengo, Christine A., Function Diversity Within Folds and Superfamilies, From Protein Structure to Function with Bioinformatics (Springer Netherlands), 2017: 295–325, ISBN 9789402410679, doi:10.1007/978-94-024-1069-3_9 (英語)
- ^ Causes of evolutionary rate variation among protein sites. Nature Reviews. Genetics. February 2016, 17 (2): 109–21. PMC 4724262 . PMID 26781812. doi:10.1038/nrg.2015.18 (英語).
- ^ Handicap-Recover Evolution Leads to a Chemically Versatile, Nucleophile-Permissive Protease. ChemBioChem. September 2015, 16 (13): 1866–1869. PMC 4576821 . PMID 26097079. doi:10.1002/cbic.201500295.
- ^ Intrinsic evolutionary constraints on protease structure, enzyme acylation, and the identity of the catalytic triad. Proceedings of the National Academy of Sciences of the United States of America. February 2013, 110 (8): E653–61. PMC 3581919 . PMID 23382230. doi:10.1073/pnas.1221050110.
- ^ An evolving hierarchical family classification for glycosyltransferases. Journal of Molecular Biology. April 2003, 328 (2): 307–17. PMID 12691742. doi:10.1016/S0022-2836(03)00307-3.
- ^ Independent evolution of four heme peroxidase superfamilies. Archives of Biochemistry and Biophysics. May 2015, 574: 108–19. PMC 4420034 . PMID 25575902. doi:10.1016/j.abb.2014.12.025.
- ^ Akiva, Eyal; Brown, Shoshana; Almonacid, Daniel E.; Barber, Alan E.; Custer, Ashley F.; Hicks, Michael A.; Huang, Conrad C.; Lauck, Florian; Mashiyama, Susan T. The Structure–Function Linkage Database. Nucleic Acids Research. 2013-11-23, 42 (D1): D521–D530 [2019-07-12]. ISSN 0305-1048. PMC 3965090 . PMID 24271399. doi:10.1093/nar/gkt1130. (原始內容存檔於2021-05-13) (英語).
- ^ Protein structure and evolutionary history determine sequence space topology. Genome Research. March 2005, 15 (3): 385–92. PMC 551565 . PMID 15741509. arXiv:q-bio/0404040 . doi:10.1101/gr.3133605.
- ^ Protein superfamily evolution and the last universal common ancestor (LUCA). Journal of Molecular Evolution. October 2006, 63 (4): 513–25. PMID 17021929. doi:10.1007/s00239-005-0289-7.
- ^ SCOP. [28 May 2014]. (原始內容存檔於2014-07-29).
- ^ Efficient, crosswise catalytic promiscuity among enzymes that catalyze phosphoryl transfer. Biochimica et Biophysica Acta. January 2013, 1834 (1): 417–24. PMID 22885024. doi:10.1016/j.bbapap.2012.07.015.
- ^ Branden, Carl; Tooze, John. Introduction to protein structure 2nd. New York: Garland Pub. 1999. ISBN 978-0815323051.
- ^ Aplysia limacina myoglobin. Crystallographic analysis at 1.6 A resolution. Journal of Molecular Biology. February 1989, 205 (3): 529–44. PMID 2926816. doi:10.1016/0022-2836(89)90224-6.
- ^ The immunoglobulin fold. Structural classification, sequence patterns and common core. Journal of Molecular Biology. September 1994, 242 (4): 309–20. PMID 7932691. doi:10.1006/jmbi.1994.1582.
- ^ Cell adhesion molecules 1: immunoglobulin superfamily. Protein Profile. 1995, 2 (9): 963–1108. PMID 8574878.
- ^ Viral cysteine proteases are homologous to the trypsin-like family of serine proteases: structural and functional implications. Proceedings of the National Academy of Sciences of the United States of America. November 1988, 85 (21): 7872–6. PMC 282299 . PMID 3186696. doi:10.1073/pnas.85.21.7872.
- ^ The guanine nucleotide-binding switch in three dimensions. Science. November 2001, 294 (5545): 1299–304. PMID 11701921. doi:10.1126/science.1062023.