Famili protein adalah kelompok protein yang berhubungan secara evolusi. Di banyak kasus, sebuah famili protein memiliki famili gen yang sesuai, dengan setiap gen mengodekan protein sesuai dengan relasi 1:1. Istilah famili protein tidak dapat disamakan dengan famili yang digunakan pada taksonomi.
Protein pada turunan famili dari nenek moyang bersama (lihat homologi) secara khusus memiliki struktur tiga dimensi dan fungsi serupa, serta kesamaan urutan secara signifikan. Hal terpenting dari ketiga hal ini adalah kesamaan urutan (biasanya urutan asam amino) karena kesamaan urutan merupakan indikator homologi yang paling ketat dan karenanya merupakan indikator paling jelas dari nenek moyang bersama. Terdapat kerangka yang dikembangkan cukup baik untuk mengevaluasi signifikansi kesamaan di antara sekelompok urutan menggunakan metode penyebarisan urutan. Protein yang tidak memiliki nenek moyang bersama sangat tidak mungkin menunjukkan kesamaan urutan yang signifikan secara statistik, membuat penyebarisan urutan merupakan alat yang kuat untuk mengidentifikasi anggota famili protein.
Famili terkadang dikelompokkan bersama ke dalam klad lebih besar disebut superfamili yang didasarkan pada kesamaan struktural dan mekanistik, bahkan jika tidak terdapat homologi urutan teridentifikasi.
Saat ini, lebih dari 60.000 famili protein telah terdefinisi,[1] tetapi keambiguan pada definisi famili protein menyebabkan jumlah yang sangat bervariasi di antara peneliti berbeda.
Terminologi dan penggunaan
Seperti halnya banyak istilah biologi, penggunaan famili protein sedikit bergantung pada konteksnya; istilah ini mungkin menyatakan kelompok besar protein dengan tingkat kesamaan urutan terdeteksi serendah mungkin, atau kelompok protein sangat sempit dengan urutan, fungsi, atau struktur tiga dimensi yang hampir identik, atau semua jenis kelompok di antara keduanya. Untuk membedakan situasi tersebut, istilah superfamili protein sering kali digunakan untuk protein yang jauh terkait dengan keterkaitan tidak terdeteksi oleh kesamaan urutan, tetapi hanya dari sifat struktur bersama.[2][3][4] Istilah lainnya seperti kelas, kelompok, klan, subfamili protein telah diciptakan lebih dari bertahun-tahun, tetapi semuanya mengalami keambiguan penggunaan serupa. Dalam penggunaan umum, superfamili (homologi struktural) memuat famili (homologi urutan) yang memuat subfamili. Oleh karena itu, superfamili, seperti protease klan PA, memiliki urutan terkonservasikan jauh lebih sedikit dibandingkan dengan salah satu famili yang dimuatnya, famili C04. Sepertinya tidak mungkin definisi yang pasti akan disetujui dan definisi diserahkan kepada pembaca untuk melihat dengan tepat bagaimana istilah-istilah ini digunakan dalam konteks tertentu.
Karena jumlah total protein terurutkan meningkat dan minat dalam analisis proteom berkembang, terdapat upaya berkelanjutan untuk mengatur protein ke dalam famili dan untuk mendeskripsikan komponen domain dan motifnya. Identifikasi famili protein tepercaya penting pada analisis filogenetik, anotasi fungsional, dan eksplorasi keberagaman fungsi protein pada cabang filogenetik yang diketahui. Enzyme Function Initiative (EFI) menggunakan famili dan superfamili protein sebagai dasar perkembangan strategi berdasarkan urutan/struktur untuk penugasan fungsional skala besar dari enzim dengan fungsi yang tidak diketahui.[5]
Sarana algoritmik untuk membangun famili protein dalam skala besar didasarkan pada pengertian kesamaan. Sebagian besar waktu, satu-satunya kesamaan yang dapat terakses adalah kesamaan urutan.
Sumber famili protein
Terdapat banyak basis data biologi yang mencatat contoh famili protein dan mengizinkan pengguna untuk mengidentifikasi jika protein yang baru diidentifikasi termasuk famili yang diketahui. Berikut beberapa contohnya:
Pfam - Basis data penyebarisan dan HMM famili protein,
PROSITE - Basis data domain, famili, dan situs fungsional protein,
PASS2 - Penyebarisan Protein sebagai Superfamili Struktural v2 - PASS2@NCBS,[6]
SUPERFAMILY - Perpustakaan HMM yang merepresentasikan superfamili dan basis data (superfamili dan famili) anotasi untuk semua organisme tersekuensi secara penuh,
SCOP dan CATH - klasifikasi struktur protein ke dalam superfamili, famili, dan domain.
Secara serupa, terdapat banyak algoritme pencarian basis data, sebagai contoh:
^Dayhoff, M. O. (1976). "The origin and evolution of protein superfamilies". Federation Proceedings. 35 (10): 2132–2138. PMID181273.
^Gerlt, J. A.; Allen, K. N.; Almo, S. C.; Armstrong, R. N.; Babbitt, P. C.; Cronan, J. E.; Dunaway-Mariano, D.; Imker, H. J.; Jacobson, M. P.; Minor, W.; Poulter, C. D.; Raushel, F. M.; Sali, A.; Shoichet, B. K.; Sweedler, J. V. (2011). "The Enzyme Function Initiative". Biochemistry. 50 (46): 9950–9962. doi:10.1021/bi201312u. PMC3238057. PMID21999478.