مدل‌های سیر تکاملی دی‌ان‌ای

مدل‌های زیادی مبتنی بر زنجیرهٔ مارکوف، برای مدل‌سازی سیر تکاملی دی‌ان‌ای ارائه شده‌است. معمولاً مدل‌های جانشینی ارایه‌شده با هم در پارامترهایی که برای توضیح نرخ جانشینی یک نوکلئوتید در طول تکامل دی‌ان‌ای در نظر گرفته می‌شوند، متفاوت هستند. این مدل‌ها معمولاً در آنالیز فیلوژنتیک مولکولی استفاده می‌شوند. به‌طور خاص از مدل‌های ارائه شده در برآورد درست‌نمایی بیشینهی درخت و تخمین فاصلهٔ تکاملی میان توالی‌ها با داشتن فواصل مشاهده‌شده در میان آن‌ها، استفاده می‌شود. روش‌های مبتنی بر درست‌نمایی بیشینه به مدل وابسته هستند به‌طوری‌که اگر بخشی از اطلاعات موجود در داده‌ها را در نظر نگیرد، نتایج این روش بسیار ضعیف خواهد بود. مدل‌های مبتنی بر مارکوف در تحلیل داده‌ها تنها جانشینی در یک توالی را در نظر گرفته و حذف و اضافه شدن در توالی را نادیده می‌گیرند.[1]

معرفی

رویکردهای مختلفی برای ساخت درخت فیلوژنی و تخمین فاصلهٔ زمانی میان موجودات وجود دارد. روش‌ها را می‌توان به ۳ دستهٔ زیر تقسیم کرد:

روش‌های مبتنی بر فاصله مانند روش UPGMA و اتصال هم‌سایگی
روش‌های مبتنی بر بیشینه صرفه‌جویی
روش‌های مبتنی بر درست‌نمایی بیشینه

یکی از مدل‌های پرکابرد برای استفاده از درست‌نمایی بیشینه استفاده از مدل مارکوف در تغییر جایگاه‌های توالی در طول زمان است.[2] مدل‌های تکاملی دی‌ان‌ای توضیح دهندهٔ وضعیت تکاملی دی‌ان‌ای به عنوان رشته‌ای شامل ۴ حرف هستند. مدل‌های مارکوف به‌طور دقیق نحوهٔ ایجاد جهش یا عمل انتخاب طبیعی را توضیح نمی‌دهند، بلکه نرخ نسبتی جهش‌ها را در رشتهٔ دی‌ان‌ای مدل می‌کنند. به‌طور مثال در تغییرات توالی‌ها، نابرابری احتمال جهش‌ها و احتمال از بین رفتن اللهای ناسازگار با محیط، مسئول نرخ بالای جایگزینی انتقالی نسبت به تراگشت در رشته‌های در حال تغییر هستند. در حالی که در مدل Kimura80 که در ادامه توضیح داده شده‌است، تأثیر احتمال نابرابر جهش‌ها و احتمال از بین رفتن الل‌های ناسازگار با محیط تنها در پارامتری در نظر گرفته شده‌است که نرخ نسبی جایگزینی انتقالی را به تراگشت مدل می‌کند.

تحلیل‌های تکاملی توالی‌ها برای مقیاس‌های زمانی مختلفی انجام شده‌است، از این رو بیان مدل‌ها به کمک نرخ لحظه‌ای تغییر وضعیت جایگاه‌های توالی قابل قبول است. ماتریس Q که در ادامه آورده شده‌است، نشان دهندهٔ این نرخ تغییر در میان وضعیت‌های تعریف‌شده در مسئله است. در صورتی که بدانیم که وضعیت شروع در یک جایگاه از توالی کدام است (وضعیت هر جایگاه برای یک توالی از دی‌ان‌ای نوع نوکلئوتید موجود در آن جایگاه است)، آن‌گاه می‌توان به کمک ماتریس Q در مدل و فاصلهٔ زمانی میان جد و فرزند، احتمال تعداد تغییرها و احتمال رسیدن به هر کدام از وضعیت‌های تعریف‌شده را استخراج کرد. جزییات مربوط به رسیدن از ماتریس نرخ به ماتریس احتمال در مدل‌های ریاضیاتی جانشینی توضیح داده می‌شود. در نظر گرفتن نرخ آنی در مدل، باعث بی‌نیازی آن از محاسبهٔ پارامترهای سطوح درخت فیلوژنی به صورت جداگانه برای هر سطح می‌شود، زیرا احتمال رسیدن از حالت ابتدایی به حالت انتهایی به صورت مستقیم محاسبه می‌گردد.

مدل‌های شرح داده شده در این صفحه، تغییرات یک حرف از مجموعه‌ای از حروف را نشان می‌دهند. در چنین مدل‌هایی برای تحلیل تغییرات کل توالی با فرض این که رشته شامل متغیرهای تصادفی مستقل با توزیع یکسان است، هر حرف مستقل از سایر حروف رشته تحلیل می‌شود. فرض استقلال را می‌توان با در نظر گرفتن فرضیهٔ تأثیرناپذیری هر حرف از سایر حروف در تکامل رشته‌ها، توجیه کرد. در صورتی که تأثیر اولیهٔ انتخاب طبیعی بر روی تغییرات توالی باعث محدود کردن برخی جایگاه‌های خاص در توالی شود، می‌توان از مدل‌های دیگری استفاده کرد که نرخ نسبی جایگزینی هر حرف نسبت به حروف دیگر را محاسبه کرده و با استفاده از پارامترهای دیگری در مدل، واریانس تغییرات نرخ‌های جایگزینی را کنترل می‌کند.

زنجیره‌های مارکوف پیوسته زمان

زنجیره‌های مارکوف پیوسته زمان دارای ماتریس انتقال با پارامتر t هستند. اگر $E_{1},E_{2},E_{3},E_{4}$ نمایندهٔ وضعیت‌ها در مدل باشند، آنگاه ماتریس انتقال میان وضعیت‌های مسئله به شکل $P(t)=P_{ij}(t)$ است که در آن هر مؤلفه $P_{ij}(t)$ نشان‌دهندهٔ احتمال تغییر وضعیت $E_{i}$ به وضعیت $E_{j}$ در زمان $t$ است.

مثال: می‌خواهیم فرایند جایگزینی را در توالی دی‌ان‌ای به صورت پیوسته زمان مدل کنیم (مثلاً Jukes-Cantor, Kimura و غیره). ماتریس انتقال مربوط به آن به شکل زیر خواهد بود:

${\displaystyle P(t)={\begin{pmatrix}p_{AA}(t)&p_{GA}(t)&p_{CA}(t)&p_{TA}(t)\\p_{AG}(t)&p_{GG}(t)&p_{CG}(t)&p_{TG}(t)\\p_{AC}(t)&p_{GC}(t)&p_{CC}(t)&p_{TC}(t)\\p_{AT}(t)&p_{GT}(t)&p_{CT}(t)&p_{TT}(t)\end{pmatrix}}}$

که در آن بلوک‌های ۲ × ۲ بالا-چپ و پایین-راست، مربوط به احتمال جایگزینی انتقالی و بلوک‌های ۲ × ۲ بالا-راست و پایین-چپ مربوط به احتمال‌های تراگشت هستند.

فرض: اگر در لحظهٔ $t_{0}$ زنجیرهٔ مارکوف در وضعیت $E_{i}$ باشد، آن‌گاه احتمال آن‌که در لحظهٔ $t_{0}+t$ در وضعیت $E_{j}$ باشیم وابسته به مقادیر $E_{j}$ و $t$ و $E_{j}$ است، بنابراین می‌توانیم این احتمال را به شکل $p_{ij}(t)$ بنویسیم.

قضیه: ماتریس انتقال پیوسته زمان دارای خاصیت زیر است:

$P(t+\tau )=P(t)P(\tau )\$

توجه داشته باشید: ممکن است بین دو معنی کلمهٔ انتقال اشتباه به وجود بیاید. (i) در زمینهٔ زنجیرهٔ مارکوف، انتقال به معنی جابه‌جایی میان دو وضعیت است. (ii) در زمینهٔ تغییر در نوکلئوتیدها در توالی دی‌ان‌ای، جایگزینی انتقالی به معنی جابه‌جایی میان دو پورین (A↔G) یا میان دو پیریمیدین (C↔T) است (برای اطلاعات بیش‌تر به صفحهٔ جایگزینی انتقالی مراجعه کنید). جابه‌جایی میان یک پورین و یک پیریمیدین تراگشت نامیده می‌شود.

استخراج پویایی در جانشینی

توالی دی‌ان‌ای با طول ثابت m را در نظر بگیرید که با جانشینی بازها در طول زمان تغییر پیدا می‌کند. فرض کنید که فرایندهای انجام شده روی m مکان در توالی به صورت مارکوفی مستقل و دارای توزیع یکسان باشند. برای هر مکان مشخص داریم:

{\mathbf {P} }(t)=(p_{A}(t),\ p_{G}(t),\ p_{C}(t),\ p_{T}(t))^{T}

که $P(t)$ ماتریس احتمال وضعیت‌های $A,G,C,T$ در زمان $t$ هستند. از طرف دیگر مجموعهٔ وضعیت‌های مسئله به شکل زیر است:

{\mathcal {E}}=\{A,\ G,\ C,\ T\}

فرض کنید برای دو وضعیت مجزای $x,y\in {\mathcal {E}}$ در توالی مقدار $\mu _{xy}$ نشان‌دهندهٔ نرخ انتقال میان وضعیت $x$ به وضعیت $y$ باشد. به‌طور مشابه برای هر $x$ داریم:

$\mu _{x}=\sum _{y\neq x}\mu _{xy}$

تغییرات در توضیح احتمال ${\displaystyle p_{A}(t)\ }$ وقتی که زمان به اندازهٔ ${\displaystyle \Delta t\ }$ زیاد می‌شود به شکل زیر است ( ${\displaystyle \Delta t\ }$ مقدار کوچکی است):

p_{A}(t+\Delta t)=p_{A}(t)-p_{A}(t)\mu _{A}\Delta t+\sum _{x\neq A}p_{x}(t)\mu _{xA}\Delta t

به عبارت دیگر، در دیدگاه فراوانی گرایانه، فراوانی وضعیت $A$ در زمان $t+\Delta t\$ برابر فراوانی در زمان $t$ منهای تعداد حالت‌هایی است که از وضعیت $A$ تغییر کرده‌اند، به اضافهٔ تعداد حالت‌هایی است که به $A$ تغییر وضعیت داده‌اند.

به‌طور مشابه، عبارت‌های پیشین برای احتمال‌های $p_{G}(t),\ p_{C}(t),p_{T}(t)$ برقرار است. می‌توانیم به‌طور فشرده بنویسیم:

${\mathbf {P} }(t+\Delta t)={\mathbf {P} }(t)+Q{\mathbf {P} }(t)\Delta t$

که در آن:

Q={\begin{pmatrix}-\mu _{A}&\mu _{GA}&\mu _{CA}&\mu _{TA}\\\mu _{AG}&-\mu _{G}&\mu _{CG}&\mu _{TG}\\\mu _{AC}&\mu _{GC}&-\mu _{C}&\mu _{TC}\\\mu _{AT}&\mu _{GT}&\mu _{CT}&-\mu _{T}\end{pmatrix}}

یا به‌طور مشابه:

${\mathbf {P} }'(t)=Q{\mathbf {P} }(t)$

که در آن $Q$ ماتریس نرخ است. توجه داشته باشید که در تعریف، جمع ستون‌های ماتریس $Q$ برابر صفر است. برای یک فرایند مانا که $Q$ به زمان وابسته نیست، معادلات تفاضلی به کمک ماتریس توان قابل حل است:

P(t)=\exp(Qt)

{\mathbf {P} }(t)=P(t){\mathbf {P} }(0)=\exp(Qt){\mathbf {P} }(0)\,.

ارگادیسیتی

اگر تمام احتمال انتقال‌ها مثبت باشد، ${\displaystyle \mu _{xy}\ }$ ، به این معنی که تمام وضعیت‌های $x,y\in {\mathcal {E}}\$ با هم قابل جابه‌جا شدن باشند، آن‌گاه زنجیرهٔ مارکوف، دارای یک توزیع مانای یکتای ${\mathbf {\Pi } }=\{\pi _{x},\ x\in {\mathcal {E}}\}$ است که هر ${\displaystyle \pi _{x}\ }$ نسبت زمانی است که بعد از اجرای مارکوف تا زمان بی‌نهایت در وضعیت $x$ گذرانده شده‌است. چنین زنجیرهٔ مارکوفی ارگادیک نامیده می‌شود. در تکامل دی‌ان‌ای، با فرض فرایندهای مشابه برای هر مکان، فراوانی‌های مانای، $\pi _{A},\pi _{G},\pi _{C},\pi _{T}\$ ، به عنوان نقطهٔ تعادل هر وضعیت در نظر گرفته شده‌است.

زمانی که توزیع کنونی ${\mathbf {P} }(t)$ همان توزیع ایستا $\mathbf {\Pi }$ باشد، آن‌گاه می‌توان گفت $Q{\mathbf {\Pi } }=0$ ، به کمک معادلات دیفرانسیل بالا داریم:

$Q{\mathbf {\Pi } }=Q{\mathbf {P} }(t)={\frac {d{\mathbf {P} }(t)}{dt}}=0\,.$

بازگشت‌پذیری در زمان

تعریف: یک فرایند مارکوف بازگشت‌پذیر در زمان است اگر در وضعیت پایدار، احتمال تغییر وضعیت از $x$ به $y$ برابر با احتمال تغییر وضعیت از $y$ به $x$ باشد (هرچند که احتمال حضور در هرکدام از وضعیت با یک‌دیگر متفاوت باشند). بنابراین خواهیم داشت:

\pi _{x}\mu _{xy}=\pi _{y}\mu _{yx}\

تمام فرایندهای ایستا بازگشت‌پذیر نیستند، هرچند تقریباً تمام مدل‌های تحولی دی‌ان‌ای فرض بازگشت‌پذیری در زمان را در نظر می‌گیرند (و این فرض، فرضی منطقی و متناسب با مسئله است). بر اساس فرض بازگشت‌پذیری در زمان متغیر جدید $s_{xy}=\mu _{xy}/\pi _{y}\$ تعریف می‌شود؛ بنابراین به راحتی می‌توان مشاهده کرد که:

s_{xy}=s_{yx}\

تعریف: متغیر متقارن $s_{xy}\$ جابه‌جایی‌پذیری میان وضعیت‌های $x$ و $y$ نامیده می‌شود. به معنای دیگر $s_{xy}\$ نسبت حالت‌هایی از $x$ که از طریق $y$ به $x$ رفته‌اند.

نتیجه: ۱۲ درایهٔ خارج از قطر ماتریس تغییر وضعیت ( $Q$ ) می‌تواند توسط ۹ عدد مشخص شوند که ۶تای آن‌ها توسط متغیر جابه‌جایی پذیری و ۳تای دیگر توسط فراوانی ایستای ${\displaystyle \pi _{x}\ }$ مشخص می‌شود. توجه داشته باشید که مجموع تکرارهای ایستا برابر ۱ بوده و مجموع هر سطر از $Q$ برابر ۱ است.

مقیاس‌گذاری طول شاخه‌ها

با مقایسهٔ توالی‌های موجود، می‌توان واگرایی توالی‌ها را مشخص کرد. منظور از واگرایی میزان تفاوت توالی‌های مورد آزمایش است. اندازه‌گیری واگرایی، اطلاعاتی را دربارهٔ تعداد تغییراتی که در طول مسیر جدایی توالی‌ها به‌وجود آمده‌است، به ما می‌دهد. با شمارش سادهٔ تعداد اختلاف‌ها (فاصلهٔ همینگ) میان توالی‌ها، معمولاً تعداد جایگزینی‌های موجود در توالی کم‌تر از مقدار واقعی تخمین زده می‌شود. تخمین دقیق تعداد تغییرات صورت گرفته مشکل بوده و معمولاً ضروری نیست. به جای این محاسبه، طول مسیرهای روی درخت فیلوژنی به عنوان میانگین تعداد تغییرات در هر بخش از توالی در نظر گرفته می‌شود. طول مسیر برابر حاصلضرب زمان مسیر در میانگین نرخ جانشینی است. هرچند که این حاصل‌ضرب قابل تخمین است، اما با مشخص بودن واگرایی توالی‌ها، نرخ تغییر و زمان مسیر به‌طور مستقل قابل اندازه‌گیری نبوده و تنها حاصل‌ضرب آن‌ها مشخص است.

تعریف صورت گرفته از ماتریس نرخ جهش ( $Q$ ) در این صفحه مقدار نسبی جانشینی‌ها را مشخص می‌کند، اما این ماتریس طوری مقیاس‌گذاری نشده‌است که شاخه‌ای با طول ۱ به‌طور میانگین دارای یک تغییر باشد. این تغییر مقیاس می‌تواند با تغییر مقیاس ماتریس توسط طول شاخهٔ درخت صورت بگیرد. اگر β نشان‌دهندهٔ فاکتور مقیاس و ν نشان‌دهندهٔ طول شاخه باشد (که از طریق میانگین تعداد جایگزینی‌ها در هر نقطه از توالی اندازه‌گیری می‌شود)، آن‌گاه βν در فرمول‌های احتمالی انتقال، به جای μt استفاده می‌شود. قابل توجه است که ν پارامتری است که از داده‌ها تخمین زده می‌شود و به عنوان طول شاخه در نظر گرفته می‌شود، و β عددی است که از طریق ماتریس نرخ جهش محاسبه شده و یک پارامتر جداگانه نیست.

مقدار پارامتر β می‌تواند با گذاشتن این شرط که میانگین نرخ شار هر وضعیت برابر ۱ باشد، به دست بیاید. مقادیر روی قطر ماتریس نرخ (ماتریس Q)، برابر حاصل‌ضرب مقدار ۱- در نرخ خروج از وضعیت است. برای مدل‌های برگشت‌پذیر در زمان، نقطهٔ تعادل وضعیت‌های تعریف شده را (که برای وضعیت i همان $\pi _{i}$ است) می‌دانیم؛ بنابراین می‌توان متوسط نرخ تغییر را با محاسبهٔ جمع حالت‌های خارج شده از هر وضعیت با وزنی متناسب با تعداد مکان‌هایی که به‌طور متوسط انتظار می‌رود در هر کلاس باشد، محاسبه کنیم. در این محاسبات β را به شکل زیر تعریف می‌کنیم:

\beta =1/\left(-\sum _{i}\pi _{i}\mu _{ii}\right)

به‌طور مثال در مدل Jukes-Cantor پارامتر مقیاس‌گذاری برابر 4/(3μ) است زیرا نرخ خروج از هر وضعیت برابر 3μ/4 است.

مدل (JC69 (Jukes and Cantor, 1969[3]

مدل JC69 ساده‌ترین مدل جانشینی موجود است. از جمله فرض‌های این مدل برابری تعداد تکرار هر کدام از بازهای موجود در توالی دی‌ان‌ای $\left(\pi _{A}=\pi _{G}=\pi _{C}=\pi _{T}={1 \over 4}\right)$ و برابری نرخ جهش در تمام آن‌ها است؛ بنابراین تنها پارامتری که در این مدل استفاده می‌شود $\mu$ است که برابر نرخ کلی جانشینی در این مدل است. همان‌طور که پیش از گفته شد، این متغیر در زمان تغییر میانگین نرخ به ۱، به عدد ثابت تبدیل می‌شود.

Q={\begin{pmatrix}{*}&{\mu  \over 4}&{\mu  \over 4}&{\mu  \over 4}\\{\mu  \over 4}&{*}&{\mu  \over 4}&{\mu  \over 4}\\{\mu  \over 4}&{\mu  \over 4}&{*}&{\mu  \over 4}\\{\mu  \over 4}&{\mu  \over 4}&{\mu  \over 4}&{*}\end{pmatrix}}

احتمال P_{ij} تغییر از وضعیت ابتدایی i به وضعیت نهایی j به عنوان تابعی از طول شاخه (\nu) در مدل JC69. منحنی قرمز: نوکلئوتید i و j متفاوت هستند. منحنی آبی: وضعیت ابتدایی و نهایی یکسان هستند. بعد از مدت طولانی‌ای، احتمال رسیدن به نقطهٔ تعادل تعداد نوکلئوتیدها با هم برابر است (۰٫۲۵).

P={\begin{pmatrix}{{1 \over 4}+{3 \over 4}e^{-t\mu }}&{{1 \over 4}-{1 \over 4}e^{-t\mu }}&{{1 \over 4}-{1 \over 4}e^{-t\mu }}&{{1 \over 4}-{1 \over 4}e^{-t\mu }}\\\\{{1 \over 4}-{1 \over 4}e^{-t\mu }}&{{1 \over 4}+{3 \over 4}e^{-t\mu }}&{{1 \over 4}-{1 \over 4}e^{-t\mu }}&{{1 \over 4}-{1 \over 4}e^{-t\mu }}\\\\{{1 \over 4}-{1 \over 4}e^{-t\mu }}&{{1 \over 4}-{1 \over 4}e^{-t\mu }}&{{1 \over 4}+{3 \over 4}e^{-t\mu }}&{{1 \over 4}-{1 \over 4}e^{-t\mu }}\\\\{{1 \over 4}-{1 \over 4}e^{-t\mu }}&{{1 \over 4}-{1 \over 4}e^{-t\mu }}&{{1 \over 4}-{1 \over 4}e^{-t\mu }}&{{1 \over 4}+{3 \over 4}e^{-t\mu }}\end{pmatrix}}

زمانی که طول شاخه، $\nu$ ، بر اساس متوسط تعداد تغییرات در هر نقطه از توالی اندازه‌گیری می‌شود، داریم:

P_{ij}(\nu )=\left\{{\begin{array}{cc}{1 \over 4}+{3 \over 4}e^{-4\nu /3}&{\mbox{ if }}i=j\\{1 \over 4}-{1 \over 4}e^{-4\nu /3}&{\mbox{ if }}i\neq j\end{array}}\right.

لازم است ذکر شود که:

${\displaystyle \nu ={3 \over 4}t\mu =({\mu \over 4}+{\mu \over 4}+{\mu \over 4})t}$

که از جمع هر سطر یا ستون ماتریس Q ضرب در زمان به دست آمده به معنی متوسط تعداد جایگزینی در زمان t (طول شاخه) برای هر جایگاه در توالی در زمانی است که نرخ جانشینی برابر $\mu$ باشد.

در صورتی که نسبت p از تغییرات میان دو توالی در یک حرف داده شده باشد، مدل Jukes-Cantor فاصلهٔ تکاملی میان دو رشته را، بر اساس متوسط تعداد تغییرات، به شکل زیر محاسبه می‌کند.

{\hat {d}}=-{3 \over 4}\ln({1-{4 \over 3}p})={\hat {\nu }}

متغیر p نشان‌دهندهٔ تعداد جابه‌جایی است که با عنوان فاصلهٔ p شناخته شده و یک آمارهٔ بسنده برای محاسبات در مدل Jukes-Cantor است.

مدل (K80 (Kimura, 1980[4]

مدل k80 تفاوت را میان جایگزینی‌های انتقالی (پورین به پورین یا پیریمیدین به پیریمیدین) و تراگشت (از یک پورین به یک پیریمیدین یا برعکس) مدل می‌کند. در توضیح اصلی کیمورا دربارهٔ مدل، α و β برای نشان دادن نرخ جانشینی‌های مختلف استفاده شده‌اند، اما در حال حاضر، معمولاً نرخ تراگشت برابر ۱ قرار داده شده و از κ به عنوان نسبت جایگزینی انتقالی به تراگشت استفاده می‌شود. در مدل K80 فرض می‌شود که تمام حالت‌های پایه دارای احتمال برابر هستند (πT=πC=πA=πG=۰٫۲۵).

$Q={\begin{pmatrix}{*}&{\kappa }&{1}&{1}\\{\kappa }&{*}&{1}&{1}\\{1}&{1}&{*}&{\kappa }\\{1}&{1}&{\kappa }&{*}\end{pmatrix}}$

پارامترهای مدل کیمورا به شکل زیر هستند:

${\displaystyle K=-{1 \over 2}\ln((1-2p-q){\sqrt {1-2q}})}$

که در آن p درصد تعداد حروفی در توالی است که جایگشت انتقالی رخ داده و q درصد تعداد جایگاه‌هایی است که تراگشت رخ داده است.

مدل (F81 (Felsenstein 1981[5]

این مدل در واقع گسترش‌یافتهٔ مدل JC69 است به‌طوری‌که احتمال‌های پایهٔ میان بازهای موجود در توالی می‌توانند با هم برابر نباشند $\pi _{T}\neq \pi _{C}\neq \pi _{A}\neq \pi _{G}$

ماتریس نرخ به شکل زیر است:

$Q={\begin{pmatrix}{*}&{\pi _{C}}&{\pi _{A}}&{\pi _{G}}\\{\pi _{T}}&{*}&{\pi _{A}}&{\pi _{G}}\\{\pi _{T}}&{\pi _{C}}&{*}&{\pi _{G}}\\{\pi _{T}}&{\pi _{C}}&{\pi _{A}}&{*}\end{pmatrix}}$

هنگامی که طول شاخه، ν، بر اساس متوسط تعداد تغییرات در هر مکان از توالی اندازه‌گیری می‌شود، داریم:

$\beta =1/(1-\pi _{A}^{2}-\pi _{C}^{2}-\pi _{G}^{2}-\pi _{T}^{2})$

$P_{ij}(\nu )=\left\{{\begin{array}{cc}e^{-\beta \nu }+\pi _{j}\left(1-e^{-\beta \nu }\right)&{\mbox{ if}}i=j\\\pi _{j}\left(1-e^{-\beta \nu }\right)&{\mbox{ if}}i\neq j\end{array}}\right.$

مدل (HKY85 (Hasegawa, Kishino and Yano 1985[6]

این مدل را می‌توان به عنوان تلفیقی از مدل‌های گسترش‌یافتهٔ Kimura80 و Felsentein81 در نظر گرفت. مدل HKY85 میان نرخ جایگزینی انتقالی و تراگشت با کمک پارامتر κ تفاوت قایل می‌شود و از سوی دیگر اجازه می‌دهد تا فراوانی پایهٔ میان بازهای مختلف متفاوت باشد $({\displaystyle \pi _{T}\neq \pi _{C}\neq \pi _{A}\neq \pi _{G}})$ [مدل F84 در سال ۱۹۸۴ با پارامترهای دیگری با در نظر گرفتن عدم برابر احتمال‌های پایه توسط Felsenstein ارائه شد[7][8]]. ماتریس نرخ تغییرات در این مدل به شکل زیر است:

$Q={\begin{pmatrix}{*}&{\kappa \pi _{C}}&{\pi _{A}}&{\pi _{G}}\\{\kappa \pi _{T}}&{*}&{\pi _{A}}&{\pi _{G}}\\{\pi _{T}}&{\pi _{C}}&{*}&{\kappa \pi _{G}}\\{\pi _{T}}&{\pi _{C}}&{\kappa \pi _{A}}&{*}\end{pmatrix}}$

در صورتی که طول شاخه، ν، را با کمک متوسط تعداد تغییرات صورت گرفته در هر حرف از توالی بیان کنیم داریم:

$\beta ={\frac {1}{2(\pi _{A}+\pi _{G})(\pi _{C}+\pi _{T})+2\kappa [(\pi _{A}\pi _{G})+(\pi _{C}\pi _{T})]}}$

$P_{AA}(\nu ,\kappa ,\pi )=\left[\pi _{A}\left(\pi _{A}+\pi _{G}+(\pi _{C}+\pi _{T})e^{-\beta \nu }\right)+\pi _{G}e^{-(1+(\pi _{A}+\pi _{G})(\kappa -1.0))\beta \nu }\right]/(\pi _{A}+\pi _{G})$

$P_{AC}(\nu ,\kappa ,\pi )=\pi _{C}\left(1.0-e^{-\beta \nu }\right)$

$P_{AG}(\nu ,\kappa ,\pi )=\left[\pi _{G}\left(\pi _{A}+\pi _{G}+(\pi _{C}+\pi _{T})e^{-\beta \nu }\right)-\pi _{G}e^{-(1+(\pi _{A}+\pi _{G})(\kappa -1.0))\beta \nu }\right]/\left(\pi _{A}+\pi _{G}\right)$

$P_{AT}(\nu ,\kappa ,\pi )=\pi _{T}\left(1.0-e^{-\beta \nu }\right)$

و فرمول برای سایر حالت‌های ممکن از وضعیت‌ها را می‌توان با جایگزینی احتمال مناسب به دست آورد.

مدل (T92 (Tamura 1992[9]

T92 یک مدل سادهٔ ریاضیاتی برای تخمین تعداد جانشینی‌های نوکلئوتیدها در هر مکان توالی میان دو توالی دی‌ان‌ای با گسترش مدل Kimura80 بوده، به‌طوری‌که نسبت به پیوند G+C متمایل است. این روش زمانی کاربردی است که جایگزینی انتقالی-تراگشت بالایی وجود داشته و نسبت به G+C متمایل باشد مانند حالتی که در دی‌ان‌ای میتوکندری مگس سرکه اتفاق می‌افتد.

با داشتن مقدار $\pi _{GC}$ داریم:

$\pi _{G}=\pi _{C}={\pi _{GC} \over 2}$

$\pi _{A}=\pi _{T}={(1-\pi _{GC}) \over 2}$

ماتریس تغییرات بازها به شکل زیر است:

$Q={\begin{pmatrix}{*}&{\kappa (1-\pi _{GC})/2}&{(1-\pi _{GC})/2}&{(1-\pi _{GC})/2}\\{\kappa \pi _{GC}/2}&{*}&{\pi _{GC}/2}&{\pi _{GC}/2}\\{(1-\pi _{GC})/2}&{(1-\pi _{GC})/2}&{*}&{\kappa (1-\pi _{GC})/2}\\{\pi _{GC}/2}&{\pi _{GC}/2}&{\kappa \pi _{GC}/2}&{*}\end{pmatrix}}$

فاصلهٔ تکاملی میان دو رشتهٔ بی‌رمز بر اساس این مدل به شکل زیر است:

$d=-h\ln(1-{p \over h}-q)-{1 \over 2}(1-h)\ln(1-2q)$

که در آن $h=2\theta (1-\theta )$ و ${\displaystyle \theta \in (0,1)}$ محتوای GC است.

مدل (TN93 (Tamura and Nei 1993[10]

این مدل تفاوت میان دو حالت جایگزینی انتقالی را در نظر می‌گیرید، به این معنی که (A <-> G) می‌تواند نرخ متفاوتی نسبت به (C<->T) داشته باشد، اما تراگشت‌ها دارای نرخ برابر هستند (هرچند نرخ تراگشت می‌تواند عددی متفاوت از نرخ‌های جایگزینی انتقالی باشد).

در این مدل، احتمال هرکدام از پایه‌ها می‌توانند متفاوت باشند $(\pi _{T}\neq \pi _{C}\neq \pi _{A}\neq \pi _{G})$ .

${\displaystyle Q={\begin{pmatrix}{*}&{\kappa _{1}\pi _{C}}&{\pi _{A}}&{\pi _{G}}\\{\kappa _{1}\pi _{T}}&{*}&{\pi _{A}}&{\pi _{G}}\\{\pi _{T}}&{\pi _{C}}&{*}&{\kappa _{2}\pi _{G}}\\{\pi _{T}}&{\pi _{C}}&{\kappa _{2}\pi _{A}}&{*}\end{pmatrix}}}$

GTR: مدل تعمیم‌یافته و بازگشت‌پذیر در زمان (Tavaré 1986)[11]

این مدل، بی‌طرف‌ترین مدل با استقلال میان حروف و نواحی محدود است که اجازهٔ برگشت‌پذیری در مدل وجود دارد. مدل برای اولین بار توسط Simon Tavaré در سال ۱۹۸۶ توضیح داده شد.[11]

پارامترهای مدل GTR شامل برداری از احتمالات پایدار برای پایه‌های مختلف به شکل $\pi _{GC}$ است. ماتریس ارتباط میان وضعیت‌های حروف توالی به شکل زیر است:

$Q={\begin{pmatrix}{-(\alpha \pi _{C}+\beta \pi _{A}+\gamma \pi _{G})}&{\alpha \pi _{C}}&{\beta \pi _{A}}&{\gamma \pi _{G}}\\{\alpha \pi _{T}}&{-(\alpha \pi _{T}+\delta \pi _{A}+\epsilon \pi _{G})}&{\delta \pi _{A}}&{\epsilon \pi _{G}}\\{\beta \pi _{T}}&{\delta \pi _{C}}&{-(\beta \pi _{T}+\delta \pi _{C}+\eta \pi _{G})}&{\eta \pi _{G}}\\{\gamma \pi _{T}}&{\epsilon \pi _{C}}&{\eta \pi _{A}}&{-(\gamma \pi _{T}+\epsilon \pi _{C}+\eta \pi _{A})}\end{pmatrix}}$

که در آن

${\begin{aligned}\alpha =r(T\rightarrow C)=r(C\rightarrow T)\\\beta =r(T\rightarrow A)=r(A\rightarrow T)\\\gamma =r(T\rightarrow G)=r(G\rightarrow T)\\\delta =r(C\rightarrow A)=r(A\rightarrow C)\\\epsilon =r(C\rightarrow G)=r(G\rightarrow C)\\\eta =r(A\rightarrow G)=r(G\rightarrow A)\end{aligned}}$

پارامترهای بالا پارامترهای جایگزینی انتقالی هستند.

بنابراین، GTR نیازمند ۶ پارامتر جانشینی است بوده و ۴ پارامتر برای مقادیر تعادل نهایی است. با توجه به روابط میان پارامترها، تعداد پارامترها می‌تواند به ۹ پارامتر به اضافهٔ پارامتر $\mu$ (تعداد جانشینی‌ها در واحد زمان) کاهش پیدا کند.

به‌طور کلی برای محاسبهٔ تعداد پارامترها، باید تعداد درایه‌های بالای قطر اصلی در ماتریس را شمارش کنیم، به‌طور مثال برای $n$ وضعیت ممکن در یک مکان از توالی ${\displaystyle {{n^{2}-n} \over 2}}$ و سپس $n$ وضعیت برای نقاط تعادل اضافه شده و چون $\mu$ ثابت در نظر گرفته می‌شود، یکی از این تعداد کم می‌شود.

{{n^{2}-n} \over 2}+n-1={1 \over 2}n^{2}+{1 \over 2}n-1.

برای مثال برای توالی‌های امینواسیدها (۲۰ نوع امینواسید استاندارد وجود دارد که پروتئین‌ها را تشکیل می‌دهند)، در این مدل ۲۰۹ پارامتر وجود دارد. در هنگام مطالعهٔ نواحی رمزشده، معمولاً از مدل جانشینی کدون استفاده می‌شود (هر رمز ژنتیکی یک توالی ۳تایی از حروف پایهٔ دی‌ان‌ای است که یک امینواسید را در پروتئین نشان می‌دهد). $4^{3}=64$ کدون وجود دارد، اما نرخ جانشینی میان کدون‌هایی که در بیش از یک حرف با هم تفاوت دارند، صفر در نظر گرفته می‌شود، بنابراین ${{20\times 19\times 3} \over 2}+64-1=633$ پارامتر در مدل وجود دارد.

جستارهای وابسته

منابع

«Models of sequence evolution for DNA sequences containing gaps». Molecular Biology and Evolution. SMBE. 2001. دریافت‌شده در 12/30/2016. تاریخ وارد شده در |تاریخ دسترسی= را بررسی کنید (کمک)
T. P. Speed, K. J. Kechris, And S. K. Mcweeney. "Molecular Evolution, Substitution Models, and Phylogenies" (PDF).
Munro, H. N. (2013-09-24). Mammalian Protein Metabolism. Elsevier. ISBN 9781483272900.
Kimura M (1980). "A simple method for estimating evolutionary rates of base substitutions through comparative studies of nucleotide sequences". Journal of Molecular Evolution. 16 (2): 111–120. doi:10.1007/BF01731581. PMID 7463489.
Felsenstein J (1981). "Evolutionary trees from DNA sequences: a maximum likelihood approach". Journal of Molecular Evolution. 17 (6): 368–376. doi:10.1007/BF01734359. PMID 7288891.
"Dating of human-ape splitting by a molecular clock of mitochondrial DNA". Journal of Molecular Evolution. 22 (2): 160–174. 1985. doi:10.1007/BF02101694. PMID 3934395.
"Evaluation of the maximum likelihood estimate of the evolutionary tree topologies from DNA sequence data, and the branching order in hominoidea". Journal of Molecular Evolution. 29 (2): 170–179. 1989. doi:10.1007/BF02100115. PMID 2509717.
"A Hidden Markov Model approach to variation among sites in rate of evolution, and the branching order in hominoidea". Molecular Biology and Evolution. 13 (1): 93–104. 1996. doi:10.1093/oxfordjournals.molbev.a025575. PMID 8583911.
Tamura K (1992). "Estimation of the number of nucleotide substitutions when there are strong transition-transversion and G+C content biases". Molecular Biology and Evolution. 9 (4): 678–687. PMID 1630306.
"Estimation of the number of nucleotide substitutions in the control region of mitochondrial DNA in humans and chimpanzees". Molecular Biology and Evolution. 10 (3): 512–526. 1993. PMID 8336541.
Tavaré S (1986). "Some Probabilistic and Statistical Problems in the Analysis of DNA Sequences" (PDF). Lectures on Mathematics in the Life Sciences. American Mathematical Society. 17: 57–86.

پیوند به بیرون

DAWG: DNA مجمع با شکاف — رایگان نرم‌افزار برای شبیه‌سازی توالی، تکامل،

This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.

[1] «Models of sequence evolution for DNA sequences containing gaps». Molecular Biology and Evolution. SMBE. 2001. دریافت‌شده در 12/30/2016. تاریخ وارد شده در |تاریخ دسترسی= را بررسی کنید (کمک)

[2] T. P. Speed, K. J. Kechris, And S. K. Mcweeney. "Molecular Evolution, Substitution Models, and Phylogenies" (PDF).

[3] Munro, H. N. (2013-09-24). Mammalian Protein Metabolism. Elsevier. ISBN 9781483272900.

[4] Kimura M (1980). "A simple method for estimating evolutionary rates of base substitutions through comparative studies of nucleotide sequences". Journal of Molecular Evolution. 16 (2): 111–120. doi:10.1007/BF01731581. PMID 7463489.

[5] Felsenstein J (1981). "Evolutionary trees from DNA sequences: a maximum likelihood approach". Journal of Molecular Evolution. 17 (6): 368–376. doi:10.1007/BF01734359. PMID 7288891.

[6] "Dating of human-ape splitting by a molecular clock of mitochondrial DNA". Journal of Molecular Evolution. 22 (2): 160–174. 1985. doi:10.1007/BF02101694. PMID 3934395.

[7] "Evaluation of the maximum likelihood estimate of the evolutionary tree topologies from DNA sequence data, and the branching order in hominoidea". Journal of Molecular Evolution. 29 (2): 170–179. 1989. doi:10.1007/BF02100115. PMID 2509717.

[8] "A Hidden Markov Model approach to variation among sites in rate of evolution, and the branching order in hominoidea". Molecular Biology and Evolution. 13 (1): 93–104. 1996. doi:10.1093/oxfordjournals.molbev.a025575. PMID 8583911.

[9] Tamura K (1992). "Estimation of the number of nucleotide substitutions when there are strong transition-transversion and G+C content biases". Molecular Biology and Evolution. 9 (4): 678–687. PMID 1630306.

[10] "Estimation of the number of nucleotide substitutions in the control region of mitochondrial DNA in humans and chimpanzees". Molecular Biology and Evolution. 10 (3): 512–526. 1993. PMID 8336541.

[Tavare1986-11] Tavaré S (1986). "Some Probabilistic and Statistical Problems in the Analysis of DNA Sequences" (PDF). Lectures on Mathematics in the Life Sciences. American Mathematical Society. 17: 57–86.

زیست شناسی تکاملی
تاریخ فرگشتی حیات Index of evolutionary biology articles مقدمه‌ای بر فرگشت Outline of evolution سیر زمانی تاریخ فرگشتی حیات
فرگشت	پیدایش حیات سازگاری Adaptive radiation شاخه‌بندی هم‌فرگشتی نسب مشترک فرگشت هم‌گرا فرگشت واگرا Earliest known life forms شواهد تبار مشترک انقراض رویداد انقراض Gene-centered view هم‌ساخت‌شناسی جهان‌نیای پایانی فرگشت کلان فرگشت خرد پیدایش حیات پان‌اسپرمیا فرگشت موازی گونه‌زایی Taxonomy
ژنتیک جمعیت	تنوع زیستی شارش ژن رانش ژن جهش انتخاب طبیعی تنوع ژنتیکی گونه‌ها
تکوین	Canalisation Evolutionary developmental biology Inversion Modularity Phenotypic plasticity
آرایه	فرگشت پرندگان origin Brachiopods فرگشت نرم‌تنان Cephalopods فرگشت دایناسورها تکامل ماهی فرگشت قارچ‌ها فرگشت حشرات تکامل پروانه ها تاریخ فرگشتی حیات فرگشت پستانداران cats سگ‌سانان تکامل گرگ dogs کفتار فرگشت آب‌بازسانان فرگشت اسب‌ها Kangaroos primates فرگشت انسان lemurs sea cows فرگشت گیاهان Reptiles فرگشت عنکبوتیان Tetrapods Viruses influenza
عضو	Cell مدل‌های سیر تکاملی دی‌ان‌ای Flagella یوکاریوت درون‌هم‌زیستی کروموزوم دستگاه غشایی درونی میتوکندری هسته یاخته دیسه In animals تکامل چشم مو auditory ossicle nervous system تکامل مغز
فرآیند	تکامل پیرش مرگ Programmed cell death Avian flight Biological complexity هم‌کاری Color vision in primates Emotion همدلی اخلاقیات فرگشتی Eusociality دستگاه ایمنی متابولیسم تک‌همسری در جانوران تکامل اخلاق Mosaic evolution جانداران چندیاخته‌ای Sexual reproduction ناجورکامی Life cycles/nuclear phases Mating types Meiosis روش گزینش جنسیت Snake venom
تمپو‌ها و مدها	Gradualism/تعادل نقطه‌ای/Saltationism جهش نقطه‌ای/Macromutation همدیس‌گرایی/کاتاستروفیسم
گونه‌زایی	گونه‌زایی ناهم‌بوم Anagenesis Catagenesis Cladogenesis Cospeciation Ecological Hybrid Parapatric گونه‌زایی پیرابوم تثبیت گونه‌زایی هم‌بوم
تاریخچه اندیشه فرگشتی	Renaissance and Enlightenment تراجهش گونه‌ها چارلز داروین خاستگاه گونه‌ها History of paleontology فسیل انتقالی Blending inheritance قوانین مندل The eclipse of Darwinism سنتز مدرن History of molecular evolution Extended evolutionary synthesis
فلسفه	داروینیسم Alternatives کاتاستروفیسم لامارکیسم فرگشت هدفمند Mutationism Saltationism Structuralism Spandrel فرگشت الهی زندگی‌باوری Teleology in biology
مرتبط	جغرافیای زیستی ژنتیک بوم‌شناختی فرگشت ملکولی تبارزایش درخت تبارزایی چندریختی Protocell سامانه‌شناسی
رده:زیست‌شناسی فرگشتی درگاه:زیست‌شناسی تکاملی