ДНК порекло > Рачунарски програми

Рачунарски поступак за вѣроватноће старости зайедничкога прѣдка

(1/8) > >>

Александар Невски:
Коначно заврших корисничко сучеље свойега рачунарскога поступка за прорачун вѣроватноћъ старости найскорийега зайедничкога прѣдка (у даљем писању ВСНЗП). Прво хоћу нешто разяснити, нити овай нити било койи други рачунарски поступак не може тачно срачунати старост нити брой колѣн до првога зайедничкога прѣдка. Ко ви каже да йе то могуће, тай ве лаже. То йе разумски немогуће, као што йе немогуће срачунати колико ће путникъ купити карту за воз койи ће за недѣљу дана поћи из Ниша за Београд. Оно што йе могуће у оба случая йе рачунање одређених вѣроватноћа на основу доступних података. У случайу путникъ се на основу вишегодишњега праћења промета може срачунати вѣроватноћа да карту купи рецимо 235 или ма койи други брой људи. А у нашем случайу одређивања ВСНЗП-а се поред задатих хапловрста користе вѣроватноће промѣн на свакой ознаци понаособ, између осталога. Рачунарски поступци койи се овиме баве обично саберу вѣроватноће по колѣнах и прияве као старост НЗП-а прво колѣно гдѣ збир достигне 50%. Такав податак дайем и я. У мойем поступку користим вѣроватноће промѣн Марка Хеиниле (за сваку ознаку йе различита), и при прорачуну се узимайу у обзир и повратне промѣне, што многи други рачуначи са мреже не раде.

У горњем лѣвом углу се налази поље у койе се уносе потомачке хапловрсте, найвише четири стотине њих, свака у посебном реду. Оне могу бити У ФТДНА поредку, узете поступком "умножи-и-залѣпи" из ФТДНА подухватъ, а могу бити и исходи на 17 ознакъ у три различита редоследа, одређена у списку десно по срѣдини. Ово йе подробнийе описано у упутству у Прѣдвиђачу мушких лоза, па се нећу на томе више задржавати.

Тамо гдѣ врѣдност ознаке нѣйе позната, можете на њено мѣсто унѣти знак "$", означавайући непознату врѣдност. Поступак дозвољава и унос врѣдности 0, али се према њой опходи као да йе непозната, што у найвећем бройу случайева и йесте (ако не у свих). Такође поступак дозвољава унос двѣ врѣдности и тамо гдѣ йе обично йедна (рецимо за ДЫС19, койи у пойединих огранака Г-а може имати двѣ врѣдности), али онда оне морайу бити усаглашене за све улазне хапловрсте. Не може йедна улазна рецимо на ДЫС-у 19 имати йедан примѣрак врѣдности, а друга двѣ, йер рачунарски поступак не барата са вѣроватноћами исчезавања или настаяња нових примѣрака ознака (йер су ове вѣроватноће непознате, бар мени). У таквих случайих йе найбоље неку од њих обрисати или додати йош йедну са истом врѣдношћу, како бише се усагласиле по бройу.

Изузетно важан улазни податак йе прѣдачка хапловрста, она се може унѣти у поље испод потомачких хапловрста. Њу корисник не мора сам унѣти, рачунар ће йе сам одредити ако нѣйе задата, бирайући найчешћу врѣдност за сваку ознаку понаособ. Такву рачунаром одређену врѣдност корисник може промѣнити. Са одређивањем прѣдачке трѣба бити веома обазрив, йер од ње зависи исход прорачуна. Замислимо случай гдѣ рачунамо ВСНЗП за рецимо десет хапловрста, од койих су 7 из исте породице Петровић, међусобно веома блиске, док су друга тройица доста удаљена од њих и међусобно. Овдѣ ће рачунар одабиром найчешћих врѣдностий за прѣдачку одредити у ствари податке НЗП-а седморице Петровићъ, а не све десеторице, што ће знатно искривити добийене исходе. Због тога прво трѣба ручно одредити прѣдачку хапловрсту седморице (може и уз помоћ овога поступка), па од ње са тройицом осталих наћи прѣдачку цѣле скупине. Онда ће прорачун за сву десеторицу бити правилно изведен и добићейу се смислени исходи.
У поступку постойи прѣкидач "Дозвољене непознате прѣдачке врѣдности", койи йе обично искључен. Ако се укључи, рачунар неће покушавати самостално одредити врѣдности прѣдачке тамо гдѣ их корисник сам нѣйе већ задао, већ ће их при прорачуну сматрати за непознате. Са овом могућношћу трѣба бити обазрив, йер и она може искривити исходе ако се користи за све ознаке. Трѣба йе користити само за ознаке где нѣсте поуздани коя йе врѣдност прѣдачка, стављањем знака "$" на одговарайуће мѣсто у пољу за прѣдачку.

Хапловрсте не морайу бити исте дужине, можете слободно мѣшати кратке и дуге, до 111 ознакъ дужине. Само при том будите обазриви, немойте на примѣр поред десетак хапловрст од 37 ознакъ убацити само йедну или двѣ дужине 111 или 67. Онда ће рачунар врѣдност прѣдка на виших ознаках моћи бирати између само йедне или двѣ врѣдности, што ће довести до искривљавања исхода. Ово йе нарочито погубно ако се има само йедна дуга хапловрста, што ће довести да се добийу веће вѣроватноће за мањи брой колѣн од очекиванога. Моя прѣпорука йе да за сваку ознаку имате бар по три врѣдности, како бише исходи били поузданийи. Поступак ће упозорити поруком ако открийе овако нешто.

Уколико знате да задате хапловрсте нѣсу имале зайедничкога прѣдка у одређеном бройу колѣн, можете га унѣти у поље "Брой колѣн без зайедничкога прѣдка". Онда ћейу се вѣроватноће расподѣле по колѣнах прѣрачунати и освѣжити испис и слика. Ово йе могуће и послѣ прорачуна, и врши се тренутно, без поновнога цѣлога и понекада дуготрайнога срачунавања. На дну прозора йе сликовито приказана расподѣла добийених вѣроватноћ по колѣнах.

У горњем десном углу се налази списак гдѣ се бирайу ознаке за прорачун. Могу се одабрати све йедноструке и двоструке ознаке (што йе подразумевано), само йедноструке, или само двоструке (ово йе корисно само за кушање рада рачунарскога поступка). Ових дана поправих и уочену грѣшку са двострукими ознаками, изазивавшу сабияње опсега око колѣна са збирних 50%, койе бѣше рачунато тачно. У прорачунах не користим йедино четвороструки ДЫс 464. Могао бих и то урадити, али ме мрзи потрошити огромно врѣме на тако обиман посао од кога има тако мало користи. Можда йедном када будем докон. :-)

Напомињем да йе поступак подешен да узима у обзир могућу старост само до неколико стотина колѣн. Стога га прѣпоручуйем за коришћење само са хапловрстами прѣдпостављене старости зайедничкога прѣдка од найвише 200-250 колѣн. Могах га подесити да ради и са већом дубином, али то сматрам сувишним за наше потрѣбе. А уз то би тиме био знатно успорен сам прорачун. Према томе, немойте зайедно трпати у прорачун Р-ове, Е-ове, И-ове и Й-ове и послѣ се питати зашто дайе неочекиване исходе.

А сада примѣри. За први примѣр одређуйем ВСНЗП двейу истоветних хапловрст од 17 ознака. Да видимо каква йе расподѣла вѣроватноћа када су два узорка потпуно йеднака. У улазне хапловрсте убацуйемо два пута исту произвољну хапловрсту, у поредку 17 ознакъ. А рачунар сам одређуйе им истоветну хапловрсту прѣдка. И добия се исход на слици. 50% вѣроватноће йе на 8.002 колѣна. Видимо да йе овдѣ расподѣла доста широка, 95% вѣроватноће йе тек на 36 колѣн.



Но, у овом случайу йе прѣдпостављено да йе хапловрста НЗП-а йеднака њиховой. али, постойи (мала) вѣроватноћа да йе рецимо НЗП на ДЫС-у 390 имао за 1 већу врѣдност, од 25, па да йе у обойице потомака она независно прешла у 24. Таква могућност йе мало вѣроватна, али ипак постойи. Ако желимо узети у обзир све овакве могућности разлике стања НЗП-а од потомака, укључимо прѣкидач "Дозвољене непознате прѣдачке врѣдности", избришемо све из поља за прѣдачку хапловрсту и срачунамо. Добићемо онда да йе 50% вѣроватноће на бройу колѣн до 8.26948. Разлика нѣйе велика, али постойи.


А сада примѣр из стварности. Из црногорске збирке од 404 хапловрсте узимам 26 хапловрст лозе Р1б са свойственом врѣдношћу 11-11 на ДЫС-у 385. За њих се добия збир од 50% вѣроватноће на првих 23.52 колѣн. Пошто йе овдѣ брой хапловрст много већи него у првом примѣру, расподѣла йе знатно ужа, 95% вѣроватноће се достиже на 33 колѣна.



Ево поступка. Само трѣба по прѣузимању прѣименовати "Невски.дат" у "Невски.ЕХЕ". Уз ово дайем и податке за примѣр са црногорскими Р1б-овими.

https://yadi.sk/d/hTX71zN2dLsji

Александар Невски:
Ево рачунице вѣроватноћа зайедничкога прѣдка за Аца Маринковића и Бѣлоруса Кудина. Ацо зна зашто. :-)
50% вѣроватноће йе на 52.8 колѣн, на 107 ознака. Али йе опсег веома широк, што йе очекивано са само двема хапловрстама.

Александар Невски:
Ево новога издања, додах у прѣдвиђач поредак за 23 ознаке београдскога ДНК Срѣдишта, и направих ситне дораде у рачуначу старости, прошируйући опсеге дозвољених врѣдностий за пойедина понављања кратких образаца.

https://yadi.sk/d/hTX71zN2dLsji

Небојша:
Зна ли неко колико је поуздан TMRCA калкулатор?

http://dna-project.clan-donald-usa.org/tmrca.htm

Крсто:
Ја мислим да је скроз непоуздан. Не постоји калкулатор који ће ти то израчунати.

Видиш ово скроз доле на калкулатору где пише "Mutation Rate" - то ти је стопа мутације.

Сви калкулатори се заснивају на претпоставци да је стопа мутације код свих популација била иста током историје, а то је апсолутно нетачно. Онда би значило да је стопа наталитета, стопа смртности, просечан животни век, број потомака, начин живота, итд. итд. - од чега зависе стопе мутација - било исто код свих популација. Размисли мало.

Навигација

[0] Индекс порука

[#] Следећа страна

Иди на пуну верзију