Аутор Тема: Рачунарски поступак за вѣроватноће старости зайедничкога прѣдка  (Прочитано 24183 пута)

Ван мреже Александар Невски

  • Редакција СДНКП
  • Истраживач
  • ******
  • Поруке: 1135
Коначно заврших корисничко сучеље свойега рачунарскога поступка за прорачун вѣроватноћъ старости найскорийега зайедничкога прѣдка (у даљем писању ВСНЗП). Прво хоћу нешто разяснити, нити овай нити било койи други рачунарски поступак не може тачно срачунати старост нити брой колѣн до првога зайедничкога прѣдка. Ко ви каже да йе то могуће, тай ве лаже. То йе разумски немогуће, као што йе немогуће срачунати колико ће путникъ купити карту за воз койи ће за недѣљу дана поћи из Ниша за Београд. Оно што йе могуће у оба случая йе рачунање одређених вѣроватноћа на основу доступних података. У случайу путникъ се на основу вишегодишњега праћења промета може срачунати вѣроватноћа да карту купи рецимо 235 или ма койи други брой људи. А у нашем случайу одређивања ВСНЗП-а се поред задатих хапловрста користе вѣроватноће промѣн на свакой ознаци понаособ, између осталога. Рачунарски поступци койи се овиме баве обично саберу вѣроватноће по колѣнах и прияве као старост НЗП-а прво колѣно гдѣ збир достигне 50%. Такав податак дайем и я. У мойем поступку користим вѣроватноће промѣн Марка Хеиниле (за сваку ознаку йе различита), и при прорачуну се узимайу у обзир и повратне промѣне, што многи други рачуначи са мреже не раде.

У горњем лѣвом углу се налази поље у койе се уносе потомачке хапловрсте, найвише четири стотине њих, свака у посебном реду. Оне могу бити У ФТДНА поредку, узете поступком "умножи-и-залѣпи" из ФТДНА подухватъ, а могу бити и исходи на 17 ознакъ у три различита редоследа, одређена у списку десно по срѣдини. Ово йе подробнийе описано у упутству у Прѣдвиђачу мушких лоза, па се нећу на томе више задржавати.

Тамо гдѣ врѣдност ознаке нѣйе позната, можете на њено мѣсто унѣти знак "$", означавайући непознату врѣдност. Поступак дозвољава и унос врѣдности 0, али се према њой опходи као да йе непозната, што у найвећем бройу случайева и йесте (ако не у свих). Такође поступак дозвољава унос двѣ врѣдности и тамо гдѣ йе обично йедна (рецимо за ДЫС19, койи у пойединих огранака Г-а може имати двѣ врѣдности), али онда оне морайу бити усаглашене за све улазне хапловрсте. Не може йедна улазна рецимо на ДЫС-у 19 имати йедан примѣрак врѣдности, а друга двѣ, йер рачунарски поступак не барата са вѣроватноћами исчезавања или настаяња нових примѣрака ознака (йер су ове вѣроватноће непознате, бар мени). У таквих случайих йе найбоље неку од њих обрисати или додати йош йедну са истом врѣдношћу, како бише се усагласиле по бройу.

Изузетно важан улазни податак йе прѣдачка хапловрста, она се може унѣти у поље испод потомачких хапловрста. Њу корисник не мора сам унѣти, рачунар ће йе сам одредити ако нѣйе задата, бирайући найчешћу врѣдност за сваку ознаку понаособ. Такву рачунаром одређену врѣдност корисник може промѣнити. Са одређивањем прѣдачке трѣба бити веома обазрив, йер од ње зависи исход прорачуна. Замислимо случай гдѣ рачунамо ВСНЗП за рецимо десет хапловрста, од койих су 7 из исте породице Петровић, међусобно веома блиске, док су друга тройица доста удаљена од њих и међусобно. Овдѣ ће рачунар одабиром найчешћих врѣдностий за прѣдачку одредити у ствари податке НЗП-а седморице Петровићъ, а не све десеторице, што ће знатно искривити добийене исходе. Због тога прво трѣба ручно одредити прѣдачку хапловрсту седморице (може и уз помоћ овога поступка), па од ње са тройицом осталих наћи прѣдачку цѣле скупине. Онда ће прорачун за сву десеторицу бити правилно изведен и добићейу се смислени исходи.
У поступку постойи прѣкидач "Дозвољене непознате прѣдачке врѣдности", койи йе обично искључен. Ако се укључи, рачунар неће покушавати самостално одредити врѣдности прѣдачке тамо гдѣ их корисник сам нѣйе већ задао, већ ће их при прорачуну сматрати за непознате. Са овом могућношћу трѣба бити обазрив, йер и она може искривити исходе ако се користи за све ознаке. Трѣба йе користити само за ознаке где нѣсте поуздани коя йе врѣдност прѣдачка, стављањем знака "$" на одговарайуће мѣсто у пољу за прѣдачку.

Хапловрсте не морайу бити исте дужине, можете слободно мѣшати кратке и дуге, до 111 ознакъ дужине. Само при том будите обазриви, немойте на примѣр поред десетак хапловрст од 37 ознакъ убацити само йедну или двѣ дужине 111 или 67. Онда ће рачунар врѣдност прѣдка на виших ознаках моћи бирати између само йедне или двѣ врѣдности, што ће довести до искривљавања исхода. Ово йе нарочито погубно ако се има само йедна дуга хапловрста, што ће довести да се добийу веће вѣроватноће за мањи брой колѣн од очекиванога. Моя прѣпорука йе да за сваку ознаку имате бар по три врѣдности, како бише исходи били поузданийи. Поступак ће упозорити поруком ако открийе овако нешто.

Уколико знате да задате хапловрсте нѣсу имале зайедничкога прѣдка у одређеном бройу колѣн, можете га унѣти у поље "Брой колѣн без зайедничкога прѣдка". Онда ћейу се вѣроватноће расподѣле по колѣнах прѣрачунати и освѣжити испис и слика. Ово йе могуће и послѣ прорачуна, и врши се тренутно, без поновнога цѣлога и понекада дуготрайнога срачунавања. На дну прозора йе сликовито приказана расподѣла добийених вѣроватноћ по колѣнах.

У горњем десном углу се налази списак гдѣ се бирайу ознаке за прорачун. Могу се одабрати све йедноструке и двоструке ознаке (што йе подразумевано), само йедноструке, или само двоструке (ово йе корисно само за кушање рада рачунарскога поступка). Ових дана поправих и уочену грѣшку са двострукими ознаками, изазивавшу сабияње опсега око колѣна са збирних 50%, койе бѣше рачунато тачно. У прорачунах не користим йедино четвороструки ДЫс 464. Могао бих и то урадити, али ме мрзи потрошити огромно врѣме на тако обиман посао од кога има тако мало користи. Можда йедном када будем докон. :-)

Напомињем да йе поступак подешен да узима у обзир могућу старост само до неколико стотина колѣн. Стога га прѣпоручуйем за коришћење само са хапловрстами прѣдпостављене старости зайедничкога прѣдка од найвише 200-250 колѣн. Могах га подесити да ради и са већом дубином, али то сматрам сувишним за наше потрѣбе. А уз то би тиме био знатно успорен сам прорачун. Према томе, немойте зайедно трпати у прорачун Р-ове, Е-ове, И-ове и Й-ове и послѣ се питати зашто дайе неочекиване исходе.

А сада примѣри. За први примѣр одређуйем ВСНЗП двейу истоветних хапловрст од 17 ознака. Да видимо каква йе расподѣла вѣроватноћа када су два узорка потпуно йеднака. У улазне хапловрсте убацуйемо два пута исту произвољну хапловрсту, у поредку 17 ознакъ. А рачунар сам одређуйе им истоветну хапловрсту прѣдка. И добия се исход на слици. 50% вѣроватноће йе на 8.002 колѣна. Видимо да йе овдѣ расподѣла доста широка, 95% вѣроватноће йе тек на 36 колѣн.



Но, у овом случайу йе прѣдпостављено да йе хапловрста НЗП-а йеднака њиховой. али, постойи (мала) вѣроватноћа да йе рецимо НЗП на ДЫС-у 390 имао за 1 већу врѣдност, од 25, па да йе у обойице потомака она независно прешла у 24. Таква могућност йе мало вѣроватна, али ипак постойи. Ако желимо узети у обзир све овакве могућности разлике стања НЗП-а од потомака, укључимо прѣкидач "Дозвољене непознате прѣдачке врѣдности", избришемо све из поља за прѣдачку хапловрсту и срачунамо. Добићемо онда да йе 50% вѣроватноће на бройу колѣн до 8.26948. Разлика нѣйе велика, али постойи.


А сада примѣр из стварности. Из црногорске збирке од 404 хапловрсте узимам 26 хапловрст лозе Р1б са свойственом врѣдношћу 11-11 на ДЫС-у 385. За њих се добия збир од 50% вѣроватноће на првих 23.52 колѣн. Пошто йе овдѣ брой хапловрст много већи него у првом примѣру, расподѣла йе знатно ужа, 95% вѣроватноће се достиже на 33 колѣна.



Ево поступка. Само трѣба по прѣузимању прѣименовати "Невски.дат" у "Невски.ЕХЕ". Уз ово дайем и податке за примѣр са црногорскими Р1б-овими.

https://yadi.sk/d/hTX71zN2dLsji
« Последња измена: Децембар 13, 2014, 09:27:30 пре подне Александар Невски »
Србски пѣсник Лаза Костић: "у млазових прочитам сричући" "по уздасих тако први' у јунака реч поврви"

Ван мреже Александар Невски

  • Редакција СДНКП
  • Истраживач
  • ******
  • Поруке: 1135
Одг: Рачунарски поступак за вѣроватноће старости зайедничкога прѣдка
« Одговор #1 послато: Децембар 11, 2014, 07:24:41 поподне »
Ево рачунице вѣроватноћа зайедничкога прѣдка за Аца Маринковића и Бѣлоруса Кудина. Ацо зна зашто. :-)
50% вѣроватноће йе на 52.8 колѣн, на 107 ознака. Али йе опсег веома широк, што йе очекивано са само двема хапловрстама.

Србски пѣсник Лаза Костић: "у млазових прочитам сричући" "по уздасих тако први' у јунака реч поврви"

Ван мреже Александар Невски

  • Редакција СДНКП
  • Истраживач
  • ******
  • Поруке: 1135
Одг: Рачунарски поступак за вѣроватноће старости зайедничкога прѣдка
« Одговор #2 послато: Децембар 13, 2014, 09:29:36 пре подне »
Ево новога издања, додах у прѣдвиђач поредак за 23 ознаке београдскога ДНК Срѣдишта, и направих ситне дораде у рачуначу старости, прошируйући опсеге дозвољених врѣдностий за пойедина понављања кратких образаца.

https://yadi.sk/d/hTX71zN2dLsji
Србски пѣсник Лаза Костић: "у млазових прочитам сричући" "по уздасих тако први' у јунака реч поврви"

Ван мреже Небојша

  • Уредник СДНКП
  • Бели орао
  • *****
  • Поруке: 13139
Одг: Рачунарски поступак за вѣроватноће старости зайедничкога прѣдка
« Одговор #3 послато: Март 31, 2015, 10:29:53 пре подне »
Зна ли неко колико је поуздан TMRCA калкулатор?

http://dna-project.clan-donald-usa.org/tmrca.htm


Крсто

  • Гост
Ја мислим да је скроз непоуздан. Не постоји калкулатор који ће ти то израчунати.

Видиш ово скроз доле на калкулатору где пише "Mutation Rate" - то ти је стопа мутације.

Сви калкулатори се заснивају на претпоставци да је стопа мутације код свих популација била иста током историје, а то је апсолутно нетачно. Онда би значило да је стопа наталитета, стопа смртности, просечан животни век, број потомака, начин живота, итд. итд. - од чега зависе стопе мутација - било исто код свих популација. Размисли мало.
« Последња измена: Март 31, 2015, 02:02:00 поподне Крсто »

Ван мреже Небојша

  • Уредник СДНКП
  • Бели орао
  • *****
  • Поруке: 13139
Ја мислим да је скроз непоуздан. Не постоји калкулатор који ће ти то израчунати.

Видиш ово скроз доле на калкулатору где пише "Mutation Rate" - то ти је стопа мутације.

Сви калкулатори се заснивају на претпоставци да је стопа мутације код свих популација била иста током историје, а то је апсолутно нетачно. Онда би значило да је стопа наталитета, стопа смртности, просечан животни век, број потомака, начин живота, итд. итд. - од чега зависе стопе мутација - било исто код свих популација. Размисли мало.

Зато и питам. Није реално да је иста стопа мутације за све хаплогрупе и све појединце у оквиру тих хг.


Ван мреже Александар Невски

  • Редакција СДНКП
  • Истраживач
  • ******
  • Поруке: 1135
Зна ли неко колико је поуздан TMRCA калкулатор?

http://dna-project.clan-donald-usa.org/tmrca.htm

Небойшо, рачунач йе поуздан онолико колико су поуздане стопе промѣн на ознаках. Овай йе добар за веће бройеве ПЙРова (SNPова) и мтДНК, пошто ту има смисла за све користити  исту стопу промѣне. За Понављања Кратких Образаца (STRове) овакав рачунач нема много смисла, йер се њиме подразумѣвайу исте стопе промѣне на свих њих, што нема смисла, йер се тиме бабе и жабе трпайу у исти кош. Не може се, рецимо, поредити йедна разлика на брзой ознаци као што йе ЦДЫ и спора ознака као што йе ДЫС 393. Рачун са истом стопом промѣне за све ознаке йе далеко простийи за рачунање и самим тим йе далеко бржи и погоднийи за међумрежйе. Рачунање вѣроватноћа по колѣнах са различитом стопом промѣне за сваку ознаку йе доста теже и спорийе, и самим тим непогоднийе за мрежу. 
Србски пѣсник Лаза Костић: "у млазових прочитам сричући" "по уздасих тако први' у јунака реч поврви"

Ван мреже Небојша

  • Уредник СДНКП
  • Бели орао
  • *****
  • Поруке: 13139
Небойшо, рачунач йе поуздан онолико колико су поуздане стопе промѣн на ознаках. Овай йе добар за веће бройеве ПЙРова (SNPова) и мтДНК, пошто ту има смисла за све користити  исту стопу промѣне. За Понављања Кратких Образаца (STRове) овакав рачунач нема много смисла, йер се њиме подразумѣвайу исте стопе промѣне на свих њих, што нема смисла, йер се тиме бабе и жабе трпайу у исти кош. Не може се, рецимо, поредити йедна разлика на брзой ознаци као што йе ЦДЫ и спора ознака као што йе ДЫС 393. Рачун са истом стопом промѣне за све ознаке йе далеко простийи за рачунање и самим тим йе далеко бржи и погоднийи за међумрежйе. Рачунање вѣроватноћа по колѣнах са различитом стопом промѣне за сваку ознаку йе доста теже и спорийе, и самим тим непогоднийе за мрежу.

Хвала пуно на одговору, Невски! Држаћу се и убудуће твог калкулатора. :)

Ван мреже Александар Невски

  • Редакција СДНКП
  • Истраживач
  • ******
  • Поруке: 1135
Протекле недѣље мало дорађивах свой рачунарски поступак за рачунање вѣроватноћа старости найскорийега зайедничкога прѣдка. На ред бѣше стигло омогућити да може рачунати и са четвороструким ДЫС-ом 464. Да подсѣтим, йош од првога обявљенога издања просинца мѣсеца прошле године поступак ради (и то исправно) са свими двострукими ознаками, као што йе на примѣр ДЫС 385а/б. Поступак успѣшно примѣњен на двоструке ознаке уопштих и примѣних и на вишеструке (односно ДЫС 464, йедини такав у 111 ознака).
Наравно, ово йе искушано на вѣштачки направљених примѣрах познате дубине (старости), и са великим бройем потомачких хапловрстъ, направљених другим мойим рачунарским поступком, опонашањем развоя хапловрсте кроз покољења, користећи исте вѣроватноће промѣна на ознаках. Ево исходов на шест стотина потомачких хапловрст дубине 300 колѣн. Напомињем да йе у свих случайевах кушање рађено прорачуном само на ДЫСу 464, сви остале ознаке бѣху искључене из прорачунов.

За скуп 600 хапловрста дубине 300 колѣн прорачун даде 50% вѣроватноће за 297.345 колѣн.

За скуп 600 хапловрста дубине 200 колѣн прорачун даде 50% вѣроватноће за 196.524 колѣн.

За скуп 600 хапловрста дубине 100 колѣн прорачун даде 50% вѣроватноће за 93.01 колѣн.

За скуп 600 хапловрста дубине 70 колѣн прорачун даде 50% вѣроватноће за 67.9567 колѣн.

За скуп 600 хапловрста дубине 30 колѣн прорачун даде 50% вѣроватноће за 32.2337 колѣн.

За скуп 600 хапловрста дубине 20 колѣн прорачун даде 50% вѣроватноће за 20.0861 колѣн.

Сматрам да йе тачност у задобийених примѣрах задовољавайућа, обзиром да се ради о вишеструкой ознаци.

Покушаћу обяснити зашто су вишеструке ознаке тешке за рачуначе вѣроватноћа старости. Ради лакшега разумевања упростићу ствар и покушаћу обяснити о чем се ради на двострукой ознаци, рецимо на ДЫСу 385.
Узмимо да йе прѣдак на њем найвѣроватнийе имао врѣдности 12-13 (односно да су то срѣдње врѣдности за потомачке хапловрсте).
Рецимо да йедан од потомака има врѣдности 13-14. Ми овдѣ не знамо койой прѣдачкой врѣдности одговара коя потомачка. Йе ли то можда прѣдачко 12 прѣшло у потомачко 13 а прѣдачко 13 прѣшло у потомачко 14?
Или йе можда прѣдачко 13 остало непромѣњено, значи и у потомку йе 13 а прѣдачко 12 йе прѣшло у потомачко 14? Без већега броя Китлерових испитов се то не може знати, те обѣ могућности долазе у обзир.

Рачунарски поступак Невскога у случайу двоструких ознака обѣ могућности узима у обзир, односно нийедну од њих не одбацуйе. Док пойедини други рачуначи упрошћавайу ствар и прѣдпостављайу да йе мања прѣдачка врѣдност прѣшла у мању потомачку а већа прѣдачка у већу потомачку. Док у стварности то често нѣйе случай, те многи прѣдвиђачи овдѣ грѣше умањуйући прѣдвиђање старости.
Намѣрно пустих мой рачунарски поступак да прорачун уради и погрѣшно како бих видѣо колико грѣши, узимайући у обзир само горе наведену могућност. И за први наведени примѣр дубине 300 добих за рѣшење 243.472, што йе грѣшка од цѣлих 56. Поређењем са исходом 297 добийеним исправним поступком се види колико то има утицая на исход.

Напомињем да с двострукими ознаками грѣшака нема ако су прѣдачке међусобно йеднаке, или ако су међусобно йеднаке потомачке (рецимо 12-12). У овом посебном случайу йе и нетачан поступак добар. Разлике исходов исправнога и неисправнога поступка су врло мале уколико се прѣдачке и потомачке врѣдности веома разликуйу (рецимо ако су 12-18 и 13-19). Йер йе онда друга могућност (да йе 12 прѣшло у 19 а 18 у 13) изузетно мало вѣроватна. У таквих случайих су добри и прѣдвиђачи не водећи рачуна о неодређености вишеструких ознакъ. Али такво стање често нѣйе случай, рецимо тамо гдѣ се двѣ двоструке врѣдности разликуйу за 1. У таквих случайих се прави найвећа грѣшка, и то тежи дати мању процѣну старости него што стварно йесте.

Све што наведох за двоструке важи и за вишеструке као што йе ДЫС 464, с тим да йе ту брой спойев далеко, далеко већи па йе с тим све ту много сложенийе за рачунање. У горњих примѣрах прѣдачка врѣдност бѣше 11-13-14-15.

Ове измѣне нећу обявити док не направим мању дораду у прѣдвиђачу мушких лозъ, те ћу их пустити зайедно за койу недѣљу. Ту намѣравам умѣсто ДЫСа 389ИИ за прѣдвиђања користити разлику 389ИИ-389И. Йер йе ДЫС 389ИИ збир ДЫСа 398И и йош йеднога. Због тога се свака промѣна на првом одражава на другом, те га чини зависним од првога. То ће у слѣдећем издањи бити исправљено и свуда ће се приказивати само разлика мѣсто другога, што ће бити унапрѣђење при давањи процѣнъ.

Услужно кољем по кућах. 20 дин по кг-у живе ваге за прасиће, 15 за велике свиње и остало. У цѣну йе урачунато и шурење. Пилиће черупам за 40 дин/ком. Говеда, нойеве и слонове по договору (Кинези нека се не явљайу, псе не радим).


(мало шале нѣйе на одмет  :D)
« Последња измена: Јун 09, 2015, 08:09:36 поподне Александар Невски »
Србски пѣсник Лаза Костић: "у млазових прочитам сричући" "по уздасих тако први' у јунака реч поврви"

Ван мреже Александар Невски

  • Редакција СДНКП
  • Истраживач
  • ******
  • Поруке: 1135
Одг: Рачунарски поступак за вѣроватноће старости зайедничкога прѣдка
« Одговор #9 послато: Јун 20, 2015, 07:40:21 пре подне »
Ове измѣне нећу обявити док не направим мању дораду у прѣдвиђачу мушких лозъ, те ћу их пустити зайедно за койу недѣљу. Ту намѣравам умѣсто ДЫСа 389ИИ за прѣдвиђања користити разлику 389ИИ-389И. Йер йе ДЫС 389ИИ збир ДЫСа 398И и йош йеднога. Због тога се свака промѣна на првом одражава на другом, те га чини зависним од првога. То ће у слѣдећем издањи бити исправљено и свуда ће се приказивати само разлика мѣсто другога, што ће бити унапрѣђење при давањи процѣнъ.

Пуштам послѣдње измѣне. Као што рекох, сада Рачунач вѣроватноћа старости найскорийега зайедничкога прѣдка узима у обзир и четвероструки ДЫС464.
Урадих и наявљену измѣну у Прѣдвиђачу мушких лозъ, сада у пойединих случайих ради тачнийе, йер йе разбийена међузависност између ДЫС-ова 389И и 389ИИ одузимањем врѣдности првога од другога.

https://yadi.sk/d/VWr_EniVhMrxy
Србски пѣсник Лаза Костић: "у млазових прочитам сричући" "по уздасих тако први' у јунака реч поврви"

Ван мреже Небојша

  • Уредник СДНКП
  • Бели орао
  • *****
  • Поруке: 13139
Одг: Рачунарски поступак за вѣроватноће старости зайедничкога прѣдка
« Одговор #10 послато: Септембар 03, 2015, 08:17:32 поподне »
Невски, да ли је калкулатор "прецизнији" сада када је урачунат и маркер 464?

У питању је изузетно "брз" (брзомутирајући) маркер, па стога верујем да може да нанесе више штете, него користи. Исправи ме ако грешим, али мислим да ни Нортвед не користи овај маркер приликом прорачуна?

Ван мреже Александар Невски

  • Редакција СДНКП
  • Истраживач
  • ******
  • Поруке: 1135
Одг: Рачунарски поступак за вѣроватноће старости зайедничкога прѣдка
« Одговор #11 послато: Септембар 03, 2015, 09:37:27 поподне »
Невски, да ли је калкулатор "прецизнији" сада када је урачунат и маркер 464?

У питању је изузетно "брз" (брзомутирајући) маркер, па стога верујем да може да нанесе више штете, него користи. Исправи ме ако грешим, али мислим да ни Нортвед не користи овај маркер приликом прорачуна?

Небойшо, рачунач би трѣбао бити тачнийи сада када се користи и ДЫС464. На мойих примѣрах за кушање се показа добрим.
Ако их Нордведт не користи, то йе зато што његов начин прорачуна не ради добро са вишеструкими, нарочито ако су им врѣдности блиске. То тешко може имати везе са брзином. Има и бржих од њега, знатно бржих.
Србски пѣсник Лаза Костић: "у млазових прочитам сричући" "по уздасих тако први' у јунака реч поврви"

Ван мреже Небојша

  • Уредник СДНКП
  • Бели орао
  • *****
  • Поруке: 13139
Одг: Рачунарски поступак за вѣроватноће старости зайедничкога прѣдка
« Одговор #12 послато: Септембар 03, 2015, 09:43:30 поподне »
Небойшо, рачунач би трѣбао бити тачнийи сада када се користи и ДЫС464. На мойих примѣрах за кушање се показа добрим.
Ако их Нордведт не користи, то йе зато што његов начин прорачуна не ради добро са вишеструкими, нарочито ако су им врѣдности блиске. То тешко може имати везе са брзином. Има и бржих од њега, знатно бржих.

Хвала на одговору.

Ван мреже Александар Невски

  • Редакција СДНКП
  • Истраживач
  • ******
  • Поруке: 1135
Одг: Рачунарски поступак за вѣроватноће старости зайедничкога прѣдка
« Одговор #13 послато: Новембар 01, 2015, 01:40:42 поподне »
У послѣдње врѣме покушавам дати сопствену процѣну стопъ промѣне на понављањих кратких образаца (енгл. Short Tandem Repeats - STRs). Посао не могу назвати завршеним, йош увѣк трагам за найбољим начином процѣне стопъ промѣне, йер пут ка рѣшењу оваквога задатка нѣйе йеднозначан. С тога се слѣдећи исходи не могу сматрати коначними, вѣроватно ће у будућности бити промѣнъ.

Први стубац прѣдставља редни брой и име ознаке. Други стубац йе мойим рачунарским поступком процѣњена стопа промѣне, односно процѣњен постотак случайева прѣноса Ы хромозома са отца на сина уз промѣну на ознаци.  Трећи стубац йе брой йедан подѣљен стопом, и прѣдставља брой прѣносъ гдѣ се очекуйе по йедна промѣна. Четврти стубац йе стопа промѣне процѣњена Марком Хеинилом, и зайедно са петим стубцем (односом мойе и Хеинилине процѣне) служи поређењу са мойими процѣнами.


Редни брой и ознака      Процѣна Невскога      1/процѣна Невскога      Процѣна Марка Хеиниле      Однос (количник) процѣнъ Невскога и Хеиниле
-----------------------------------------------------------------------------------------------------------------------------------------------------------------------
1. ДЫС 393   0.001088   919.35   0.000954   1.140
2. ДЫС 390   0.002728   366.50   0.002455   1.111
3. ДЫС 19   0.001920   520.76   0.001676   1.146
4. ДЫС 391   0.001588   629.91   0.002761   0.575
5. ДЫС 385аб   -
6. ДЫС 426   0.000128   7785.62   0.000114   1.127
7. ДЫС 388   0.000721   1387.77   0.000575   1.253
8. ДЫС 439   0.004156   240.63   0.004709   0.883
9. ДЫС 389И   0.001818   550.17   0.002768   0.657
10. ДЫС 392   0.000417   2399.03   0.000602   0.692
11. ДЫС 389ИИ   0.003124   320.14   0.002335   1.338
12. ДЫС 458   0.007598   131.61   0.007169   1.060
13. ДЫС 459аб   -
14. ДЫС 455   0.000205   4889.88   0.000274   0.746
15. ДЫС 454   0.000205   4869.19   0.000201   1.022
16. ДЫС 447   0.004740   210.95   0.003155   1.503
17. ДЫС 437   0.000888   1126.46   0.000830   1.070
18. ДЫС 448   0.001947   513.62   0.001243   1.566
19. ДЫС 449   0.011097   90.11   0.008337   1.331
20. ДЫС 464абвг   -
21. ДЫС 460   0.002309   433.14   0.003307   0.698
22. ГАТА Х4   0.002370   421.88   0.002365   1.002
23. ЫЦА ИИаб   -
24. ДЫС 456   0.004597   217.51   0.005386   0.854
25. ДЫС 607   0.002514   397.72   0.002480   1.014
26. ДЫС 576   0.009280   107.76   0.011087   0.837
27. ДЫС 570   0.010520   95.05   0.008929   1.178
28. ЦДЫаб   -
29. ДЫС 442   0.003061   326.72   0.003286   0.931
30. ДЫС 438   0.000495   2019.06   0.000494   1.003
31. ДЫС 531   0.000525   1905.07   0.000571   0.919
32. ДЫС 578   0.000100   10023.58   0.000225   0.443
33. ДЫФ 395аб   -
34. ДЫС 590   0.000075   13326.10   0.000194   0.387
35. ДЫС 537   0.001198   834.69   0.001309   0.915
36. ДЫС 641   0.000424   2358.33   0.000374   1.134
37. ДЫС 472   0.000038   26450.90   0.000024   1.575
38. ДЫС 406   0.002333   428.71   0.001607   1.452
39. ДЫС 511   0.001515   659.91   0.001294   1.171
40. ДЫС 425   0.000063   15776.80   0.000236   0.269
41. ДЫС 413аб   -
42. ДЫС 557   0.003748   266.83   0.003500   1.071
43. ДЫС 594   0.000404   2473.07   0.000427   0.947
44. ДЫС 436   0.000093   10767.12   0.000068   1.366
45. ДЫС 490   0.000268   3732.71   0.000280   0.957
46. ДЫС 534   0.007827   127.76   0.008193   0.955
47. ДЫС 450   0.000172   5815.82   0.000105   1.638
48. ДЫС 444   0.003396   294.45   0.003558   0.955
49. ДЫС 481   0.008800   113.64   0.004375   2.011
50. ДЫС 520   0.002154   464.26   0.001823   1.182
51. ДЫС 446   0.004286   233.31   0.003435   1.248
52. ДЫС 617   0.000843   1186.45   0.000600   1.405
53. ДЫС 568   0.000437   2287.66   0.000468   0.934
54. ДЫС 487   0.001242   805.23   0.000790   1.572
55. ДЫС 572   0.001181   846.48   0.001369   0.863
56. ДЫС 640   0.000327   3062.24   0.000196   1.666
57. ДЫС 492   0.000168   5969.23   0.000232   0.722
58. ДЫС 565   0.000665   1503.15   0.000718   0.927
59. ДЫС 710   0.018692   53.50   0.018279   1.023
60. ДЫС 485   0.001962   509.69   0.001577   1.244
61. ДЫС 632   0.000097   10354.18   0.000069   1.400
62. ДЫС 495   0.001591   628.64   0.001154   1.378
63. ДЫС 540   0.001582   631.93   0.001307   1.211
64. ДЫС 714   0.009233   108.30   0.007726   1.195
65. ДЫС 716   0.000940   1063.27   0.001002   0.939
66. ДЫС 717   0.000752   1330.32   0.000748   1.005
67. ДЫС 505   0.001843   542.70   0.001659   1.111
68. ДЫС 556   0.000950   1052.57   0.001196   0.794
69. ДЫС 549   0.004123   242.54   0.004988   0.827
70. ДЫС 589   0.000889   1124.41   0.000881   1.009
71. ДЫС 522   0.001620   617.25   0.003182   0.509
72. ДЫС 494   0.000230   4355.74   0.000219   1.048
73. ДЫС 533   0.002668   374.87   0.003712   0.719
74. ДЫС 636   0.000244   4106.67   0.000405   0.601
75. ДЫС 575   0.000343   2916.97   0.000182   1.884
76. ДЫС 638   0.000379   2639.50   0.000520   0.729
77. ДЫС 462   0.000685   1459.63   0.000557   1.230
78. ДЫС 452   0.001948   513.29   0.001687   1.155
79. ДЫС 445   0.000724   1381.92   0.000918   0.788
80. GATA A10   0.003674   272.20   0.004102   0.896
81. ДЫС 463   0.001993   501.69   0.001175   1.696
82. ДЫС 441   0.001648   606.97   0.001667   0.988
83. Y-GGAAT-1B07   0.000930   1074.88   0.000840   1.108
84. ДЫС 525   0.001791   558.27   0.001538   1.165
85. ДЫС 712   0.020309   49.24   0.016378   1.240
86. ДЫС 593   0.000205   4881.25   0.000232   0.883
87. ДЫС 650   0.007961   125.61   0.007583   1.050
88. ДЫС 532   0.004082   244.95   0.004117   0.992
89. ДЫС 715   0.004258   234.87   0.004444   0.958
90. ДЫС 504   0.005268   189.81   0.004614   1.142
91. ДЫС 513   0.002843   351.76   0.002626   1.083
92. ДЫС 561   0.001497   667.89   0.001649   0.908
93. ДЫС 552   0.003471   288.09   0.001985   1.749
94. ДЫС 726   0.000241   4157.21   0.000245   0.982
95. ДЫС 635   0.003995   250.33   0.003392   1.178
96. ДЫС 587   0.001153   867.17   0.001223   0.943
97. ДЫС 643   0.002137   468.03   0.001348   1.585
98. ДЫС 497   0.001264   790.94   0.000974   1.298
99. ДЫС 510   0.003922   254.97   0.003172   1.236
100. ДЫС 434   0.000158   6327.10   0.000282   0.560
101. ДЫС 461   0.001619   617.81   0.002030   0.797
102. ДЫС 435   0.000137   7301.72   0.000225   0.609



Просѣчно одступање мойе процѣне стопе од процѣне стопе Марка Хеиниле йе 1.2752 (било у йедном, било у другом правцу). Док йе просѣчна неуравнотеженост одступања по ознаци само 1.0135 (врло блиска йединици), чиме сам веома задовољан. Обзиром да йе мало вѣроватно да йе Марко Хеинила свойу процѣну стопъ промѣне радио на исти начин као я, а поготово да йе радио на истом скупу узорака, овакви исходи ни говоре да йе ред величине стопъ промѣне њиме доста добро процѣњен, те да ту тешко може бити великих одступања, могућих озбиљно угрозити процѣне старости найскорийих зайедничких прѣдака данас познатих хаплоскупин. А то и бѣше циљ мойега прорачуна, видѣти колико су његове стопе поуздане. Йер када и я добиям углавном сличне врѣдности, мало йе вѣроватно да обойица добиямо сличне а веома погрѣшне врѣдности.

Найвеће одступање од Хеиниле ми йе на ДЫС-у 425 и износи 3.723 (толико пута йе моя процѣна мања од његове). Узрок овога йе што йе мой поступак доста осѣтљив на ознаке са врло малом разноликошћу, односно са ниском стварном стопом промѣне. Тако йе у мойой збирци велики брой огранака код койега ова ознака има само йедну врѣдност у узорцих. Уопште, од четирйу ознак гдѣ йе мойе одступање од стопе Хеиниле веће од 2 три су са врло малом разноликошћу, односно са великим бройем огранака гдѣ постойи само по йедна врѣдност међу узорцима. На том ћу йош морати порадити, наћи бољи поступак процѣне за такве случайе.
Са друге стране, наймање одступање (1.002) од процѣне стопе Хеиниле йе на ГАТА-и Х4.

За процѣњивање користиях укупно 13100 узорака - хапловрстъ дужине бар 37, покупљених са разних ФТДНА подухватов и подѣљених у 45 огранака. За ознаке у ФТДНА поредку од 68 до 111 имах на располагању знатно мање узорака, укупно 4002, што йе узрок мањой тачности односно већему одступању добийених стопъ него ли при нижих ознаках. Додатну тешкоћу на овом опсегу ознакъ прѣдставља и чињеница да пойедини огранци имайу врло мали брой узорака на 111 ознакъ, рецимо Г2а2б1 - М406 их има само 9, а Е1б1а 20, што додатно утиче на каквоћу исходов.

Ево малога примѣра како йе процѣњивана стопа на ознаци, пошто су процѣњене стопе на пойединих огранцих:

15. ДЫС 454
1. 0.000000     Р1б-Л21 ДФ13>Л513 (234)
2. 0.000000     И2а1 С21825 Западњачка (154)
3. 0.000028     Й2а1х2>Z387 (172)
4. 0.000047     Р1б-Л21 ДФ13>ДФ49 (245)
5. 0.000047     И1 З138/139 Велшано-Германи (276)
6. 0.000063     Р1б У106/С21 Прагерманска (542)
7. 0.000086     Р1б-Л21+ (1103)
8. 0.000093     И2а1а Сардинийска (300)
9. 0.000112     Р1б-Л21 ДФ13>ДФ21 (212)
10. 0.000116     И1 З59+ ПФ856 ЦТС8647 З60+ АС-Райна (456)
11. 0.000134     Р1а Z93 Евроазийска (221)
12. 0.000146     Р1а Z282 Европа (430)
13. 0.000147     И1 З63 Источни Германи (270)
14. 0.000150     Й1а2а1а2>П58>ФГЦ11 (622)
15. 0.000153     Й1а3-Z1828 (129)
16. 0.000158     Г2а2б2а1а - У1 (185)
17. 0.000160     И1-П109 (150)
18. 0.000161     И1 З59+ З60+ Саксон-Райна (379)
19. 0.000167     Р1б ДФ27/С250 Иберо-атлантска (214)
20. 0.000168     Р1б-Л21 ДФ13* (258)
21. 0.000189     Р1б-Л21 ДФ13>Л1335 (123)
22. 0.000202     И2а2а-М223 (751)
23. 0.000205     Р1б-Л21 ДФ13>Z253 (232)
24. 0.000216     Р1б У152/С28 Итало-галска (232)
25. 0.000222     Й1а2а1а2>П58>ЫСЦ76 (265)
26. 0.000223     Р1б П312/С116* Западноевропска (239)
27. 0.000233     Е1б1б1ц-М123 (231)
28. 0.000237     Е1б1б-В13 (386)
29. 0.000300     Г2а2б2а1б - Л497 (527)
30. 0.000321     И2а1б3 Карпатско-Динарска и Дислес (386)
31. 0.000321     И2а2б-Л38 (207)
32. 0.000340     Е1б1а (122)
33. 0.000354     Р1а Y2395 Западна и Сѣверна Европа (241)
34. 0.000383     Г2а1-Л293 (98)
35. 0.000418     Й2а1 без ХБ (243)
36. 0.000477     И2ц1 (137)
37. 0.000507     Н1ц (261)
38. 0.000628     Р1а М458 Срѣдња Европа (222)
39. 0.000722     Ку Л275 (145)
40. 0.000921     Г2а2б1 - М406 (148)
41. 0.001178     Ку М346 (268)
42. 0.001249     Й2б-М241 (315)
43. 0.001322     Т>ПФ5633>ЦТС11451 (252)
44. 0.002238     И2а1 Ислес (241)
45. 0.009737     Й2а1б (285)

Као што се види из примѣра, бира се срѣдња врѣдност (не просѣк!) уређенога низа процѣн. Просѣк сам приморан користити само при ознаках са малом промѣнљивошћу, гдѣ велик брой огранака нема различите врѣдности на задатой ознаци, односно гдѣ су их добийене процѣне стопе 0.

У горњем приказу се може примѣтити да нема процѣне за вишеструке ознаке, попут ДЫСа 385 или четворострукога 464. Мой начин погодан за брзу процѣну стопъ промѣне на йедноструких ознаках нѣйе погодан за вишеструке. Из простога разлога: код вишеструких се не зна коя ознака из двойке одговара койой ознаци на другой хапловрсти, па се не може поуздано знати кога с ким трѣба поредити. Прост примѣр: ако двѣ хапловрсте имайу на ДЫСу 385 исту двойку: 12-13, ми опет не можемо бити поуздани да 12-ици на првой хапловрсти одговара 12-ица на другой, а не 13-ица. Други примѣр йе неки од огранака лозе Р1 (не сѣћам се йе ли од Р1а или Р1б) гдѣ йе поредак на 385аб заправо 14-11, а не 11-14, као у свих осталих. Ми бисмо мислили да су йеднаки, а оно чак шест разлика.

Прѣдпоставка да први (мањи) у двойци увѣк одговара првому (мањему) у другой хапловрсти би унѣла значаян поремећай уколико би се мой простийи поступак примѣнио за процѣну стопъ вишеструких, с тим што би грѣшка била неуравнотежена, тежила би дати процѣну стопе мањом него што у ствари йесте. Због тога развих и други поступак процѣне, отпоран на непознаницу поредка, али при том далеко спорийи, и са већим растурањем процѣне около праве стопе. Зовем га поступак "грубе силе", йер то и йесте.

И ево процѣн другога поступка стопъ промѣне вишеструких ознакъ:
5. ДЫС 385аб   0.004179   239.303      0.002645   1.580
13. ДЫС 459аб   0.000870   1149.812   0.001024   0.849
20. ДЫС 464абвг   0.004055   246.587      0.003258   1.245
23. ЫЦА ИИаб   0.001417   705.484      0.000819   1.731
28. ЦДЫаб   0.019146   52.229      0.016403   1.167
33. ДЫФ 395аб   0.000342   2926.629   0.000376   0.909
41. ДЫС 413аб   0.002471   404.703      0.001909   1.294


Постойи йош нешто што ремети процѣњивање стопъ промѣне на вишеструких ознаках, а то йе такозвани "прѣспойиви губитак разноликости", илити на енглеском "РецЛОХ - Рецомбинатионал Лосс Оф Хетерозыгоситы" (овдѣ енглески пишем на ћирилици због оних койи наш йезик пишу енглеским писмом али се грозе када се енглески пише нашим, тврдећи да йе тако нешто "неприхватљиво"). То йе просто случай када се йедна од двейу врѣдностий прѣпише преко друге, те се рецимо од родитељскога ДЫС385 = 13-20 добийе синовљево 20-20. Оваква поява и нѣйе тако рѣтка, и вишестепени скокови прилично ремете процѣне стопъ, чинећи их вишим него што йесу.

Ово йе при прорачуну тешко избѣћи, йер би се онда морали узимати у обзир само огранци хаплоскупин са великим размаком између двейу врѣдностий, што у већини случайева нѣйе тако. Када имамо рецимо редовно 12-13 , а у пойединаца 12-12 или 13-13, ми не можемо знати ради ли се овдѣ о обичной промѣни за йедну врѣдност или йе до ње дошло РецЛОХом. То цѣлой причи дайе велику количину неодређености, коя се при прорачуну не може занемарити.
Примѣри за РецЛОХове: у Сардинийской И2а1а већина узорака на ЫЦА ИИ има врѣдност, 11-21, али пойединци имайу РецЛОХом поравнате врѣдности 11-11 или 21-21.

Битна напомена за људе користеће рачуначе (попут мойега) за процѣну старости найскорийега зайедничкога прѣдка: РецЛОХ често истоврѣмено поравна врѣдности на неколиких вишеструких ознаках, што ремети прѣдпоставку о независности ознакъ, и увећава процѣњену врѣдност старости прѣдка. Моя прѣпорука йе да се при таквих прорачунах покуша и прорачун без вишеструких (мой рачунач има могућност за то), па ако се утврди да са вишеструким показуйе знатно већу старост него ли без њих, онда трѣба покушати уочити узорке са РецЛОХом, и их ознаке са вишеструким (или йедноструким вишестепеним) РецЛОХом искључити из прорачуна.

Ево примѣра вишеструкога РецЛОХа:
Узорак 345278 Uhlenhopp, Germany има поравнате вишеструке врѣдности: 459 = 10-10 (умѣсто 8-10), 464 = 12-12-15-15 (умѣсто 12-14-15-15), ЦДЫаб = 34-34 (умѣсто 34-15). Значи, трострука везана промѣна.
Или 347272 Богдан Poland има: 459 = 8-8 (умѣсто 8-10), 464 = 12-12-14-14-15-15 и ЦДЫаб = 35-35 (умѣсто 34-15).

Овдѣ имате више о РецЛОХу:

http://www.dna-fingerprint.com/modules.php?op=modload&name=Sections&file=index&req=viewarticle&artid=9
« Последња измена: Новембар 01, 2015, 01:46:46 поподне Александар Невски »
Србски пѣсник Лаза Костић: "у млазових прочитам сричући" "по уздасих тако први' у јунака реч поврви"

Ван мреже Kor

  • Члан Друштва
  • Истраживач
  • *****
  • Поруке: 1000
  • реверзни инжињеринг историје
Одг: Рачунарски поступак за вѣроватноће старости зайедничкога прѣдка
« Одговор #14 послато: Новембар 11, 2015, 11:22:48 пре подне »
Невски, брате... јеси ли размишљао о могућности да у оквиру свог програма убациш истовремени прорачун старости заједничког претка са најближим хаплотипом из базе преко коефицијената брзине мутација маркера? То суштински не би било тешко да се оадради а било бу врло корисно. 

Ван мреже Александар Невски

  • Редакција СДНКП
  • Истраживач
  • ******
  • Поруке: 1135
Одг: Рачунарски поступак за вѣроватноће старости зайедничкога прѣдка
« Одговор #15 послато: Новембар 11, 2015, 10:14:56 поподне »
Невски, брате... јеси ли размишљао о могућности да у оквиру свог програма убациш истовремени прорачун старости заједничког претка са најближим хаплотипом из базе преко коефицијената брзине мутација маркера? То суштински не би било тешко да се оадради а било бу врло корисно.

Коре, мислиш ли да рачунарски поступак од свих узорака из збирке нађе койи му изгледа найближи по стопах промѣне? Нѣйе ми баш найяснийе шта ти прѣдлажеш.
Србски пѣсник Лаза Костић: "у млазових прочитам сричући" "по уздасих тако први' у јунака реч поврви"

Ван мреже Kor

  • Члан Друштва
  • Истраживач
  • *****
  • Поруке: 1000
  • реверзни инжињеринг историје
Одг: Рачунарски поступак за вѣроватноће старости зайедничкога прѣдка
« Одговор #16 послато: Новембар 12, 2015, 12:38:52 пре подне »
када већ програм ради анализу података да би дошао до највећег степена вероватноће припадности хаплогрупи, онда би истовремено могао да одради и неки оквирни прорачун старости заједничког претка. Лепо задаш коефицијенте по брзини мутирања маркера и да то буде као додатна информација уз одређену припадност хаплогрупи. Што би се рекло 2 у 1  :)

Ван мреже Александар Невски

  • Редакција СДНКП
  • Истраживач
  • ******
  • Поруке: 1135
Одг: Рачунарски поступак за вѣроватноће старости зайедничкога прѣдка
« Одговор #17 послато: Новембар 12, 2015, 06:27:46 поподне »
када већ програм ради анализу података да би дошао до највећег степена вероватноће припадности хаплогрупи, онда би истовремено могао да одради и неки оквирни прорачун старости заједничког претка. Лепо задаш коефицијенте по брзини мутирања маркера и да то буде као додатна информација уз одређену припадност хаплогрупи. Што би се рекло 2 у 1  :)

Коре, прѣдвиђач Невскога не ради непосрѣдно са хапловрстами, те йе то тешко изводиво. Тако нешто би се морало направити ван прѣдвиђача, за  шта сада немам врѣмена. Ко зна, можда йеднога дана буде нешто слично. Свакако ћу твой прѣдлог имати у виду.
Србски пѣсник Лаза Костић: "у млазових прочитам сричући" "по уздасих тако први' у јунака реч поврви"

Ван мреже Kor

  • Члан Друштва
  • Истраживач
  • *****
  • Поруке: 1000
  • реверзни инжињеринг историје
Одг: Рачунарски поступак за вѣроватноће старости зайедничкога прѣдка
« Одговор #18 послато: Новембар 18, 2015, 01:37:15 поподне »
али ради са хаплотиповима (односно са STR вредностима) као примарним подацима, ако се не варам? Ако је тако, онда би се лако могао увести прорачун удаљености од најближег поклапајућег хаплотипа простим рачунањем коефицијената брзине мутације на неиндентичним маркјерима.

О недостатку времена те јако добро разумем.

Ван мреже Đorđo

  • Члан Друштва
  • Познавалац
  • *****
  • Поруке: 775
  • shí shì qiú shì
Одг: Рачунарски поступак за вѣроватноће старости зайедничкога прѣдка
« Одговор #19 послато: Новембар 28, 2015, 01:10:36 поподне »
СТР прорачуни до времена заједничког претка су сами по себи доста непоуздани из простог разлога што 1% може да превагне над 99%, што и рече Невски, ради се само о вероватноћи изведеној из статистике