Методологија приликом израде статистике на основу резултата из јавних база

ДНК порекло > ГГ Разно

(1/2) > >>

Небојша:
С обзиром да често правимо статистике заступљености хаплогрупа по регионима, мислим да је важно да дефинишемо који су параметри потребни да тај пресек буде што реалнији. Ту се пре свега јављају проблеми малог и неравномерног узорка, као и плански тестираних родова.

Код анонимних истраживања такав проблем не постоји, зато што су тамо углавном тестирани несродни појединци, пореклом из одређених области. Ту са друге стране постоји проблем што некада не знамо ко је све обухваћен истраживањем.

Што се јавних база тиче, конкретно код нас у пројекту сада већ постоји велики број плански тестираних родова, што може реметити неку реалну слику, која нам је, верујем, свима циљ. Посебно уколико је узорак незадовољавајући.

Први услов је да узорак буде задовољавајућ. Уколико је могуће и равномерно распоређен.

Други, већи проблем, постоји са плански тестираним родовима и/или породицама које се "понављају". Већ смо раније констатовали да се не требају рачунати породице које се у потпуности дуплирају (исто презиме, слава и место порекла).

Главно питање је како регулисати плански тестиране породице, тј. родове који су тестирани да би се потврдила генетска веза на основу литературе, предања, презимена/славе. Да не набрајам, списак таквих породица је сада већ прилично велики.

Некада те породице носе исто презиме, а нису из истог места, мада сматрам да их ни ту не треба рачунати, посебно ако је узорак мали. Исти принцип би можда требао бити и код оних који се сасвим случајно тестирају, а у том крају већ имају презимењаке који припадају истој хаплогрупи/подграни.

Код ових других, где постоји веза на основу литературе, па се "плански" организује и тестирање да би се потврдила иста, треба некако регулисати бројку. Убацити можда само неколико породица, главна братства и сл. То је већ за дискусију.

Да не дужим, немам идеју како би то тачно изгледало. Не бих да звучим грубо са тим "избацивањем" из статистике, увек можемо урадити и комплетну статистику на основу свих тестираних. Ово је више покушај да се креира колико-толико реална генетска слика неког подручја.

Сви предлози су добродошли! :)

Uzi:
Претпостављам да доста зависи од тога шта се жели достићи са статистиком. Ако се жели достићи реалнији пресек становништва неке регије, онда се бројније породице и могу убрајати са више тестираним припадницима тог рода.

Али ако се жели само сазнати које су све хаплогрупе присутне међу становништвом неке регије, и колико су оне разширене међу тим становништвом онда дуплициране породице нема смисла убрајати.

Небојша:

--- Цитат: Uzi Јануар 27, 2018, 09:43:29 поподне ---Претпостављам да доста зависи од тога шта се жели достићи са статистиком. Ако се жели достићи реалнији пресек становништва неке регије, онда се бројније породице и могу убрајати са више тестираним припадницима тог рода.
--- Крај цитата ---

Да, јако је незгодно. Зато треба бити опрезан. У зависности од бројности тестираних родова, узорка, итд. Имамо сада ситуацију нпр. да у неким крајевима узорак износи 50, или 60, а да на плански тестиране родове (одређено племе, род, братство) одлази 30, или 40%. Таква статистика би просто била погрешна, а циљ је нека реална слика заступљености хг у том крају на пример.

Мића:

--- Цитат: Небојша Јануар 27, 2018, 09:59:21 поподне ---Да, јако је незгодно. Зато треба бити опрезан. У зависности од бројности тестираних родова, узорка, итд. Имамо сада ситуацију нпр. да у неким крајевима узорак износи 50, или 60, а да на плански тестиране родове (одређено племе, род, братство) одлази 30, или 40%. Таква статистика би просто била погрешна, а циљ је нека реална слика заступљености хг у том крају на пример.

--- Крај цитата ---
Свакако би требало смањити заступљеност племена/братства/рода на ниво заступљености на одређеној територији. Да се не би изгубиле информације о свим селима и славама где је племе/братство/род забележен може се смањити пондер припадницима братства. У конкретаном случају ако на одређеној територији има 60 тестираних, а од тога су 20 плански тестирани и сви припадају истој грани хаплогрупе и носе различита презимена/славе ових 20 би требало рачунати као 1. Па би имали "41" тестираног од тога 40 несродних са пондером 1 и 20 тестираних братственика са пондером 0.05, дакле укупно се у статистици броје се као 1.
Наравно, уколико је велико братство/племе треба проценити да ли оно на одређеној територији чини више од 2.5% становништва у овом случају, онда би сразмерно већи пондер дали том братству/племену.

Гмитар:
Ваљало би да неки математичар поткрепи ово - код обраде података који нису случајни, подаци се могу поделити у две групе, где прва група представља узорак а друга група представља контролу. Одређени број насумично изабраних података из узорка замењује се са насумично изабраним подацима из контроле. На тај начин, насумичним избором уклониће се део података који није случајан.

У нашем случају, ДНК пројекти могу чинити узорак, а научна истраживања могу чинити контролу.

С тиме што не знам колико то има смисла зато што су онда научна истраживања укључена у обе статистике. :)

Да би се уопште могао применити статистички алат, узорак и контрола би требало да дају исте параметре (средња вредност, стандардна девијација итд.) што овде ни мало није случај, тако да нисам сигуран да ово изнад наведено има стабилну математичку основу.

Бојим се да су за приказ стварне слике репрезентстивна само научна истраживања, осим ако се не изврши нека исправка са тежинским коефицијентима (пондер) као што је Мића рекао.

Навигација

[0] Индекс порука

[#] Следећа страна

Иди на пуну верзију