Када се говори о процентима ”дужинске покривености” (length coverage) Y хромозома приликом секвенцирања код различитих компанија, треба разјаснити на шта се тај проценат односи. Целокупан хумани Y хромозом има ~ 57 милиона базних парова. Од тога, само 25-26 милиона базних парове се може секвенцирати доступним NGS методама, са различитим степеном поузданости очитавања појединачних позиција у зависности од региона хромозома. На крају долазимо до свега ~ 8.5 милиона базних парова који чине делове Y хромозома (код YFull-а означени као combBED area) који се сматрају релевантним за филогенетска испитивања и где се могу поуздано маркирати SNP-ови и бројати STR-ови.
.......................................................
Неки људи су били заинтересовани да укључим у поређење још пар популарних тестова у којиме се или циљано секвенцира Y хромозом (
Y-Elite тест код
FullGenomesCorp) или се ради секвенцирање читавог генома (нпр. WGS код
YSeq или
FullGenomesCorp). Пошто немам примере статистике након YFull анализе за ове тестове, мислим да је за поређење најбоље погледати статистику представљену на сајту:
https://haplogroup-r.org/stats.html, који је направљен као репозиторијум за резултате секвенцирања Y хромозома за припаднике хаплогрупе R.
Извукао сам податке за тренутно најзначајније NGS тестове овог типа:
Када је у питању генетичка генеалогија, што је оно што нас овде занима, треба обратити пажњу на две колоне уоквирене црвеном линијом:
-
combBED локусе сам већ поменуо у претходном посту на овој теми. Они су описани у раду у коме су учествовали људи са YFull-а (
Adamov et al. (2015)) и први услов да би новооткривени SNP био сматран релевантним за утврђивање филогенетских веза и старости грана од стране YFull-а јесте да се налази у овим регионима Y хромозома. Ови локуси су заправо пресек локуса на Y хромозому које циљано секвенцира FTDNA у својим BigY тестовима (
BIG Y) и оних дефинисаних у раду Poznik et al. (2013)
-
локуси дефинисани у раду Poznik et al. (2013) су они код којих је установљено да се позиције могу очитавати (
genotype calling) са високом поузданошћу и који испуњавају још неке предуслове да би се могли користити за испитивање филогенетских односа.
У обе колоне је наведен просечан број очитаних позиција (што одговара дужинској покривености) и коефицијент варијансе (
CV - као мера дисперзије, тј. одступања појединачних тестова од просечне вредности). У последње две колоне су дати број појединачних тестова (
n) који су коришћени за статистику, као и време потребно за једну SNP мутацију процењено за сваки тип теста (
est. years/ SNP).
Као што сам већ написао, YFull за прорачуне користи само SNP-ове који се налазе у
combBED локусима. У принципу би се за филогенетске анализе могли користити, поред њих, и остали SNP-ови који потпадају под Позник локусе Y хромозома (NB:
Позник локуси = combBED локуси + још неки додатни локуси).
Овде само морам напоменути да нисам сигуран да ли су DanteLabs WGS тестови који су овде коришћени део првобитних Дантеових секвенцирања који су рађени код BGI (то су секвенцирања чији су резултати често каснили по више месеци) или су у питању скорија секвенцирања која DanteLabs сада ради у својој новој лабораторији.