Аутор Тема: ЕВРОГЕНИ рачунач - Eurogenes  (Прочитано 14621 пута)

Ван мреже Ojler

  • Одбор за хералдику
  • Етнолог
  • ******
  • Поруке: 2364
  • Y-DNK: I2-Y3120 Z17855>PH3414 Мириловићи
Одг: ЕВРОГЕНИ рачунач - Eurogenes
« Одговор #120 послато: јул 06, 2019, 12:27:02 пре подне »
Требало је да се тестирате преко ФТДНА.

Требало је. Сад је готово.
Kамене рабъ и госодинъ

На мрежи НиколаВук

  • Помоћник уредника
  • Бели орао
  • *****
  • Поруке: 4711
  • I2-PH908>FT14506>Y52621, род Никшића
Одг: ЕВРОГЕНИ рачунач - Eurogenes
« Одговор #121 послато: јул 10, 2019, 08:31:18 пре подне »
Тед Кандел је у објави на ФБ (Yfull група) написао да Dante Labs користи другачију конвенцију за именовање хромозома, па можда то има неке везе и са Ојлеровим чудним аутосомалним резултатима. Цитат:

"‎Ted Kandell‎ за YFull.com
7 ч. ·
Vadim, I would like to point out that BAM files with the chromosome naming convention 1 ... 22, X, Y, MT do not have errors, but are using the Ensembl chromosome naming convention.
Dante Labs is using Sequencing .com's isaac-align (for some mysterious reason) for their realignment to hg38, and this has been producing BAM files with this chromosome naming convention as opposed to the UCSC chr1 ... chr22, chrX, chrY, chrM.
There is a simple way to handle these BAM files, test for the presence of the Ensembl chromosome naming convention, and produce a BAM file with the UCSC "chr1 .. chr22, chrX, chrY, chrM" naming convention:
if [[ $(samtools view -H 60820188473843.grch38-Y-MT.bam | grep 'SN:Y' | wc -l) == 1 ]]
then
   samtools view -H XXXXXXXXXXXX.grch38.bam | sed -e 's/
SN:\([[:digit:]]\+\)/SN:chr\1/' -e 's/SN:\([XY]\)/SN:chr\1/' -e 's/SN:MT/SN:chrM/' > new_header.sam
   samtools reheader new_header.sam  XXXXXXXXXXXX.grch38.bam >  XXXXXXXXXXXX.grch38.reheadered.bam
fi
BTW, the UCSC Genome Browser can now handle BAM and VCF files that use Ensembl chromosome names.
"

"Ted Kandell For a list of conversions between the various chromosome name mappings, see here:
https://github.com/dpryan79/ChromosomeMappings
"
Чињеницама против самоувереног незнања.

Ван мреже Ojler

  • Одбор за хералдику
  • Етнолог
  • ******
  • Поруке: 2364
  • Y-DNK: I2-Y3120 Z17855>PH3414 Мириловићи
Одг: ЕВРОГЕНИ рачунач - Eurogenes
« Одговор #122 послато: јул 10, 2019, 11:27:13 пре подне »
Тед Кандел је у објави на ФБ (Yfull група) написао да Dante Labs користи другачију конвенцију за именовање хромозома, па можда то има неке везе и са Ојлеровим чудним аутосомалним резултатима. Цитат:

"‎Ted Kandell‎ за YFull.com
7 ч. ·
Vadim, I would like to point out that BAM files with the chromosome naming convention 1 ... 22, X, Y, MT do not have errors, but are using the Ensembl chromosome naming convention.
Dante Labs is using Sequencing .com's isaac-align (for some mysterious reason) for their realignment to hg38, and this has been producing BAM files with this chromosome naming convention as opposed to the UCSC chr1 ... chr22, chrX, chrY, chrM.
There is a simple way to handle these BAM files, test for the presence of the Ensembl chromosome naming convention, and produce a BAM file with the UCSC "chr1 .. chr22, chrX, chrY, chrM" naming convention:
if [[ $(samtools view -H 60820188473843.grch38-Y-MT.bam | grep 'SN:Y' | wc -l) == 1 ]]
then
   samtools view -H XXXXXXXXXXXX.grch38.bam | sed -e 's/
SN:\([[:digit:]]\+\)/SN:chr\1/' -e 's/SN:\([XY]\)/SN:chr\1/' -e 's/SN:MT/SN:chrM/' > new_header.sam
   samtools reheader new_header.sam  XXXXXXXXXXXX.grch38.bam >  XXXXXXXXXXXX.grch38.reheadered.bam
fi
BTW, the UCSC Genome Browser can now handle BAM and VCF files that use Ensembl chromosome names.
"

"Ted Kandell For a list of conversions between the various chromosome name mappings, see here:
https://github.com/dpryan79/ChromosomeMappings
"

Није до тога. Ово о чему пише Тед је тривијална разлика која се огледа у томе да се у једном формату за ознаку хромозома користи само број, од 1 до 22, плус слова X, Y и MT, док у другом формату испред повенутих бројева и слова стоји још и скраћеница "chr". Дакле, chr1, chr2, ... chr22, chrX, chrY и chrM.

Иначе, нашао сам објашње за чудне резултате које сам добио:

Цитат
The VCF file only contains the variants of your genome against the human reference.
The DTC RAW files contain both types, variants and non variants.
On GEDmatch Admixture calculator, at the bottom of the page of the result chart, you will get count of SNPs used for the calculation. For regular old FTDNA or Ancestry format you will get around 170.000 snps used, but for your Dante Labs converted file is less than 50.000, so there is a big chunk of analysis that is not being correctly performed.
So, the VCF file converted to 23andMe, FTDNA or Ancestry format, isn’t going to work for GEDmatch, because it’s missing all of the homozygous reference calls.

Укратко, VCF фајл, што је формат који "по дифолту" испоручује Данте Лабс, садржи само варијације у односу на референтни људски геном, у њиховом случају hg19. Како GEDmatch више не прихвата VCF фајлове, неопходно је овај VCF фајл добијен од Дантеа конвертовати у неки од подржаних формата (23andMe, Ancestry, FTDNA,...) што је једноставно урадити помоћу програма DNA Kit Studio. Проблем је што овако добијени фајлови не садрже довољно информација да би GEDmatch калкулатори могли правилно да раде. У наведеном објашњењу се помиње да недостају хомозиготне референце (шта год то било). Нисам сигуран могу ли се те недостајуће информације некако реконструисати из референтног генома и укључити у фајл за GEDmatch анализу. Поставио сам питање на једној групи Данте Лабс муштерија али нико још не одговара. Тед Кендал је писао нешто о томе да је реконструкција свих очитавања само на основу VCF фајла и референтног генома немогућа, јер се у VCF фајлу губи информација која очитавања су била неуспешна, тако да реконструкција може да да или лажна позитивна или лажна негативна очитавања локуса за које недостају информације.
Kамене рабъ и госодинъ