Аутор Тема: Корисне алатке, линкови и упутства (Прочитано 6175 пута)

Прерад

Мислим да на форуму нема сличне теме, ако има нека модератори пребаце пост у њу и бришу што је већ написано.

Неколико алатки које вам могу користити код баратања са различитим фајловма.

1. WGSExtract

Алатка за WGS BAM фајл. Са њом се нпр. може из WGS BAM фајл (DanteLabs) издвојити Y-DNA, mtDNA (заједно или одвојено) и различите врсте аутосомалних фајлова (FTDNA, 23andMe, Ancestry...). Добијени Y-DNA и mtDNA BAM фајл је много мањи од WGS BAM фајл и пуно "лакши" за пребацивање на YFull. Док аутосомалне фајлове се може пребацити на GEDmatch, MyHeritage... Наводно се најбоље резултате постиже са извлачењем 23andMe_V4 фајла. Ако имам случајно криву информацију, слободно ме исправите.

2. DNA Kit Studio

Алатка за аутосомалне фајлове. На жалост није употребљива за mtDNA предикцију из Дантеовог VCF фајла, пошто се mtDNA подаци заснивају на другом стандарду. Али може се извући mtDNA txt фајл и ручно исправити постојеће вриједности. Више информација имате овдје.

3. Admixture Studio

Алатка за аутосомалне фајлове, омогућује поређење са бројним популационим рачунарима.

4. jameslick сајт

Сајт за mtDNA предикцију из различитих фајлова које садрже mtDNA податке. Нпр. из WGS BAM фајла (DanteLabs) се извуче mtDNA FASTA фајл уз помоћ WGSExtract алатке (под бр. 1) и убаци ту, након неколико тренутака добије се предикција mtDNA хаплогрупе.

5. useGalaxy сајт

Потребна је регистрација. Сајт са прегршт функција, нпр. може се пребацити и обрађивати WGS BAM и FASTQ фајлове (DanteLabs). Има 250 GB бесплатне запремине.

Прерад

Подијелио би упутство за израду BAM hg38p13 фајла из FASTQ фајлова са DanteLabs-a и извлачење Y-DNA и mtDNA података уз помоћ useGalaxy сајта.

1. Потребно је регистрација на usegalaxy.org или usegalaxy.eu. Ради се о истој платформи на двије различите и неовисне адресе. На свакој имамо 250 GB запремине.

2. Након уписа на сајт, у горњем лијевом углу кликнемо на икону за пријенос податка, која је у облику стријелице (поред звијездице) и са свог диска пренесете оба FASTQ фајла, које смо претходно пребацили са DanteLabs-a.

3. На сај такођер пребацимо FASTA GRCh38_full_plus_hs38d1 фајл са ове адресе, тако што у прозору за пребацивање фајла кликнемо на дугме "Paste/Fetch data" и у оквир испод коментара "Download data from the web...." копирамо поменути линк (URL). Потом кликнемо на дугме "Start".

4. Након одрађеног пребацивања фајлова у оквир за претрагу, такођер на лијевој горњој страни, упишемо "BWA" и испод одаберемо "Map with BWA-MEM" алатку.

5. Подешавања за "Map with BWA-MEM" алатку:

Will you select a reference genome from your history or use a built-in index? Use genome from history and build index
Use the following dataset as the reference sequence 3: GRCh38_full_plus_hs38d1 uncompressed
Single or Paired-end reads Paired
Select first set of reads 1: Prvi FASTQ faj ...L001_R1_001.fastq.gz
Select second set of reads 2: Drugi FASTQ faj ...L001_R2_001.fastq.gz
Set read groups information? Set read groups (SAM/BAM specification)
Specifying read group information can greatly simplify your downstream analyses by allowing combining multiple datasets. - Auto-assign - Yes
Use dataset name or collection information to automatically assign this value - Auto-assign - Yes
Platform/technology used to produce the reads (PL) ILLUMINA
Auto-assign Yes
Select analysis mode 1. Simple illumina mode
Job Resource Parameters Use default job resource parameters
Email notification Yes
све остало оставите празно
кликнемо на дугме Execute

Припрема BAM фајла може да потраје више од 24 часа, све зависи колико су им оптерећени ресурси. Добијени BAM фајл ће износити негдје између 30 и 50 GB, у зависности од квалитета и величине FASTQ фајлова.

6. За извлачење Y-DNA и mtDNA података у мањи BAM фајл упишемо у оквир за претрагу "slice" и одаберемо "Slice BAM by genomic regions".

7. Подешавања за "Slice BAM by genomic regions" алатку:

Select BAM dataset to slice 4: Map with BWA-MEM on data 2, data 1, and data 3 (mapped reads in BAM format)
How do you want to slice your dataset? by chromosomes/contigs present in the BAM dataset
Select references (chromosomes and contigs) you would like to restrict bam to chrY chrM chrY_KI270740v1_random
Email notification Yes
кликнемо на дугме Execute

Припрема овог BAM фајла је врло брза, јер је пуно мањи, по мом искуству негдје између 250 и 400 GB. Добијени фајл скинемо на свој компјутер и пребацимо га на неки интернетни простор (нпр. Dropbox, Google Drive, OneDrive...) одакле можемо прослиједити линк за скидање YFull-u.

Вјероватно са овом процедуром нећете добити најквалитетније и најсадржајније BAM фајлове, пошто је моје знање из генетике и процесирања генетичких података врло ограничено. Знам да међу члановима форума и друштва има изврсних познавалаца ове материје, па би свака сугестија добро дошла. Како год, из личног искуству са YFull-om, мој BAM фајл само са Y-DNA и mtDNA подацима је изгледа испао доста добар, на стаблу сам добио нову грану.

Још само мало поређење оваквог BAM фајла са фајлом из DanteLabs-a:

DanteLabs
BAM GRCh37/hg19 - 45,2 GB
BAM Y-DNA & mtDNA - 170,7 MB
chrY Mapped Gbases - 0.47
chrY Avg data depth - 7x

usegalaxy
BAM GRCh38/hg38 - 39,3 GB
BAM Y-DNA & mtDNA - 282,2 MB
chrY Mapped Gbases - 0.65
chrY Avg data depth - 11x

Слатинац

Мислим да је једноставније и боље решење да се овима из Yfull-a да приступ налогу на Дантеовом сајту, као што су Сунце и НСБ урадили. После ће они сами да извуку све податке које си ти навео и резултате да окаче на њихово стабло. Ово је боље решење, јер нема петљанција, скидања фајлова, и некоме ко се не разуме добро у компијутере овај процес о ком си ти писао биће мало компликован.

Прерад

Да, једноставније им је дати доступ до рачуна код ДантеЛабса. YFull сигурно не претвара BAM hg19 у hg38, а како знам FASTQ фајлове не примају. Неко од познавалаца тематике би требао прокоментарисати шта се добија односно губи ако имамо hg19 или hg38.
Ако неко жели имати BAM hg38 онда га може сам израдити на овај начин и на YFull послати само Y-DNA и mtDNA, пошто им остало не треба.

BAM hg38 се може израдити из FASTQ фајлова исто преко Yseq-a. Ако се не варам, цијена је 25$ за постојеће муштерије. Мислим да га и они онда шаљју на YFull.

Uzi

Да ли се из FASTQ фајла на Галаксију поред .бам фајла добије и .баи фајл?

Ojler

Цитат: Uzi Фебруар 05, 2020, 01:07:27 пре подне

Да ли се из FASTQ фајла на Галаксију поред .бам фајла добије и .баи фајл?

Да.

Прерад

Мада сам овај линк са одличним упутствима за WGSExtract већ ставио у другој теми, нека буде и овдје.

Недавно је изашла нова верзија програма и сада предвиђа Y-DNA хаплогрупу.

И још двије слике корисничког сучеља.

Вести:

Аутор Тема: Корисне алатке, линкови и упутства (Прочитано 6175 пута)

Прерад

Корисне алатке, линкови и упутства

Прерад

Одг: Корисне алатке, линкови и упутства

Слатинац

Одг: Корисне алатке, линкови и упутства

Прерад

Одг: Корисне алатке, линкови и упутства

Uzi

Одг: Корисне алатке, линкови и упутства

Ojler

Одг: Корисне алатке, линкови и упутства

Прерад

Одг: Корисне алатке, линкови и упутства