Подијелио би упутство за израду
BAM hg38p13 фајла из
FASTQ фајлова са
DanteLabs-a и извлачење Y-DNA и mtDNA података уз помоћ useGalaxy сајта.
1. Потребно је регистрација на
usegalaxy.org или
usegalaxy.eu. Ради се о истој платформи на двије различите и неовисне адресе. На свакој имамо 250 GB запремине.
2. Након уписа на сајт, у горњем лијевом углу кликнемо на икону за пријенос податка, која је у облику стријелице (поред звијездице) и са свог диска пренесете оба FASTQ фајла, које смо претходно пребацили са DanteLabs-a.
3. На сај такођер пребацимо FASTA GRCh38_full_plus_hs38d1 фајл са
ове адресе, тако што у прозору за пребацивање фајла кликнемо на дугме "Paste/Fetch data" и у оквир испод коментара "Download data from the web...." копирамо поменути линк (URL). Потом кликнемо на дугме "Start".
4. Након одрађеног пребацивања фајлова у оквир за претрагу, такођер на лијевој горњој страни, упишемо "
BWA" и испод одаберемо "
Map with BWA-MEM" алатку.
5. Подешавања за "
Map with BWA-MEM" алатку:
- Will you select a reference genome from your history or use a built-in index? Use genome from history and build index
- Use the following dataset as the reference sequence 3: GRCh38_full_plus_hs38d1 uncompressed
- Single or Paired-end reads Paired
- Select first set of reads 1: Prvi FASTQ faj ...L001_R1_001.fastq.gz
- Select second set of reads 2: Drugi FASTQ faj ...L001_R2_001.fastq.gz
- Set read groups information? Set read groups (SAM/BAM specification)
- Specifying read group information can greatly simplify your downstream analyses by allowing combining multiple datasets. - Auto-assign - Yes
- Use dataset name or collection information to automatically assign this value - Auto-assign - Yes
- Platform/technology used to produce the reads (PL) ILLUMINA
- Auto-assign Yes
- Select analysis mode 1. Simple illumina mode
- Job Resource Parameters Use default job resource parameters
- Email notification Yes
- све остало оставите празно
- кликнемо на дугме Execute
Припрема BAM фајла може да потраје више од 24 часа, све зависи колико су им оптерећени ресурси. Добијени BAM фајл ће износити негдје између 30 и 50 GB, у зависности од квалитета и величине FASTQ фајлова.
6. За извлачење Y-DNA и mtDNA података у мањи BAM фајл упишемо у оквир за претрагу "
slice" и одаберемо "
Slice BAM by genomic regions".
7. Подешавања за "
Slice BAM by genomic regions" алатку:
- Select BAM dataset to slice 4: Map with BWA-MEM on data 2, data 1, and data 3 (mapped reads in BAM format)
- How do you want to slice your dataset? by chromosomes/contigs present in the BAM dataset
- Select references (chromosomes and contigs) you would like to restrict bam to chrY chrM chrY_KI270740v1_random
- Email notification Yes
- кликнемо на дугме Execute
Припрема овог BAM фајла је врло брза, јер је пуно мањи, по мом искуству негдје између 250 и 400 GB. Добијени фајл скинемо на свој компјутер и пребацимо га на неки интернетни простор (нпр. Dropbox, Google Drive, OneDrive...) одакле можемо прослиједити линк за скидање YFull-u.
Вјероватно са овом процедуром нећете добити најквалитетније и најсадржајније BAM фајлове, пошто је моје знање из генетике и процесирања генетичких података врло ограничено. Знам да међу члановима форума и друштва има изврсних познавалаца ове материје, па би свака сугестија добро дошла. Како год, из личног искуству са YFull-om, мој BAM фајл само са Y-DNA и mtDNA подацима је изгледа испао доста добар, на стаблу сам добио нову грану.
Још само мало поређење оваквог BAM фајла са фајлом из DanteLabs-a:
DanteLabsBAM GRCh37/hg19 - 45,2 GB
BAM Y-DNA & mtDNA - 170,7 MB
chrY Mapped Gbases - 0.47
chrY Avg data depth - 7x
usegalaxyBAM GRCh38/hg38 - 39,3 GB
BAM Y-DNA & mtDNA - 282,2 MB
chrY Mapped Gbases - 0.65
chrY Avg data depth - 11x