# Workshop Schedule

## Day 1: Raw Data to Aligned Reads (4 hours)

```
09:00 - 09:45  Module 1 — Linux CLI for Bioinformatics
               File system navigation, pipes, grep, awk, cut, sort, uniq
               Working with compressed files (gzip, bgzip, tabix)
               Writing simple shell scripts

09:45 - 10:30  Module 2 — Sequence Data Formats
               FASTA: structure, headers, multi-sequence files
               FASTQ: quality scores, Phred encoding, base calling
               SAM/BAM: header sections, FLAGS, CIGAR strings
               VCF: variant representation, INFO/FORMAT fields
               BED/GFF3: genomic intervals

10:30 - 10:45  --- BREAK ---

10:45 - 11:45  Module 3 — Quality Control + Read Trimming
               FastQC: per-base quality, GC content, adapter contamination
               MultiQC: aggregating reports across samples
               Trimmomatic: adapter removal, quality sliding window
               fastp: faster alternative, hands-on comparison

11:45 - 13:00  Module 4 — Read Alignment to Reference Genome
               BWA-MEM2: index building, alignment, SAM output
               SAMtools: sort, index, flagstat, view, idxstats
               Alignment QC: coverage depth, mapping rate, insert size
               Visualization in IGV
```

## Day 2: From Aligned Reads to Biology (4 hours)

```
09:00 - 10:10  Module 5 — BAM Processing + Variant Calling
               Picard: MarkDuplicates, AddOrReplaceReadGroups
               GATK4 HaplotypeCaller: germline SNP/indel calling
               GATK BQSR: base quality score recalibration
               Filtering variants: VQSR vs hard filtering
               Annotating with SnpEff/ANNOVAR

10:10 - 11:20  Module 6 — RNA-seq: Quantification + Differential Expression
               HISAT2: splice-aware alignment
               featureCounts / Salmon: read counting vs quasi-mapping
               R/DESeq2: normalization, dispersion estimation, Wald test
               Volcano plots, MA plots, heatmaps
               Gene ontology enrichment (clusterProfiler)

11:20 - 11:35  --- BREAK ---

11:35 - 12:25  Module 7 — Visualization + Pathway Analysis
               IGV deep dive: tracks, custom annotation
               Python: matplotlib/seaborn genomic plots
               Biopython: parsing sequence files programmatically
               KEGG/Reactome pathway visualization

12:25 - 13:00  Module 8 — Capstone Project
               End-to-end mini-analysis on provided dataset
               QC → align → call variants → annotate → interpret
               Present findings to the group
```