#!/usr/bin/env bash
# Module 1 Solutions — try the exercises yourself first!

# --- Exercise 1 ---
ls -lh data/example/
wc -l data/example/example.fastq

# --- Exercise 2 ---
echo $(( $(wc -l < data/example/example.fastq) / 4 )) reads

# --- Exercise 3 ---
# Headers look like "@SRR7890001.1 Illumina HiSeq 2500 read 1" (space-delimited),
# so the instrument name is fields 2-4. (cut -d':' would not match — there are no colons.)
grep "^@" data/example/example.fastq | cut -d' ' -f2-4 | sort -u

# --- Exercise 4 ---
echo $(( $(zcat data/raw/sample_R1.fastq.gz | wc -l) / 4 )) reads

# --- Exercise 5 ---
cut -f2,3 data/example/genes.tsv | sort -k2,2

# --- Exercise 6 ---
grep -E $'\t(chrX|chrY)\t' data/example/genes.tsv
grep -E '^[^\t]*\tBRCA' data/example/genes.tsv

# --- Exercise 7 ---
cut -f3 data/example/genes.tsv | sort | uniq -c | sort -rn

# --- Exercise 8 ---
for sample in SRR7890001 SRR7890002 SRR7890003; do
  echo "Processing sample: ${sample}"
  mkdir -p "results/${sample}"
done