はじめに
次世代シーケンサー(Next Generation Sequencing:NGS)は、ゲノムやトランスクリプトームの網羅的な解析を可能にした革新的な技術です。特にRNA-seqやDNA-seqでは、「シーケンス」「マッピング」「定量解析」の3ステップが基本的な解析フローとなります。
この記事では、それぞれのステップについて、バイオインフォマティクス初心者でも理解できるように、丁寧に解説します。
ステップ①:シーケンス(Sequencing)
目的:
DNAやRNA由来の断片を読み取り、**塩基配列(リード)**として取得する。
概要:
NGSでは、まずライブラリ化されたDNA断片(アダプターが付いた状態)をシーケンサーで読み取ります。代表的なプラットフォームとしてIllumina(短鎖リード)やOxford Nanopore(長鎖リード)があります。
流れ:
- ライブラリ調製:断片化 → アダプター付加 → 増幅
- クラスター生成(Illumina):フローセル上で同一DNA断片が増幅される
- シーケンシング:
- Illumina:リバーシブルターミネータ法
- Nanopore:ナノポアを通過する電流変化で塩基を読み取る
- FASTQファイル出力:リード配列とクオリティ情報が含まれる
ステップ②:マッピング(Mapping)
目的:
得られたリードを、**既知のリファレンスゲノムやトランスクリプトームに位置づける(アラインメント)**こと。
使用ツール:
- DNA-seq:BWA, Bowtie2
- RNA-seq:STAR, HISAT2 など(スプライスサイトの処理も対応)
ポイント:
- リード品質の確認(FastQCなど)
- トリミング(低品質な塩基やアダプター除去)
- マルチマッピング:同じリードが複数の場所に当たる場合の処理
- 出力形式:SAM/BAMファイルとして保存
補足:
RNA-seqでは、スプライシングを考慮したアラインメントが重要です。例えば、STARはイントロンをスキップしてエクソンをつなぐリードにも対応できます。
ステップ③:定量解析(Quantification)
目的:
遺伝子やトランスクリプトの発現量を定量化する。
方法:
- カウントベース法:
- featureCounts(遺伝子ごとのリード数をカウント)
- HTSeq-count
- 確率モデルベース:
- RSEM, Salmon, Kallisto(高速でトランスクリプトレベルの定量が可能)
正規化の重要性:
- TPM(Transcripts Per Million)
- FPKM(Fragments Per Kilobase of transcript per Million reads mapped)
- DESeq2やedgeRでは、生データからライブラリサイズ補正を加味
応用解析への発展
定量解析後は、差次的発現解析(DEG解析)、クラスタリング、経路解析、Gene Set Enrichment Analysis(GSEA)などに進むのが一般的です。
まとめ
ステップ | 内容 | 主なツール | 出力 |
---|---|---|---|
シーケンス | 塩基配列を読む | Illumina, Nanopore | FASTQ |
マッピング | リードをゲノムに配置 | STAR, HISAT2 | BAM |
定量解析 | 発現量の計算 | featureCounts, Salmon | カウント行列(TSVなど) |
NGS解析は一見複雑ですが、上記の3ステップを理解することで、解析の全体像がつかめます。今後、RNA-seq、ATAC-seq、ChIP-seqなど、さまざまなオミクス解析にも応用可能です。