次世代シーケンサー(NGS)におけるシーケンス・マッピング・定量解析の流れを徹底解説

  • このエントリーをはてなブックマークに追加
Pocket

はじめに

次世代シーケンサー(Next Generation Sequencing:NGS)は、ゲノムやトランスクリプトームの網羅的な解析を可能にした革新的な技術です。特にRNA-seqやDNA-seqでは、「シーケンス」「マッピング」「定量解析」の3ステップが基本的な解析フローとなります。

この記事では、それぞれのステップについて、バイオインフォマティクス初心者でも理解できるように、丁寧に解説します。


ステップ①:シーケンス(Sequencing)

目的:

DNAやRNA由来の断片を読み取り、**塩基配列(リード)**として取得する。

概要:

NGSでは、まずライブラリ化されたDNA断片(アダプターが付いた状態)をシーケンサーで読み取ります。代表的なプラットフォームとしてIllumina(短鎖リード)やOxford Nanopore(長鎖リード)があります。

流れ:

  1. ライブラリ調製:断片化 → アダプター付加 → 増幅
  2. クラスター生成(Illumina):フローセル上で同一DNA断片が増幅される
  3. シーケンシング
    • Illumina:リバーシブルターミネータ法
    • Nanopore:ナノポアを通過する電流変化で塩基を読み取る
  4. FASTQファイル出力:リード配列とクオリティ情報が含まれる

ステップ②:マッピング(Mapping)

目的:

得られたリードを、**既知のリファレンスゲノムやトランスクリプトームに位置づける(アラインメント)**こと。

使用ツール:

  • DNA-seq:BWA, Bowtie2
  • RNA-seq:STAR, HISAT2 など(スプライスサイトの処理も対応)

ポイント:

  • リード品質の確認(FastQCなど)
  • トリミング(低品質な塩基やアダプター除去)
  • マルチマッピング:同じリードが複数の場所に当たる場合の処理
  • 出力形式:SAM/BAMファイルとして保存

補足:

RNA-seqでは、スプライシングを考慮したアラインメントが重要です。例えば、STARはイントロンをスキップしてエクソンをつなぐリードにも対応できます。


ステップ③:定量解析(Quantification)

目的:

遺伝子やトランスクリプトの発現量を定量化する。

方法:

  • カウントベース法
    • featureCounts(遺伝子ごとのリード数をカウント)
    • HTSeq-count
  • 確率モデルベース
    • RSEM, Salmon, Kallisto(高速でトランスクリプトレベルの定量が可能)

正規化の重要性:

  • TPM(Transcripts Per Million)
  • FPKM(Fragments Per Kilobase of transcript per Million reads mapped)
  • DESeq2やedgeRでは、生データからライブラリサイズ補正を加味

応用解析への発展

定量解析後は、差次的発現解析(DEG解析)、クラスタリング、経路解析、Gene Set Enrichment Analysis(GSEA)などに進むのが一般的です。


まとめ

ステップ内容主なツール出力
シーケンス塩基配列を読むIllumina, NanoporeFASTQ
マッピングリードをゲノムに配置STAR, HISAT2BAM
定量解析発現量の計算featureCounts, Salmonカウント行列(TSVなど)

NGS解析は一見複雑ですが、上記の3ステップを理解することで、解析の全体像がつかめます。今後、RNA-seq、ATAC-seq、ChIP-seqなど、さまざまなオミクス解析にも応用可能です。

  • このエントリーをはてなブックマークに追加

SNSでもご購読できます。

コメントを残す

*