【大学院生向け】t-SNEとUMAPを徹底比較:シングルセル解析で使われる次元削減法の違いとは?

  • このエントリーをはてなブックマークに追加
Pocket

はじめに

シングルセルRNA-seq解析をはじめとする多次元データ解析では、数千〜数万の特徴量を「2次元マップ」に落とし込む次元削減が不可欠です。その代表的手法が t-SNEUMAP。両者はしばしば同じ図に使われますが、原理や特徴には違いがあり、研究の結論に影響することもあります。


t-SNEの特徴

  • 正式名称:t-distributed Stochastic Neighbor Embedding
  • 強み:局所的な構造(近いデータ点同士の関係)を非常にうまく表現する。
  • 弱み
    • クラスタ間の「遠さ」は必ずしも意味がない。
    • ランダム初期化に依存するため再現性が低い。
    • 計算コストが高く、大規模データでは時間がかかる。
  • 典型的な利用場面:クラスタがどのように分かれているかを直感的に見せたいとき。

UMAPの特徴

  • 正式名称:Uniform Manifold Approximation and Projection
  • 強み
    • 大域的な構造(クラスタ間の相対関係)もある程度保持できる。
    • 計算速度が速く、大規模データにも適している。
    • 再現性が比較的高い。
  • 弱み:ハイパーパラメータ(n_neighbors, min_dist)の設定次第でクラスタの見え方が変化する。
  • 典型的な利用場面:クラスタ間の関係や連続性(発生分化経路など)を見たいとき。

t-SNEとUMAPの比較表

特徴t-SNEUMAP
強調する関係局所構造(近傍点の距離)局所+大域構造
再現性低い(実行ごとに結果が変わる)高め
計算速度遅い(大規模データに不向き)速い(数十万細胞でも解析可能)
ハイパーパラメータperplexity, learning raten_neighbors, min_dist
解釈のしやすさクラスタの分離が明確クラスタ間のつながりを表現
代表的用途細胞集団の存在を示す細胞分化の連続性を可視化

シングルセル解析での使い分け

  • t-SNE
    • 「どの細胞集団が存在するか」を可視化したいときに有効。
    • クラスタごとの違いを強調したい場合に便利。
  • UMAP
    • 「細胞集団がどうつながっているか」を示したいときに有効。
    • 発生やがんの分化軌跡を調べる研究ではUMAPがよく用いられる。

実際の論文では、t-SNEとUMAPの両方を併用して補完的に解釈する例も多く見られます。


まとめ

  • t-SNE:クラスタの存在を強調。
  • UMAP:クラスタ間の関係や連続性を保持。
  • 研究目的に応じて両者を使い分けることが重要。
  • シングルセル解析では「まずUMAPで全体像、次にt-SNEでクラスタを強調」という流れも有効です。

👉 本記事は教育目的の解説であり、実際の研究では使用するソフトウェア(Seurat, Scanpy など)のマニュアルや最新論文を参照してください。

  • このエントリーをはてなブックマークに追加

SNSでもご購読できます。

コメントを残す

*