はじめに
シングルセルRNA-seq解析をはじめとする多次元データ解析では、数千〜数万の特徴量を「2次元マップ」に落とし込む次元削減が不可欠です。その代表的手法が t-SNE と UMAP。両者はしばしば同じ図に使われますが、原理や特徴には違いがあり、研究の結論に影響することもあります。
t-SNEの特徴
- 正式名称:t-distributed Stochastic Neighbor Embedding
- 強み:局所的な構造(近いデータ点同士の関係)を非常にうまく表現する。
- 弱み:
- クラスタ間の「遠さ」は必ずしも意味がない。
- ランダム初期化に依存するため再現性が低い。
- 計算コストが高く、大規模データでは時間がかかる。
- 典型的な利用場面:クラスタがどのように分かれているかを直感的に見せたいとき。
UMAPの特徴
- 正式名称:Uniform Manifold Approximation and Projection
- 強み:
- 大域的な構造(クラスタ間の相対関係)もある程度保持できる。
- 計算速度が速く、大規模データにも適している。
- 再現性が比較的高い。
- 弱み:ハイパーパラメータ(n_neighbors, min_dist)の設定次第でクラスタの見え方が変化する。
- 典型的な利用場面:クラスタ間の関係や連続性(発生分化経路など)を見たいとき。
t-SNEとUMAPの比較表
特徴 | t-SNE | UMAP |
---|---|---|
強調する関係 | 局所構造(近傍点の距離) | 局所+大域構造 |
再現性 | 低い(実行ごとに結果が変わる) | 高め |
計算速度 | 遅い(大規模データに不向き) | 速い(数十万細胞でも解析可能) |
ハイパーパラメータ | perplexity, learning rate | n_neighbors, min_dist |
解釈のしやすさ | クラスタの分離が明確 | クラスタ間のつながりを表現 |
代表的用途 | 細胞集団の存在を示す | 細胞分化の連続性を可視化 |
シングルセル解析での使い分け
- t-SNE
- 「どの細胞集団が存在するか」を可視化したいときに有効。
- クラスタごとの違いを強調したい場合に便利。
- UMAP
- 「細胞集団がどうつながっているか」を示したいときに有効。
- 発生やがんの分化軌跡を調べる研究ではUMAPがよく用いられる。
実際の論文では、t-SNEとUMAPの両方を併用して補完的に解釈する例も多く見られます。
まとめ
- t-SNE:クラスタの存在を強調。
- UMAP:クラスタ間の関係や連続性を保持。
- 研究目的に応じて両者を使い分けることが重要。
- シングルセル解析では「まずUMAPで全体像、次にt-SNEでクラスタを強調」という流れも有効です。
👉 本記事は教育目的の解説であり、実際の研究では使用するソフトウェア(Seurat, Scanpy など)のマニュアルや最新論文を参照してください。