【大学院生向け】t-SNE map徹底解説:多次元データを「見える化」する次元削減法

  • このエントリーをはてなブックマークに追加
Pocket

t-SNEとは?

t-SNE(t-distributed Stochastic Neighbor Embedding, ティーエスエヌイー)は、高次元データを2次元や3次元に縮約して「人間が直感的に理解できる地図」として可視化するための次元削減手法です。2008年にLaurens van der MaatenとGeoffrey Hintonによって提案され、特にシングルセルRNA-seq解析で有名になりました。

例えば、細胞ごとの数千遺伝子の発現パターン(多次元データ)をt-SNEで処理すると、似た細胞は近くに、異なる細胞は離れて配置される「t-SNE map」を得られます。


原理の概要

t-SNEの基本的な考え方は、

  • 高次元空間:データ間の「類似度」を確率分布として表現する。
  • 低次元空間:点を配置して、類似度の分布ができるだけ一致するように最適化する。

特にt-SNEでは「t分布(重い裾を持つ分布)」を使うことで、低次元空間で「クラスタが重ならずに」見えやすくなるという特徴があります。


t-SNE mapの特徴

  1. クラスタの視覚化に強い
    似たデータ点がまとまり、異なる集団が離れて配置されるため、細胞集団やサンプル群の直感的な比較に向いています。
  2. 距離は絶対的でなく相対的
    クラスタ間の「遠さ」は必ずしも生物学的距離を意味しない点に注意が必要です。
  3. 非線形次元削減
    PCAのような線形手法では表現できない複雑な構造を捉えることができます。

実際の応用例

  • シングルセルRNA-seq:細胞集団をt-SNE map上にプロットし、細胞型や状態の違いを可視化。
  • フローサイトメトリー/FACS解析:多項目の蛍光データを縮約し、細胞サブセットのクラスタリングに利用。
  • がん研究:腫瘍内多様性の解析や免疫細胞集団の分布を視覚化。
  • 機械学習:画像特徴量やテキストベクトルの可視化にも応用可能。

t-SNEを使う際の注意点

  • ハイパーパラメータの影響
    • perplexity(近傍の数)
    • learning rate
      これらの設定でmapの形は大きく変わります。結果の解釈には慎重さが必要です。
  • 再現性が低い
    t-SNEはランダム初期化に依存するため、同じデータでも実行ごとに異なるmapが得られます。
  • クラスタの距離を過信しない
    2つのクラスタが近いからといって必ずしも生物学的に類似しているとは限りません。

t-SNEと他手法の比較

  • PCA:計算が速く再現性が高いが、非線形構造の可視化には弱い。
  • UMAP:t-SNEに代わる新しい手法で、クラスタの大域的関係も保持しやすく、再現性が高い。
  • t-SNE:クラスタの分離が視覚的に優れるが、解釈には経験が必要。

まとめ

t-SNE mapは「多次元データを人間の目に見える形に変換する」強力な可視化ツールです。シングルセル解析をはじめ、生命科学や機械学習分野で欠かせない存在となっています。ただし、結果をそのまま鵜呑みにするのではなく、ハイパーパラメータや他の次元削減手法と組み合わせながら慎重に解釈することが重要です。


👉 本記事は教育・研究目的の一般的解説です。実際の解析では、使用するアルゴリズムやソフトウェア(Seurat, Scanpy など)のマニュアルを必ず確認してください。

  • このエントリーをはてなブックマークに追加

SNSでもご購読できます。

コメントを残す

*