マシンラーニング解析を多様なデータタイプへ適用する

バイオロジーの研究では、生体や細胞が持つさまざまな構成要素の状態やプロセスを包括的に理解するために、多くの場合、複数のテクノロジーやアッセイを使用する必要があります。例えば、免疫システムの応答全体を測定するには、広範かつ詳細なデータが必要になります 1, 2, 3

サイトメトリーデータに類似する形式のデータ、すなわちさまざまな観察対象(細胞、サンプル、患者)で測定される生物学的マーカー(タンパク質、RNA、DNA、生理学的パラメータ、人口統計学的データ)の相対量が数値マトリックスとして得られるタイプのアッセイ系では、得られたデータセットに対してマシンラーニング(ML)解析を用いることで、これまで明らかでなかったユニークな現象を発見しやすくなります。Cytobankプラットフォームでは、他のデータタイプにも、マシンラーニングをベースとした次元圧縮やクラスタリングを実施できるツールをご用意しています。クラウドの高速計算処理やクラウド上での共同作業を活用することで、バイオマーカー探索や細胞間相互作用などをより迅速かつ包括的に探求して研究成果につなげることが可能です。

図1. さらなる発見のため、複数のタイプのシングルセルデータで解析をゲノムやトランスクリプトームなどのサイトメトリー以外のデータタイプでも、その中に潜在する発見へ探索を広げることができます。その後、プロテオーム情報とともに交差検定やメカニズムに至る詳細な解析も可能です。

 

どのデータ解析を用いるのが良いか?

データの解析戦略は、そのデータの特性によって決めることになります。Cytobankプラットフォーム上で適用できる解析について、テクノロジーとデータ特性でまとめた下表をご覧ください。

Cytobankプラットフォーム上で様々なタイプのデータを解析することは、測定データにさらなる価値を与えることとなります。例えば、シングルセルのデータセットで細胞集団を特定した後、他のタイプのデータを用いてその結果を検証することが可能です。すなわち、シングルセルRNAseqデータから統計学的に有意な集団特異的バイオマーカーを同定した後、その結果をサイトメトリーデータで検証し、タンパク質ベースでのメカニズムを深く掘り下げていくというようなことができるのです。このアプローチでは、広範で充分な知見のないデータセットから、クリニカルトライアルに有用となりそうなマーカー候補の絞り込みを可能とすることができます。

CITE-seq, or Cellular Indexing of Transcriptomes and Epitopes by Sequencingの詳細についてはこちらをご覧ください。

 

バルクデータ解析でサンプル間の不均一性を視覚化

バルクデータを解析することで、マーカー発現の違いに基づいてグループを同定し、そのグループが臨床的特徴(治療群や年齢など)など他の結果と関連しているかどうかを視覚化することが可能です。また逆に、サンプル間で値が類似しているマーカーのグループがあるかどうかを調べることもでき、この情報を利用して、例えば、測定するマーカーの数を減らすことが可能です。

DROP (Data to Results Optimization Portal)の詳細についてはこちらをご覧ください。

 

参照文献:

  1. Brodin P, Davis MM. Human immune system variation. Nat Rev Immunol. 2017 Jan;17(1):21–29. PMCID: PMC5328245

  2. Chattopadhyay PK, Gierahn TM, Roederer M, Love JC. Single-cell technologies for monitoring immune systems. Nat Immunol. 2014 Feb;15(2):128–135. PMCID: PMC4040085

  3. Blank CU, Haanen JB, Ribas A, Schumacher TN. The “cancer immunogram”. Science. 2016 May;352(6286):658-60. PMID: 27151852