美しいプロットの作成:データ表示の基本

March 30, 2012 | By Angela Landrigan

あなたは今、これまでの実験作業によって得られたデータを、慎重に解析し仮説検証の結果としてプレゼンテーション資料にまとめようとしています。この記事では、美しい(そして一貫性のある)データ表示に求められる要素について検討します。

内容を簡単に要約すると、適切なスケール設定の確認、正確なコンペンセーション、理解しやすいプロットラベル表示の確認となります。

 

プロットタイプと適切な統計の選択、適切なデータ表示

適切に用いると、研究の様々な主張を視覚的に美しくインパクトのある図として表示ができるプロットタイプはいくつも存在します。ヒートマップ、ヒストグラム、ヒストグラムオーバーレイは、データをより印象的に表示する方法です。これら1次元の表示では、いかにわかりやすくメッセージを伝えられるかが大きなポイントです。例えば、「このポピュレーションは、Yという条件下でXだけ量が変化しました。」という感じです。ここで注意しなければならないのが、不均一なポピュレーションについて展開する場合です。研究主張のストーリーを伝える手段としてどのプロットタイプを選ぶかを決める際、ストーリー全体が伝わることを確認することが大切です。データをプロットにしていく過程で、サブセットの挙動に関する重要な情報を見落とす過失は犯してはならないからです。Cytobankでは、ヒートマップにカーソルを重ねるとそのセルのドットプロットが表示され、データの分散性など別側面の情報を把握することができます。

Example of a well-labeled figure using one- and two-dimensional representations

図1:適切なラベル表示された1次元および2次元プロットでの図例 Irish JM et al (2010) PNAS, 107(29):12747-54, Figure 1Bより抜粋。
(クリックすると高解像度の画像を表示します)

データから作図をするための次のステップは、プロットに用いる適切な統計値の選択です。あるポピュレーションのraw MFIの変化を調べたい場合や、稀少なポピュレーションを%ゲートや95パーセンタイルを統計値として示したい場合など、様々なケースがあるでしょう。このような統計値表示はCytobankのプロットの下に統計表と表示することができ、ヒートマップやヒストグラムオーバーレイのカラースケール表示に使用する値とすることができます。

 

ラベル表示

プロットタイプと使用する統計値を選択したら、プロットが一貫性のあるラベル表示になっているかを確認します。適切なラベル表示はデータの解釈に不可欠です。軸ラベルに抜けはないか、全てのプロットに目盛線があるかなどを確認します。ヒートマップやその他のカラーコードによる表示には、カラースケールが表示されているかについても確認します。CytobankのIllustrations機能では、必要とされるラベル表示がそろったプロットレイアウトを自動で構築するようデザインされており、カラースケール設定や目盛の値表示はillustration EditorのPlotsメニューでカスタマイズできます。

 

コンペンセーション

今や、マルチカラーでの蛍光色素を使用したフローサイトメトリーが主流となったマルチプレックス時代であり、適用するコンペンセーションマトリックスでデータセットは大きく変わります。美しいプロットを作成するプロセスで、データがオーバーコンペンセーションやアンダーコンペンセーションでないかを確かめる必要があります。例として、全血をFITC-抗CD3抗体、PE-抗CD4抗体、PE-Cy5-抗CD8抗体で染色したサンプルと、単染色コントロールについて考えます。蛍光スペクトルに重なりがみられますので、シグナルの重なりを差し引くためにコンペンセーションが必要です。データのコンペンセーションは適切か、オーバーコンペンセーションまたはアンダーコンペンセーションでないかを確認します。

Assessing compensation using a single stain compensation control layout

図2:単染色コンペンセーションコントロールのレイアウトを用いたコンペンセーションの評価
(クリックすると高解像度の画面を表示します)

オーバーコンペンセーション、あるいはアンダーコンペンセーションでないかを確認する方法の一つは、各単染色コントロールの各チャネルのデータを示す単染色コンペンセーションコントロールの図を作成することです(図2)。作成には、実験中に測定した単染色コンペンセーションコントロールを使うことが可能です。適切にコンペンセーションされた場合は、陽性チャネルには2つのピークが、他の全てのチャネルには単一のピークが表示されます。上の例でデータが適切にコンペンセーションされた場合、FITC陽性コントロールではFITCチャネルに2つのピーク、PEとPE-Cy5チャネルにはそれぞれ一つのピークが見られます。データがアンダーコンペンセーションである場合は、PEチャネルにもピークが2つ見られるでしょう。同様に、オーバーコンペンセーションの場合も、PEチャネルはピークが2つになるでしょう。単染色コントロールについて全チャネルのプロットをひとつの図で見られるように設定すると、コンペンセーションマトリックスの値を最適化するのに役立ちます。コンペンセーションの効果を確認する別の方法としては、サンプルデータのペアワイズプロットで、全てのチャネルについて他のチャネルとのプロットを表示して確認します。ペアワイズプロットは Cytobank のIllustration Editorの Templatesの中にあります。

 

スケール設定

フローサイトメトリーデータを表示する際に、考慮すべき重要な要素の一つがスケール設定でしょう。適切なスケール設定の影響を示すため、均一なビーズを使った例を取り上げます。図3は、ネガティブコントロールにおけるスケールの最小値とコファクター値の設定による見え方の違いを示しています。この例では、Cytobankのデフォルトのスケール設定がアップロード時にExperimentに自動的に適用され(図3A)、データを適切に表示するようにスケール設定とコファクター値が調整されています(図3C)。次にバックグラウンドとスケール表示値を修正する方法について説明します。

Using negative control beads (eg, comp beads) to adjust scale minimum, maximum, and cofactor.

図3:ネガティブコントロールビーズ(コンペンセーションビーズなど)を使ったスケールの最小値、最大値、コファクターの調整

概念としては、プロット内で全てのデータを見ることができ(つまり、データの切り捨てがない)、シングルセルの分布が正確にポピュレーションに反映されているのが望ましいとされています。そのための第一歩としては、蛍光データをデジタル機器とその測定用ソフトウエアでbiexponentialスケール設定を用いて測定していることを確認します。これでゼロ以下の値のデータも収集することができます。一般的には、測定用ソフトウエアは自動的にスケールの最小値を調整して測定しますが、この設定はいつでも手動で調整することができます。

解析に目を向けると、多くの解析ソフトウエアには標準のスケール設定があり、データの視覚化に適用されます。このスケール設定は、全てのデータがプロット内に分布し、その分布が適切に表示されるよう、調整が必要であることがほとんどです。この調整には、各チャネルのネガティブコントロールのチャネルデータを作図するのがよいでしょう(使用するコンペンセーションマトリクスがすでに適用されていると理想的です)。上述のコンペンセーションセクションでの単染色コントロールの作図(図2)と同様、サンプル測定時に使用した単染色コンペンセーションコントロールビーズを使用して作成できます。解析を始める前に、これらネガティブコントロールに基づいてExperimentのスケールを設定することができます。上図はコンペンセーションビーズを使用したスケール設定の調整の例を示しています。

図3の例に戻ると、このデータに適用されたデフォルトのスケール設定は、スケールの最小値が‐200,コファクターは150です(図3A)。左端に軸に貼りついているイベントが見え、ピークはほぼ平坦に見えます。これは、多くのイベントがスケールの範囲外にあることを示しています。従って、まずはスケールの最小値を下げ、全てのイベントがプロットの範囲内に入るようにします(パネル3B、スケール最小値=-1000)。このチャネルにシグナルを持たないビーズを使用しているにもかかわらず、シングルのピークはビーズの均一性を反映せず、実際の分布と一致していないことがわかります。

ここでコファクターの出番です。コファクターはゼロ近傍の線形(リニア)領域の大きさを決定します。コファクターが大きければ大きいほど、リニア領域は小さくなります。 Cytobank ではコファクター(パラメータ名としてArg.)のデフォルト値は150です。この例ではコファクターを450に上げてリニア領域を縮小すると、他のチャネルのピークの形状とも一致する良好な分布のピーク(図3C)となります。コファクターを上げるのではなくて下げると、リニア領域が拡大し、ゼロ近傍に「データホール(イベントのない谷状の分布)」が形成され、ポピュレーションは1つ(シングルピーク)であるにも関わらず、2つのポピュレーションが表示される分布として表示されてしまいます(図3D)。均一のネガティブコントロールを用いて各チャネルのスケール設定とコファクターを調整することで、データのすべてを確実に表示することができ、その中にあるポピュレーションを明らかにすることができます(存在しないポピュレーションを表示することはありません)。そして全体の見た目と印象に統一感がえられます。コファクター、スケール最大値、スケール最小値はチャネルごとに設定する必要があります。

スケール設定がデータ表示に与える影響について、これまで論じてきた同じロジックに従って、別の例を示します。この例では染色済と未染色のコンペンセーションビーズを1対1の割合で混合しました。

The effects of scale minimum and cofactor on data display

図4:スケール最小値とコファクターがデータ表示に与える影響 ネガティブとポジティブを1:1で混合したコンペンセーションビーズのスケール変換の比較(J. Irishの許可を得て転載)
(クリックすると高解像度の画像を表示します)

サイトメーターによってはLog10をデフォルト設定で測定しているものがあることに注意が必要です(FACS CaliburやLSR IIなど)。イベントをゼロ以下でも測定するにはbiexponentialスケールを設定で有効にしておく必要があります。Biexponentialスケールを使わずにLog10スケールでゼロ近傍のデータを表示する場合の落とし穴を下記に示します。

Using a log scale without biexponential scaling can result in data truncation

図5:Biexponentialスケールを使わずにLogスケールを使用するとデータの切り捨てにつながるおそれがあります。
(クリックすると高解像度の画像を表示します)

図5Aで、Y軸に貼りついているようなスパイク上のイベントが見られます。このように見えるとデータを切り捨ててしまうおそれや実在しない3つ目のポピュレーションとしてご認識してしますおそれにつながります。この場合、ネガティブイベントがシングルピークとして表示されるよう、スケールの調整が必要です。arcsinhスケールにしてコファクターを調整し、ゼロ近傍のリニア領域を調節できます。