データの可視化
グラフはデータを視覚的に表現する簡単な方法です。しかし、大量のデータを同じグラフにプロットするのは容易ではありません。初期の地図や気象データは、長時間の手描きが必要でした。コンピューターのグラフ作成機能の発達により、手作業は自動グラフ作成プログラムに完全に取って代わられました。問題の中心は、データの情報が自然に伝わるように、どのような方法でデータを表示するかという問題に移ります。データの可視化とは、データに含まれる情報を提示し、データに含まれるパターンを明らかにするために、グラフィックをどのように使用するかを研究することです。コンピュータ、統計学、心理学にまたがる総合的な学問であり、データマイニングやビッグデータの台頭により、さらに盛んになっています。
データの情報次元
ハンス・ロスリングが作成したデータグラフは研究する価値があります。データは2次元の基本情報を示しています:
1) x軸、 一人当たり所得
2) y軸は 一人当たりの平均余命
さらに、サポート情報には2つの側面があります。
3)円の大きさ、国の人口
4) 円の色、国の地域
平面は自然に2次元に分割できます。他の次元の情報を追加するには、他の独立した表現を考慮する必要があります。データ点には、次元の大きさと色のバリエーションがあります。ここに示すように、ハン・ロスリングはこの2つのイメージ特徴を使用して、2つの独立した次元を表現しています。
*** それは、ハン・ロスリングが時折、丸印で表された⑥の国名を示すということです。つまり、国名もまた、暗黙のうちに、すぐにアクセスできる情報の一部なのです。
百聞は一見に如かず?
ハン・ロスリングの熱弁により、世界の所得と寿命の格差は縮小しているという結論に達しました。世界全体が豊かになり、健康になっているのです。
データが物語っているようです。それとも違う?
[]
例えば、上の2つのスクリーンショットは、各国間の格差が縮小していることを説明するために使われています。しかし、前述の通り、所得スケールは10倍になります。そのため、ある国が豊かになると、その国の富の増加がスケールに反映されにくくなります。たとえば、同じように所得が3600ドル増えたとしても、もともとの所得が400ドルの国は中位圏に入りますが、もともとの所得が4万ドルの国はほぼそのままです。X軸を直線に変えた場合、国ごとの一人当たり所得の格差は、このグラフが直感的に明らかにするよりもはるかに大きくなるでしょう。
Y軸の情報は、世界全体の健康状態が改善していることを示しています。しかし、それでも注意が必要なのは、たとえば、同じデータをプロットした下の2つのグラフで、違いはY軸の目盛りの範囲だけです。
2つ目のグラフの方がより劇的な変動を挙げているのでしょうか?しかし、2つのグラフは同じデータです!このように、目盛りの範囲はデータの認識に影響を与えます。目盛りの範囲が小さいと、データがより変動しているという印象を与えます。
このように、チャートはデータと作図方法の両方で構成されています。チャートはデータと同じではありませんし、プロットの方法は人々の主観的な認識に影響を与える可能性があります。適格なデータ・チャートは、データをできるだけ客観的に反映したものでなければなりません。
データマッピングの要素
では、立場を変えて考えてみましょう。仮に、まとまったデータがあったとして、それをどのように提示し始めるべきでしょうか?この質問に答えるのは簡単ではありません:
1) データには多数の情報次元が含まれており、プレゼンテーション用に選択できるのは一部だけです。
2) データは様々な有益な方法で提示されます。
各次元の情報には、その次元のデータの値を表す座標が必要です。ハンス・ロスリングのプロットでは、6つの座標は、横のX軸、縦のY軸、円の色、円の大きさ、アニメーション・フレームの時刻、テキストで示された国名です。これら6つの次元は互いに独立しているので、互いに干渉することなく各次元の値を反映します。もう1つの例は、下の棒グラフと円グラフです。どちらも2次元の情報を反映します。棒グラフはx-y座標をとります。円グラフはテキスト中心の座標をとります。
すべての座標には目盛りが必要です。読み手は、目盛りに基づいてデータの正確な値を知る必要があります。縮尺は一様で直線的なものから不均一なものまであります。スケールの選択はデータの特性に基づいて行われます。特定の次元のデータの異なるサンプルが取る値に大きな差がある場合は、対数スケーリングが適用されます。例えば、次の xkcd 1162 の図は、対数スケールを使用しないことの弊害を示しています。
ログスケール
さらに、スケールには範囲が必要です。S&P500のプロットでお話ししたように、スケールの範囲が大きすぎると、変動が視覚的に小さくなります。一般的なスケール範囲は、その次元のデータの***値と最小値です。しかし、場合によっては、***値と最小値は誤差の状態により信頼できないデータである可能性があるため、平均値プラスマイナス標準偏差の範囲をとります。
ディメンジョンとスケールが選択されたら、軸にどのディメンジョンであるか、ディメンジョンの単位、およびスケー ル値をラベル付けすることが重要です。これで、その次元のデータに関する情報が完成します。軸とスケールはあるがラベル付けがないデータのプロットは、失敗したプロットです。読者はそこからデータの真の姿を知ることができません。
(ハンス・ロスリングのマッピングでは、総人口と国名の2つの次元で不完全な情報があります)。
上記が完了したら、データ・ソースのさらなる説明が必要です。これは、テキストによる説明を追加することで実現できます。
概要





