こんにちは!データサイエンティストの青木和也(https://twitter.com/kaizen_oni)です!
この記事では「指標・特徴量の設計から始めるデータ可視化学入門 データを洞察につなげる技術」を読んでみて、データサイエンティストの自身にとって学びになったこと・これから実践していきたいことについて記事を通して共有していきたいと思います。
本書はデータサイエンティスト・データアナリストに限らず、なんらかの形でデータを可視化して意思決定をする方・意思決定する人のサポートをする方にも、データの可視化から何を読み取るべきか・データを可視化する時の注意点は何か・目的に対してどのような可視化の手段が考えられるのかを学べる良書かと思います!
ぜひ本記事を見て、本書購入の際の参考にして見てください!
本書の概要
本書は 「データ⚪︎⚪︎学」シリーズの2024年最新作でデータ可視化に関する手段をこれでもかというほど多数掲載しつつも、「データを指標にすると情報を圧縮してしまい、誤った意思決定を導いてしまうか場合が存在する」「可視化をして次のアクションが分からなければ仮説がないことが問題だ」など、手法にとどまらないTipsについても扱っている、可視化の際に考慮すべきことがこれでもかと詰まっている一冊です。
本書の章立ては以下のとおりです。
- データの可視化の本質
- 数量を把握するデータ可視化
- メカニズムをとらえるデータ可視化
- 多変量をとらえるデータ可視化
- データの分布をとらえる指標化
- 関係性をとらえる指標化
- パターンをとらえる指標化
- データ指標化・可視化のプロセス
そして、これだけでもお腹いっぱいなほど可視化に関するトピックを扱っているのですが、本書のさらにすごいところは、書籍内で扱っているほぼ全ての可視化のコードを著者のGithubにて公開している点にあります。
以下は書籍の中からブログ主が「これは気になる!」と思って可視化してみた図になります。
今まで触ったことのないライブラリなども登場してくるので、書籍の内容を復習ができて、尚且つ可視化コーディングに関する学びが得られる一石二鳥の公開Githubとなっています。
本書から得た学び
本書から得た学びとしては大きく分けて2つあります。
1つは言わずもがな、データの可視化に関する網羅的なトピックです。
本書概要にも記載したとおり、目的に応じた様々な観点から可視化手法が網羅的に掲載されているので「⚪︎⚪︎というデータの特性・関係性を可視化するためにはどのような可視化・指標化を行うのが望ましいか」を考える際には本書が辞書となってあなたを導いてくれることかと思われます。
可視化手法については本書に譲るとして、本記事では2点目の「データを可視化する人間としてどのようなことに注意をすべきか」という点について私が得た学びを共有したいと思います。
本書から上記観点について私が得た学びは以下の3点です。
- データを可視化する際は可視化の目的と成功状態を定義する
- データの指標化の直前が「データの特異な性質に気づく最後のチャンスである」ことを心得る
- データの可視化されたものだけが成果物でなく、データの可視化のプロセス全体が成果物である
順に解説をしていきます。
データを可視化する際は可視化の目的と成功状態を定義する
まず、「データの可視化で何がしたいのか、何がどう視えればその可視化が成功したといえるのか」をしっかり意識します。そのうえで、その目的のために行うのが「探索志向型データ可視化」なのか「説明志向型データ可視化」なのかを考えましょう。
江崎貴裕『データ可視化学入門』(ソシム/2024) 8.2 指標化から可視化の戦略を考える P217
つまり、可視化にはゴールと成功状態が必要なのです。
そのゴールは、例えば「売上とアクセス数に相関関係があるのかを検証する」という仮説かもしれませんし、「効果検証で得たデータに基づいて処置群と対照群の差を可視化しよう」という分析の中の1プロセスかもしれません。
そして「売上とアクセス数について相関関係が見えた」というのが成功状態ですし、「処置群と対照群の間に統計的に有意な差がグラフにも明らかで、処置群の手法を他店舗にも展開することに決まった」というのも成功状態と言えるでしょう。
一方で、ゴールがない可視化の例で言えば、「とりあえずいろんな方法でデータを可視化してみよう」というふわっとスタートの可視化や「営業データがあるので、ここから何かしらのインサイトを引き出してください」というふわっとゴールの可視化が考えられます。
そして、ふわっとゴールの場合は明確な成功状態が定義できていないため、「あれを可視化して」「このデータもあったからこれも使って可視化して」と散漫な可視化をした挙句、結局何を可視化したかったのか・すべきだったのかが分からなくなることが考えられます。
これこそ「なんの意思決定の役にも立たないデータ可視化」といえるでしょう。
データの指標化の直前が「データの特異な性質に気づく最後のチャンスである」ことを心得る
指標化する前に生のデータをすベて可視化し、異常な値・特殊な傾向がないかを確認したうえで指標に変換するのがいいでしょう。指標化を行う瞬間が、外れ値を見つける「最後のチャンス」です。
江崎貴裕『データ可視化学入門』(ソシム/2024) 8.2 指標化から可視化の戦略を考える P222
指標というのは、個別にデータを見ているだけでは気付けないデータ全体としての傾向を示唆してくれる有益な値です。
平均値の違いはデータ間の分布の違いを示唆しますし、標準偏差の違いはデータの信頼性や精度について示唆してくれます。
一方で、これらの指標は少数の外れ値の影響を大きく受けてしまいます。
外れ値の影響を受けた指標は誤った意思決定の元になってしまいます。
例えば、2つの企業AとBがあるとします。
企業Aは普通の社員の平均年収は400万円とそこまで高くないのですが、あるスーパー営業マンがインセンティブでガッツリ賞与をもらっているため、会社全体で見た時の平均年収は600万円となっているとします。
一方の企業Bは社員の給料間に大きな差はなく、平均年収は550万円です。
さて、両方の企業は給料以外の条件が同じだとした時に「企業Aの平均年収は600万円で、企業Bの平均年収は550万円です」とエージェントから言われた時に、あなたはどちらの企業に就職したいと思うでしょうか。
このケースでは「スーパー営業マン」の影響で企業Aの年収が釣り上がってしまっていますが、あなたがスーパー営業マンでない限り、大抵の人は企業Bを選んだ方が50万円ほど高い給料をもらえるはずです。
これが外れ値による意思決定の歪みです。
つまり、データの中身を確認せずに平均値や標準偏差などの比較がしやすい指標に情報を圧縮してしまうことが、データの中身が普通でなかった場合に意思決定の誤りを発生させてしまうのです。
データの可視化されたものだけが成果物でなく、データの可視化のプロセス全体が成果物である
データを可視化して人に伝えるまでのプロセスには、データの取得方法や範囲、行った処理や指標化の手続きなどに起因する様々な恣意性や限界が含まれています。データの解釈が行われる際には、それらすべてを踏まえたうえで、妥当な解釈を行う必要がありますから、最終的に可視化されたものだけが成果物なのではなく、そこに至るプロセス全体が成果物となります
江崎貴裕『データ可視化学入門』(ソシム/2024) 8.2 指標化から可視化の戦略を考える P229
データの可視化までには多くのプロセスを踏みます。
そして、それぞれのステップで少しずつ恣意性(特定のデータは可視化のためには使わない)やエラー(統計的に誤った加工方法を取ってしまっている)が加わると、最終的なアウトプットとして出てくる可視化は、データの本質を全く外したものになってしまうかもしれません。
つまり、意思決定のための重要なファクトであるはずの可視化が、なんらデータの本質を表していないただのお絵描きになってしまう可能性があるのです。
そのような事態を避けるためには、データ可視化までの各段階の妥当性を十分に検証する・考慮することなしには意思決定を行なってはいけません。
この領域こそがデータサイエンティストが付加価値として発揮できる部分なのではないかと思いますし、データサイエンティストでなくとも、各プロセスで妥当性をしっかり検証することが非常に重要であるということを念頭においておく必要があります。
これから実践していきたいこと
本書と読んで、私がこれから実践していきたいと考えていることは以下の3つです。
- データの可視化の際には可視化の成功状態について関係者間で合意を取ってから可視化に取り掛かる
- データを指標化する際には必ずデータ全体を指標に丸め込まずに可視化する
- 可視化の成功状態が決まったら、それを達成するための可視化にはどのようなものが考えられるのかを本書やネットの情報を参考に適用する(もちろん、その可視化特有の注意点を踏まえた上で)
データの可視化は人生における大学入学のようなもので、それをして終わりではなく、データを可視化する前に何をするのか、データの可視化をしたとして可視化の結果を持ってして何を実現するのかが重要と考えられます。
そのため、「全体の中のデータ可視化」という視点を常に持ってデータアナリストとしての仕事をしていきたいと考えています。
まとめ
この記事では「指標・特徴量の設計から始めるデータ可視化学入門 データを洞察につなげる技術」を読んでみて、データサイエンティストの自身にとって学びになったこと・これから実践していきたいことを共有しました。
個人的には、本書と合わせて「Google流資料作成術」を読み合わせていたので、データ可視化のエンジニアリング的側面とマインド面を本書で強化しつつ、Google流資料作成術で「誰のための可視化か」「この可視化で伝えたいメッセージは何か」という相手の立場に立ってデータ可視化についても学ぶことができました。
ぜひ、本書とGoogle流資料作成術を読んで、「可視化しただけ」にとどまらないデータ可視化の世界に一緒に足を踏み入れていただけたら幸いです!
コメント