前回の記事で「データ分析の基本(仮説・比較・ストーリー)」を学んだてくしるちゃん。 さっそく実際のデータ集計に取り掛かろうとしていますが、何やらつまずいているようです……。
今日も優秀なAIアシスタントの「シルル」と一緒に、データ集計で初心者がハマりがちな「3つの大きな罠」を回避する方法をマンガ形式で学んでいきましょう!
💡 この記事は、「データ思考 入門シリーズ」の第 2 回です。
まだご覧になっていない方は、まず「脱・初心者!実務で使える『データ思考』3 つのコツ」を読むと、今回の内容がさらに理解しやすくなります。

罠1:時間を溶かす「完璧なデータクレンジング」の罠

「うぅ…営業部からもらった1万件の顧客データ、『株式会社』と『(株)』が混ざってるし、全角スペースと半角スペースもバラバラだよ。よし、正しい分析をするために、今日から何時間もかけて手作業で、1文字のズレもない完璧なデータに修正(クレンジング)するぞ!



「ストップです、てくしるちゃん!初心者が一番最初にハマる罠、それが『完璧なデータクレンジング(整理)の罠』ですよ!」



「えっ?でも、綺麗なデータじゃないと正しい分析ができないんじゃないの?」



「実は、最初から100%綺麗に整理されたデータが存在する会社なんて、世界中どこを探してもほぼありません。 データの綺麗さにこだわりすぎると、一番大切な『ビジネスのスピード』を落としてしまうんです。」
💡 【使い分け】「100点」が必要な時と「80点で最速」を目指す時



もちろん、経理の売上計算や医療データなど、『絶対に1円・1件のミスも許されないデータ』の場合は100%の完璧なクレンジングが必要です。



しかし、マーケティングの傾向(トレンド)を掴んだり、次のアクションの方向性を決めるための分析であれば、細かな表記揺れのお手入れに何時間もかけるのは、ビジネスのスピードを落とす命取りになります。
▼ 完璧主義 vs プロの最速主義 の違い
| やり方 | クレンジングの方針 | 分析の開始タイミング | メリット・デメリット |
|---|---|---|---|
| ❌ 完璧主義(初心者) | (株)などの細かい表記揺れもすべて完璧に直そうとする | 大きく遅れがち | 綺麗なデータはできるが アクション(対策)が遅れる |
| ⭕️ プロ流(おすすめ) | 仮説に必要な大枠だけ Excelの機能等でサクッと整理 | その日のうち | トレンドを素早く掴み すぐ次のアクションへ行ける! |



「でも、適当に80点で済ませちゃったら、Excelで集計するときにエラーが出たりしないの?」



「そこがプロの線引きです!『計算エラーになる致命的な汚れ(例:数字の列に文字が混ざっている、全角と半角の数字が混ざっている等)』は最初に取り除きます。ですが、全体の大枠を掴む上で影響のない『見た目の表記揺れ(株と株式会社の違い等)』を直すことに何時間もこだわるのはやめましょう、というのが80点ルールの本質です。」



「なるほど!集計エラーになる部分はちゃんと直しつつ、『完璧に綺麗なデータを作ること』自体が目的になっちゃダメなんだね。スピード優先のときは割り切ってパパッと進めちゃうよ!」
罠2:実態を見誤る「平均値」の罠



「よーし、データの整理は8割で切り上げたよ!次は全体の傾向を見るために、全部のデータの『平均(へいきん)』を出せばバッチリだね!」



「そこが2つ目の罠です!平均はとても便利な指標ですが、『平均のワナ』には要注意ですよ!」



「えーっ!?平均って一番よく使うし、わかりやすい指標じゃないの?」



「では、こんな10人のグループがあったらどうなるか、見てみましょう。」
💡 【図解】「平均値」が実態とズレる瞬間
▼ 極端な数字(外れ値)が混ざったグループ
| グループのメンバー | 貯金額 | 割合 |
|---|---|---|
| Aさん〜Iさん(9人) | 0円 | 90%の人が該当 |
| Jさん(大富豪 1人) | 1億円 | 10%のみ |
| 📊 このグループの平均値 | 🚨 1,000万円 | (実態と全く合っていない!) |



「ええっ!?9人は貯金ゼロなのに、平均すると『このグループは平均1000万円も貯金があって裕福ですね』ってことになっちゃうの!?全然実態と違うよ!」



「そうなんです。このように、一部の極端な数字(外れ値といいます)に引っ張られて実態とズレることがあるのが『平均のワナ』です。」
💡 罠を回避する「中央値」の使い方



「平均値に違和感を感じたら、どうするべきかシンプルなフローチャートで判断しましょう!」





「極端な数字(外れ値)があるときは、データを小さい順に並べて、ちょうど真ん中の人の数字を見る『中央値(ちゅうおうち)』を使えば、実態に近くなるんだね!」
罠3:一緒に動くデータを「原因」と勘違いする罠



「ふぅ、データの整理も終わって、平均値のワナも回避したよ!さっそく、売上をアップさせる『原因』を探してみよっと。」



「……あ!すごいデータを発見したよ!『アイスコーヒーが売れる日は、虫除けスプレーもよく売れる』みたい!」



「つまり、アイスコーヒーを半額にして爆売れさせれば、連動して虫除けスプレーも売れまくるってことだよね!私って天才かも!」



「て、てくしるちゃん……それがデータ分析で最も恐ろしい3つ目の罠です!『たまたま一緒に動いているだけのデータ』を『原因と結果』だと勘違いしてはいけません!」



「えっ!?データが連動して動いてるのに、原因じゃないの?」
💡 隠れた「第3の要因」を見抜く



「アイスコーヒーが売れたから虫除けが売れたのではありません。裏に『気温が高い(夏である)』という隠れた原因(第3の要因)があるだけなんです。」
▼ 「たまたま一緒」と「本当の原因」の違い
- ❌ 初心者の勘違い(たまたま一緒) 「アイスコーヒーが売れる(原因)」 ➡ 「虫除けが売れる(結果)」
- ⭕️ 本当の理由(隠れた原因を探す) 「気温が高い(本当の原因)」 ➡ 「アイスコーヒーが売れる」&「虫除けが売れる」



「このように、2つのデータがたまたま一緒に動いているだけなのに、それを原因と結果だと勘違いして施策を打つと、全く的外れな結果になってしまいます。アイスを半額にしても、虫除けスプレーの売上は変わりませんよね?」



「うわぁ、危なかった…。データが連動しているのを見つけたら、すぐに飛びつかずに『裏に別の隠れた原因がないか?』を疑う必要があるんだね!」
まとめ:データは「疑う目」を持って扱うのが正解!



「今日お話しした3つの罠をおさらいします!」
1. 「完璧なクレンジング」の罠(100点より、80点で最速で動く)
2.「平均値」の罠(極端な数字に引っ張られていないか疑い、中央値を使う)
3.「連動するデータ」の罠(たまたま一緒に動くデータを原因と勘違いしない)



「データを集めるときは時間をかけすぎず、計算結果が出たら『本当に合ってる?隠れた原因はない?』って常に疑う目を持つことが大切なんだね!これで罠に落ちずにデータ集計ができるよ!」



「その調子です!ツールや数字に振り回されず、正しくデータを扱えるようになりましょう。次回は、集計したデータを誰にでも分かりやすく伝える『グラフ化のコツ』についてお話しします!」
「てくしる式・データ思考 入門シリーズ」を一歩ずつ進もう!
ここまでで、皆さんは
- 「目的」と「仮説」を考えてからデータを見ること
- 数字は「比較」して初めて意味を持つこと
- 数字を羅列ではなく「ストーリー」で語ること
- 集計では「完璧」を目指しすぎないこと
- 「平均値」や「因果関係」の罠に気をつけること
など、データ分析やデータ集計の土台となる「考え方」と「落とし穴」を学んできました。
でも、実務では「正しく分析できる」だけでは十分ではありません。
どれだけ良い分析ができても、相手に分かりやすく伝わらなければ、その価値は半分になってしまいます。
そこで次回は、集計したデータを「伝わる資料」に変えるための第一歩として、
「初心者でも伝わる!『グラフ化』3 つのコツ ~ 棒グラフ・折れ線グラフ・円グラフの正しい使い分け ~」
を、てくしるちゃんとシルルと一緒に、図解とマンガを交えながらやさしく学んでいきましょう!
てくしる式・データ思考 入門ロードマップ
「データ分析って難しそう……」と感じる方でも、順番に読むことで少しずつ理解できるように、『てくしる』では「データ思考 入門シリーズ」を公開しています。
制作中!
※今後も実践的な記事をどんどん追加予定です!お楽しみに!



順番に読んでいけば、データ分析が少しずつ身についていきそう!



焦らなくて大丈夫です。一歩ずつ、一緒にレベルアップしていきましょう!


