連載コラム『データ分析』

第6回 データ分析実践編①

2016.09.26

データ分析、第6回目です。
これまでの連載では、「データ分析がどのようなものか」から始まり世の中で活用されている事例の紹介を行ってきました。今回と次回の2回に渡って総まとめとして実際に簡単なデータ分析のテーマを設定して分析を実践してみたいと思います。

データ分析の流れ

第1回目でデータ分析の流れとして以下のようなものを紹介しました。

data_6_1課題・問題の発生!
data_6_2まず検証に必要なデータを集める
data_6_3データを綺麗にして分析できるようにする
data_6_4集計や可視化を行い、人が理解しやすいようにする
data_6_5なんらかの示唆や仮説を得る
data_6_6予測や分類モデル(規則)を作る
data_6_7ユーザが利用できるようシステム化する

この流れに沿って実際のテーマに取り組んでみましょう。

データ分析実践編

あまり小難しい分析テーマを設定しても面白くないので、ゆるいテーマを設定してみました。

テーマ1:ご当地キャラクタ分析

data_6_1課題・問題の発生

近年、多くの地域でその土地ならではの「ご当地キャラ」を作り、地域活性や観光のアピールを行っています。そのご当地キャラ数も年々増えているので、「ご当地キャラの活用状況を見える化(可視化)」し、今後の地域活性施策の参考にしたい、という課題を設定します。

この課題では「見える化」するだけなので、直接観光アピールに使えたり地域活性に役立ったりするわけではありませんが、実際の分析業務でも「まずは全体の現状把握」からスタートするのでちょうど良い課題かと思います。

data_6_2データ集め

分析を実施するために、まずはデータを集めなくてはいけません。
今回はインターネット上で行われているご当地キャラの人気投票結果を分析対象としてみます。人気投票である程度上位になっているキャラクタは知名度もあり、地域活性に一役かっているであろうという仮説の下です。

data_6_3データを綺麗にする

ただ集めてきただけではコンピュータで処理することができないので、分析しやすい形に整形します。また、不要なデータや異常な値を取り除く作業も重要になってきます。今回の場合はもともとインターネット上で掲載されているデータが元になっているため、異常な値はほぼありませんが、センサーのデータやコンピュータのログデータなどを扱う際は、思ってもないような値が入っている場合があるため注意深く見ていく必要があります。
例えば今回なら、このようにキャラクタと県がわかるように集約しました。
data_6_8

data_6_4集計や可視化を行う

では今回の目的である見える化を実践してみます。

着眼点1:ご当地キャラが活躍している県

ご当地キャラが活躍している県を探してみましょう。
単純にご当地キャラ数が多い県を集計すると、東京都や埼玉県、大阪府など人口の多い地域がピックアップされます。
そこで「ご当地キャラ数÷人口」とすることで人口当たりのキャラクタ数を集計し「人口当たりのキャラクタ数が多い県=キャラクタが多く作られ、活躍している県」と仮定して集計してみましょう。

data_6_9
data_6_10

滋賀県・和歌山県や四国の県が多く登場していることがわかります。
また、この結果を日本地図にプロットしてみるとどこでご当地キャラクタが活躍しているかよくわかります。

着眼点2:人気の配色を見つけよう

単純に数を集計する以外にもこんな着眼点もあります。
ご当地キャラクタは動物や物をモチーフにしたものが多く、シンプルな色で構成されていることが多いです。そこで各キャラクタの代表色(もっとも多く使われている色とします)を抜き出し、その色を集計してみましょう。

data_6_11

オレンジ~黄色や水色がベースとなっているキャラクタが多そうだ、ということが見えてきます。

data_6_5示唆や仮説

以上のような簡単な集計だけでもいろいろなことが見えてきました。

・西日本(特に近畿や四国)ではご当地キャラによる地域活性に積極的ではないか?
・代表色とキャラクタ人気になにか関連があるのではないか?

データ分析ではこのように、まずは全体の可視化や理解から始まり、様々な仮説を導き出しながら検証していきます。

data_6_6予測や分類モデル化
data_6_7システム化

今回は見える化までの紹介でしたが、なにか成果が出た場合、システム化を検討することもあります。
例えば、人気の出るキャラクタの配色法則がわかったとすると、配色アドバイスによるキャラクタ製作支援システムやキャラクタがどの程度人気が出るかの予測システムを作ろう!というような発展をする場合もあります。

以上がデータ分析の一例です。
身近なものとして感じていただけましたか?
次回はデータ分析実践例をもう一つご紹介します。

この連載のバックナンバーはこちら