機械学習を学んでいくと、ついついモデルでの処理に集中してしまい、自分が求めている結果や与えられているデータの意味を忘れがちになります。
そこで、分析を始める前に与えられたデータについて以下の3点を確認するようにしてもらいたいです。
- どんなデータなのか
- どんな値を取るのか
- その値の意味は
1.どんなデータなのか
データには大きく分けて、カテゴリデータと数値データの2種類があります。
カテゴリデータは、性別や血液型などの直接数値計算できないデータ。
数値データは、金額や質量など直接計算ができるものです。
一見数値のように見えても、実は分類分けとして数値が割り当てられているだけで、カテゴリデータであるものもあります。
なので、各カラムのデータがカテゴリを表すのか数値を表すのか、しっかりと把握しましょう。
2.どんな値を取るのか
各カラムの数値の範囲を把握しておきましょう。
数値の範囲だけでなく、分散や偏差を見ることで、データに偏りがあるのか、外れ値はあるのかの参考になります。
3.その値の意味は
カラム名を見ただけではその意味が分からないことがあります。
その場合、まずはKaggleのDescriptionの項目をしっかりと確認しましょう。
また、説明を見ても理解しにくい場合は、自分自身でその業界の知識を取り入れることも必要です。
参考文献
Kaggleで上位に入るための探索的データ解析入門
コメント