Kaggle:データ分析を始める前に

console プログラミング

機械学習を学んでいくと、ついついモデルでの処理に集中してしまい、自分が求めている結果や与えられているデータの意味を忘れがちになります。

そこで、分析を始める前に与えられたデータについて以下の3点を確認するようにしてもらいたいです。

  1. どんなデータなのか
  2. どんな値を取るのか
  3. その値の意味は

1.どんなデータなのか

データには大きく分けて、カテゴリデータと数値データの2種類があります。

カテゴリデータは、性別や血液型などの直接数値計算できないデータ。

数値データは、金額や質量など直接計算ができるものです。

一見数値のように見えても、実は分類分けとして数値が割り当てられているだけで、カテゴリデータであるものもあります。

なので、各カラムのデータがカテゴリを表すのか数値を表すのか、しっかりと把握しましょう。

2.どんな値を取るのか

各カラムの数値の範囲を把握しておきましょう。

数値の範囲だけでなく、分散や偏差を見ることで、データに偏りがあるのか、外れ値はあるのかの参考になります。

3.その値の意味は

カラム名を見ただけではその意味が分からないことがあります。

その場合、まずはKaggleのDescriptionの項目をしっかりと確認しましょう。

また、説明を見ても理解しにくい場合は、自分自身でその業界の知識を取り入れることも必要です。

参考文献

Kaggleで上位に入るための探索的データ解析入門

コメント

タイトルとURLをコピーしました