【かぐる】

Kaggle(カグル) とは?

💡 データサイエンティストの「甲子園」
📌 このページのポイント
Kaggle コンペティションのワークフロー ① データ取得 学習用データ テストデータ 評価指標 ② EDA データ分析 可視化 特徴理解 ③ 特徴量 前処理 特徴量作成 欠損値処理 ④ モデル 学習・検証 ハイパラ調整 アンサンブル ⑤ 提出 予測結果 スコア確認 リーダーボード(順位表) 🥇 1位 Score: 0.9876 🥈 2位 Score: 0.9854 🥉 3位 Score: 0.9831 メダル獲得で 称号がアップ! 世界中のデータサイエンティストが腕を競うプラットフォーム
Kaggleのイメージ
ひよこ ひよこ

Kaggleって何をするところなの?

ペンギン先生 ペンギン先生

企業や研究機関が「このデータで最も精度の高い予測を出してください」というコンペを開催して、世界中のデータサイエンティストが競い合うプラットフォームだよ。賞金付きのコンペも多くて、数十万ドルの賞金が出ることもあるんだ。

ひよこ ひよこ

初心者でも参加できるの?

ペンギン先生 ペンギン先生

もちろん!初心者向けの「Titanicコンペ」が有名で、タイタニック号の乗客データから生存者を予測するという内容。チュートリアルも充実しているし、他の人が公開しているNotebook(コードと解説がセットになったもの)を読んで学べるから、むしろ初心者の学習にすごく向いているよ。

ひよこ ひよこ

Kaggleのランクってどういうもの?

ペンギン先生 ペンギン先生

コンペでの成績に応じてメダル(金・銀・銅)がもらえて、メダルの数でNovice → Contributor → Expert → Master → Grandmasterとランクが上がるんだ。Grandmasterは世界に数百人しかいない称号で、データサイエンティストの最高峰の証明として就職活動でも非常に評価されるよ。

ひよこ ひよこ

Kaggleで勝てる力があればビジネスでも通用する?

ペンギン先生 ペンギン先生

ここが実は議論が分かれるところなんだよね。Kaggleでは精度を極限まで追求するから、スタッキングやブレンディングで0.001%の改善を目指す。でもビジネスの現場では「精度はそこそこでいいから、モデルを早く作ってデプロイして、運用コストを抑えて、結果を説明できること」が重要だったりする。Kaggle上位者がビジネスで苦戦するケースもあれば、逆にKaggle未経験でもビジネスで大きな成果を出す人もいる。「コンペで求められる力」と「実務で求められる力」はかなり異なっていて、両方を兼ね備えた人は意外と少ないんだよ。

ペンギン
まとめ:ざっくりこれだけ覚えればOK!
「Kaggle」って出てきたら「データ分析の腕を競えるオンライン競技場のことだな」と思えればだいたいOK!
📖 おまけ:英語の意味
「Kaggle」 = 造語
💬 明確な語源はなく、創業者が作った造語。2017年にGoogleが買収して、現在はGoogle傘下で運営されているよ
← 用語集にもどる