【さいきっとらーん】
scikit-learn(サイキットラーン) とは?
💡 機械学習アルゴリズムの「道具箱」
📌 このページのポイント
scikit-learnって何ができるの?
使い方は難しくないの?
ディープラーニングもできるの?
scikit-learnの落とし穴ってある?
簡単に使えるがゆえに「正しい評価をせずに精度が高いと勘違いする」罠が多いんだ。一番典型的なのが「データリーケージ」で、例えばデータ全体で標準化してから訓練・テスト分割すると、テストデータの情報が訓練に漏れてしまう。本来はPipelineを使って「訓練データだけで標準化のパラメータを計算し、テストデータに適用する」とすべきなんだけど、初心者はもちろん、ある程度経験のある人でもやってしまいがちなんだ。scikit-learnが用意しているPipelineやcross_val_scoreをちゃんと使えば防げるのに、「面倒だから」と手動でやって間違える。ツールの正しい使い方を知ることと、実際に正しく使うことの間には大きなギャップがあるんだよ。
📖 おまけ:英語の意味
「scikit-learn(SciPy Toolkit for Learning)」 = SciPy上の学習用ツールキット
💬 SciPy(科学計算ライブラリ)の拡張キット(scikit)として始まった機械学習ライブラリだよ