【ぱんだす】

pandas(パンダス) とは?

💡 Pythonでのデータ分析を支える「表計算の達人」
📌 このページのポイント
Pandas — DataFrameの構造 index 名前 年齢 都市 0 田中 28 東京 1 佐藤 35 大阪 2 鈴木 42 福岡 (row) 列 (column) → 主要な操作 読み込み read_csv() read_excel() 抽出・フィルタ df[条件] loc / iloc 集計 groupby() mean() / sum() 結合 merge() concat()
Pandas DataFrameの構造と主要操作のイメージ
ひよこ ひよこ

pandasって何ができるの?

ペンギン先生 ペンギン先生

ExcelCSVのような表形式のデータをPythonで扱うためのライブラリだよ。「DataFrame」という表形式のデータ構造を使って、データの読み込み・フィルタリング・集計・グラフ化まで、データ分析に必要なことがほぼ何でもできるんだ。

ひよこ ひよこ

Excelじゃダメなの?

ペンギン先生 ペンギン先生

数百行のデータならExcelで十分だけど、数万〜数百万行になるとExcelは遅くなるし、そもそも開けないこともある。pandasなら数百万行のデータも効率よく処理できるし、処理をコードで書くから再現性がある。「同じ分析を毎月やる」ような場面ではコードにしておく方がずっと楽だよ。

ひよこ ひよこ

データサイエンスでは必須なの?

ペンギン先生 ペンギン先生

Pythonでデータ分析や機械学習をやるなら、pandasは避けて通れないと言っていいよ。データの前処理(クリーニングや加工)は機械学習プロジェクトの作業時間の80%を占めると言われていて、その大部分をpandasで行うんだ。

ひよこ ひよこ

pandasの苦手なことってある?

ペンギン先生 ペンギン先生

メモリに乗り切らない大規模データの処理が苦手なんだ。pandasは全データをメモリに読み込むから、数十GB以上のデータだとメモリ不足で落ちてしまう。そういう場合はDaskやPolarsのような代替ライブラリを使うんだけど、ここで面白い議論がある。Polarsというライブラリがpandasの数倍〜数十倍速いことがベンチマークで示されていて「pandasはもう古い」という意見が出始めている。でもpandasのエコシステム(他のライブラリとの連携、情報の多さ、チームの知見)は圧倒的で、簡単には置き換えられない。技術的な優位性だけでは既存ツールを駆逐できないというのは、ソフトウェアの世界でよくある話だよ。

ペンギン
まとめ:ざっくりこれだけ覚えればOK!
「pandas」って出てきたら「Pythonで表データを操作・分析するための定番ライブラリのことだな」と思えればだいたいOK!
📖 おまけ:英語の意味
「pandas(Panel Data Analysis)」 = パネルデータ分析
💬 経済学で使われる「パネルデータ(時系列×横断面データ)」の分析が名前の由来。動物のパンダとは関係ないよ
← 用語集にもどる