🐼Pandas入門｜Pythonで表データ操作 | azablog -あざっきブログ-

🐼 PythonでPandasを使えると、表データの世界が一気に広がる
📊 表形式データを扱うためのライブラリ「Pandas」
🧱 Pandasの主役「DataFrame」と「Series」
- 📋 DataFrame：表形式データを表すクラス
- 📏 Series：1次元データを表すクラス
📥 ExcelやCSVから一発でデータを読み込む
- 📓 表示はJupyter Notebookが圧倒的に見やすい
🎯 行と列の抽出：locとilocを使い分ける
🔍 条件で絞り込む「ブールインデックス」
📊 統計量を一発で取得する
🧮 列単位で演算・新しい列を作る
⚖️ Pandas vs Excel：あえてPandasを使うメリット
📚 Pandasを学ぶのにおすすめの書籍
❓ よくある質問（FAQ）
✨ まとめ：Pandasは「データを味方につける」第一歩

🐼 PythonでPandasを使えると、表データの世界が一気に広がる

Pythonでデータ分析や業務効率化を始めようとすると、必ず耳にするのが Pandas（パンダス） です。ExcelやCSVのような表形式データをPythonで自在に扱える便利ライブラリで、データ分析・集計・前処理の現場ではほぼ標準ツールになっています。

Pandasを使えるようになると、Excelで何時間もかかっていた集計が数行のコードで終わったり、100万件を超える大量データもサクサク処理できたり。日々の作業時間がぐっと短くなって、本当にやりたい分析や意思決定に集中できる未来が手に入ります。✨

📊 表形式データを扱うためのライブラリ「Pandas」

Pandasは、データ分析に特化したPythonのライブラリです。たとえば「名前・年齢・住所・血液型」のように行と列で表現される表形式データを、ExcelやCSVから読み込んで自由に加工・集計できるのが最大の強みです。

こんな問いに、Pandasなら数行で答えが出ます。

👀 年齢が20歳以上の人の名前だけを知りたい
🩸 血液型がO型の人は全部で何人いるのか
📈 各部署ごとの売上平均はいくらか

使う前に pip install pandas でインストールし、コードの先頭で import pandas as pd と書くのが定番のお作法です。

🧱 Pandasの主役「DataFrame」と「Series」

📋 DataFrame：表形式データを表すクラス

DataFrameは、ExcelやCSVのような2次元の表データを扱うためのオブジェクト。各列には「カラム名」、各行には「インデックス」が割り当てられ、特に指定しなければ0から順に番号が振られます。

コード上で直接作るには、pd.DataFrame({"名前": [...], "年齢": [...]}) のように辞書で列を指定するのが基本。index=[...] を渡せば、行のインデックスも自由に変えられます。

📏 Series：1次元データを表すクラス

Seriesは、リストにラベル（インデックス）が付いたような1次元データを表すオブジェクトです。pd.Series([10, 20, 30]) のように作れます。

面白いのは、DataFrameの1列を取り出すとSeriesになること。逆にSeriesを横に並べるとDataFrameになる、という関係を押さえておくと理解が深まります。🔁

📥 ExcelやCSVから一発でデータを読み込む

実務でDataFrameを手打ちで作ることはほとんどなく、たいていはファイルから読み込んで作るのが一般的です。Pandasはここが本当に強力。

📗 pd.read_excel("ファイル.xlsx")：Excelファイルを丸ごと読み込み。
📄 pd.read_csv("ファイル.csv")：CSVファイルを読み込み。
🌐 pd.read_json / pd.read_html / pd.read_xml：JSON、HTML表、XMLにも対応。

index_col="ユーザーID" を指定すれば、特定の列をインデックスとして使えますし、sheet_name="Sheet2" で別シートも指定可能。たった1行で全データが整った表として読み込めるので、Excel + VBAの世界よりもずっと身軽です。🚀

📓 表示はJupyter Notebookが圧倒的に見やすい

DataFrameは print() でも出力できますが、Jupyter NotebookやGoogle Colabといったノートブック形式の環境で display(df) すると、Excelのような綺麗な表で表示されて見違えます。データ分析を学ぶなら最初からノートブック環境を整えておくのがおすすめです。✨

🎯 行と列の抽出：locとilocを使い分ける

🏷 loc：インデックスとカラム名で抽出

df.loc[行のインデックス, 列のカラム名] の形で書きます。df.loc[["001","002"], ["名前","年齢"]] のようにリストでまとめて指定したり、df.loc[:, "名前"] のようにコロンで「全部」を表したりできます。

🔢 iloc：行番号と列番号で抽出

こちらは位置の番号で指定するタイプ。df.iloc[[2,3], [1,2]] なら3〜4行目の2〜3列目を取得、というイメージです。lとiの違いがややこしいので、混同しないよう注意です。⚠️

✂ 列だけ取り出す簡略記法

特定の列だけなら、df[["名前","年齢"]] や df["名前"] という短い書き方が便利。前者はDataFrame、後者はSeriesが返ってきます。短くて読みやすいので、実務でもよく使われます。

🔍 条件で絞り込む「ブールインデックス」

「年齢が20歳以上の人だけ」のように条件で絞り込みたいときは、ブールインデックスを使います。

たとえば df["年齢"] >= 20 と書くと、各行に対してTrue / Falseが並んだSeriesが返ってきます。これを df[df["年齢"] >= 20] のようにDataFrameの角括弧に渡すだけで、条件を満たす行だけが抽出できる、という仕組みです。

複数条件を組み合わせるときは、各条件を 丸括弧で囲むのがコツ。

🤝 かつ（AND）：(df["年齢"] >= 20) & (df["血液型"] != "A")
🌐 または（OR）：(df["年齢"] >= 25) | (df["住所"] == "埼玉県")

カッコを忘れるとエラーになるので、必ず付ける癖をつけましょう。🛡

📊 統計量を一発で取得する

Pandasには、Excelでいう「平均」「最大」「最小」「合計」のような関数がすべて揃っています。

📈 df.mean(numeric_only=True)：数値列の平均
🔝 df.max() / df.min():最大値・最小値
➕ df.sum()：合計
📉 df.std() / df.var()：標準偏差・分散
📊 df.median()：中央値

特定の列だけを集計したいときは、df["年齢"].mean() のように1列をSeriesにしてからメソッドを呼び出すのがポイント。1行のコードで複数列の統計量がまとめて出るので、Excelの関数を1セルずつ入れる手間とは比較になりません。⚡

🧮 列単位で演算・新しい列を作る

列同士の演算はとても直感的。df["ポイント"] * df["レベル"] と書くだけで、各行のポイントとレベルを掛け算したSeriesが返ってきます。

その結果を新しい列として追加したいときは、df["新ポイント"] = df["ポイント"] * df["レベル"] のように代入するだけ。文字列結合も df["ユーザー名"] + "さん" のように普通に書けます。

⚖️ Pandas vs Excel：あえてPandasを使うメリット

「これくらいならExcelでもできる」と思った方もいるかもしれません。それでもPandasを学ぶ価値があるのは、次の3つの強みがあるからです。

📦 データ量の上限：Excelは約100万行が限界ですが、Pandasはメモリが許す限り扱える。
⚡ 処理スピード：大量データの集計はExcelより圧倒的に高速。
🔁 再利用性：「ファイル名を変えるだけで毎月の集計が回る」スクリプトを一度書けば資産になる。

毎月送られてくる売上Excelを、コード1本で一気に集計・グラフ化する。そんな未来が、Pandasを学ぶことで手に入ります。📈

📚 Pandasを学ぶのにおすすめの書籍

動画やブログだけだと断片的になりがちなPandas。書籍で体系的に学ぶと、実務で「あの操作どうやるんだっけ？」と詰まったときの引き出しが一気に増えます。Pandasと相性のよい数学・可視化・機械学習まで一緒に押さえると、データ活用力がぐんと上がります。✨

🐼 Pandas学習の世界的定番

Pandasの作者自身が著者を務める決定版。前処理・集計・結合・可視化までを、実データ例で網羅的に学べる本格派です。

Pythonによるデータ分析入門第3版 ―pandas、NumPy、Jupyterを使ったデータ処理

オーム社

￥4,400（2026/07/21 23:57時点）

🛠 実務で使える前処理レシピ集

欠損値処理、日付操作、結合、ピボットなど、業務で頻出のパターンをレシピ形式で解説。困ったときに辞書代わりに使える実践書です。

改訂新版前処理大全〜SQL/pandas/Polars実践テクニック

技術評論社

￥3,740（2026/07/22 02:30時点）

📈 ビジネス現場のデータ分析力をつける

Pandasを軸に、Excelからの脱却・業務自動化・レポート作成までを学べる1冊。「現場でそのまま使える」が魅力です。

Pythonによるあたらしいデータ分析の教科書第3版 (AI & TECHNOLOGY)

翔泳社

￥3,058（2026/07/22 02:30時点）

🤖 機械学習へつなげたい人に

Pandasで整えたデータをscikit-learnで分析する流れを学べる定番書。「集計の次の一歩」を踏み出したい人におすすめです。

Python機械学習プログラミング PyTorch＆scikit-learn編 impress top gearシリーズ

インプレス

￥4,620（2026/07/22 02:30時点）

🚀 退屈な業務はPythonに任せよう

Excel・CSV・Web・PDFを横断して自動化するアイデア集。Pandasと組み合わせれば、月次のルーティン作業が一気に消化されます。

退屈なことはPythonにやらせよう第3版 ―ノンプログラマーにもできる自動化処理プログラミング

オーム社

￥4,620（2026/07/22 10:32時点）

❓ よくある質問（FAQ）

🤔 Q1. PandasとExcelはどう使い分けるべき？

少量のデータを手軽に眺める・編集するならExcel、数万件以上のデータ集計・繰り返し処理・分析の自動化ならPandas、と使い分けるのがおすすめです。両方使えると最強です。

📓 Q2. PandasはVS CodeやPyCharmでも使えますか？

もちろん使えます。ただDataFrameの表示は、Jupyter NotebookやGoogle Colabのほうが綺麗で見やすいので、学習・分析作業はノートブック環境を強くおすすめします。

🔍 Q3. locとilocの違いがいつも混乱します

「locはラベル（インデックス名・カラム名）」「ilocは位置の番号（0始まり）」と覚えるとスッキリします。条件抽出にはlocを使うことが多いです。

⚠️ Q4. 複数条件のフィルタでエラーが出ます

各条件を必ず丸括弧で囲み、and/orではなく&/|を使ってください。(df["年齢"] >= 20) & (df["血液型"] == "A") のような書き方が正解です。

🐌 Q5. データが多くて処理が遅いです

不要な列を早めに削る、データ型を最適化する、ループよりmapや列演算を使う、といった工夫で改善できます。それでも遅い場合は Polars や Dask など高速ライブラリへの移行も検討しましょう。

✨ まとめ：Pandasは「データを味方につける」第一歩

Pandasの基本は、DataFrameとSeriesの理解 → ファイル読み込み → 抽出 → 集計 → 列演算という流れに集約されます。この5ステップを押さえるだけで、Excelでは扱いきれないサイズのデータでも、自分の手で自在に動かせるようになります。📊

「もっと早く出会いたかった」と多くの人が口を揃えるのがPandas。今回紹介した書籍を相棒に、ぜひあなたの日々の業務やデータ活用のレベルをひとつ上の世界へ引き上げてみてください。🚀

🐼Pandas入門ガイド｜Pythonで表データを扱う基本とおすすめ学習書

🐼 PythonでPandasを使えると、表データの世界が一気に広がる

📊 表形式データを扱うためのライブラリ「Pandas」

🧱 Pandasの主役「DataFrame」と「Series」

📋 DataFrame：表形式データを表すクラス

📏 Series：1次元データを表すクラス

📥 ExcelやCSVから一発でデータを読み込む

📓 表示はJupyter Notebookが圧倒的に見やすい

🎯 行と列の抽出：locとilocを使い分ける

🏷 loc：インデックスとカラム名で抽出

🔢 iloc：行番号と列番号で抽出

✂ 列だけ取り出す簡略記法

🔍 条件で絞り込む「ブールインデックス」

📊 統計量を一発で取得する

🧮 列単位で演算・新しい列を作る

⚖️ Pandas vs Excel：あえてPandasを使うメリット

📚 Pandasを学ぶのにおすすめの書籍

🐼 Pandas学習の世界的定番

🛠 実務で使える前処理レシピ集

📈 ビジネス現場のデータ分析力をつける

🤖 機械学習へつなげたい人に

🚀 退屈な業務はPythonに任せよう

❓ よくある質問（FAQ）

🤔 Q1. PandasとExcelはどう使い分けるべき？

📓 Q2. PandasはVS CodeやPyCharmでも使えますか？

🔍 Q3. locとilocの違いがいつも混乱します

⚠️ Q4. 複数条件のフィルタでエラーが出ます

🐌 Q5. データが多くて処理が遅いです

✨ まとめ：Pandasは「データを味方につける」第一歩

コメント