【2026年版】Ollamaの始め方 — ローカルLLMのインストールから活用まで完全ガイド


Ollamaのローカル実行アーキテクチャ クラウドLLM ChatGPT/Claude データが外部に送信される あなたのパソコン(ローカル) Ollama REST API localhost:11434 モデル管理・推論実行 ダウンロード済みモデル 🧠 llama3.2 (2GB) 🧠 gemma2:2b (1.6GB) ストレージに保存 利用方法 ターミナル REST API Python SDK Open WebUI ollama run curl localhost import ollama ブラウザUI ローカル実行の利点 ✓ プライバシー保護 ✓ 完全無料 ✓ オフライン動作
Ollamaのローカル実行 — データがパソコン外に出ず、オフラインで完全無料で動く
🎚 難易度 ★☆☆ 初心者向け
⏱ 学習時間の目安 読むだけ10分、最初のLLM起動まで20〜30分(モデルDLに数分かかる場合あり)
📚 前提知識 なし(コマンドラインの基礎があるとスムーズ)
✅ このガイドで学べること
  • Ollamaのインストールとモデルのダウンロード
  • ターミナルでのLLMとの対話
  • REST API経由での利用
  • Python/JavaScriptクライアントとの連携

コマンド早見表

# インストール(macOS)
brew install ollama

# Ollamaサーバーを起動(バックグラウンド)
ollama serve

# モデルのダウンロードと対話
ollama run llama3.2          # Llama 3.2(約2GB)
ollama run gemma2:2b         # Gemma 2B(軽量、約1.6GB)
ollama run codellama         # コード特化
ollama run mistral           # Mistral 7B

# モデル管理
ollama list                  # ダウンロード済みモデル一覧
ollama pull mistral          # 最新版にアップデート
ollama rm llama3.2           # 削除

# REST API(ポート11434)
curl http://localhost:11434/api/generate \
  -d '{"model": "llama3.2", "prompt": "日本の首都は?", "stream": false}'
# Python クライアント
import ollama

response = ollama.chat(
    model='llama3.2',
    messages=[{'role': 'user', 'content': '日本の首都を教えてください'}]
)
print(response['message']['content'])

# OpenAI SDK 互換モード
from openai import OpenAI
client = OpenAI(base_url='http://localhost:11434/v1', api_key='ollama')
response = client.chat.completions.create(
    model='llama3.2',
    messages=[{'role': 'user', 'content': 'こんにちは!'}]
)
print(response.choices[0].message.content)

よくある詰まりポイント

Q. パソコンのスペックが低くても使えるの? 8GB RAM以上あれば2B〜3Bパラメータの小さいモデルは動くよ。おすすめは gemma2:2b(1.6GB)や llama3.2:3b(2GB)から試すこと。16GB RAMがあれば7Bクラス、32GB以上なら13Bクラスも快適に動くよ。GPUが搭載されていると応答速度が数倍〜十数倍速くなるから、GeForce/Radeon/Apple Siliconの環境では大きなモデルでも試してみてね。

Q. OpenAI APIと同じコードで使えるの? ほぼそのまま使えるよ。OpenAI PythonライブラリやJavaScript SDKで base_urlhttp://localhost:11434/v1 に変えるだけ。すでにOpenAI APIで動いているコードをローカル環境でテストしたい場合や、コストをかけずに開発したい場合に便利だよ。ただし gpt-4o などのモデル名をOllama対応のモデル名に変える必要があるよ。

Q. 日本語の精度はどうなの? モデルによって大きく差があるよ。llama3.2gemma2 は日本語の学習データが含まれているから比較的自然な日本語が返ってくるよ。精度を上げたいなら、プロンプトの先頭に「日本語で答えてください」と明示するのがコツ。英語より精度は落ちるけど、ローカルで動くことのプライバシー・コストメリットを優先したい場面で選択肢になるよ。

ひよこ ひよこ

OllamaってChatGPTみたいなAIが自分のパソコンで動くってこと!?

ペンギン先生 ペンギン先生

そうだよ。Ollamaはローカル(自分のパソコン上)でLLMを実行するためのツールだよ。ChatGPTみたいにAPIを呼び出す必要がなくて、インターネットなしで完全オフラインでも動くんだ。プライバシーが気になる場面やコストを抑えたい開発に最適だよ。

ひよこ ひよこ

クラウドChatGPTと何が違うの?

ペンギン先生 ペンギン先生

3つの大きな違いがあるよ。①プライバシー:入力データが外部サーバーに送られない ②コスト:一度モデルをダウンロードすれば無料で何度でも使える ③オフライン動作:インターネット不要。ただしクラウドより精度が低いモデルが多いのと、パソコンのスペックに性能が依存するよ。

ひよこ ひよこ

インストールはどうやるの?

ペンギン先生 ペンギン先生

ollama.com から各OS向けのインストーラーをダウンロードするだけだよ。macOSなら `brew install ollama` でもOK。WindowsLinuxも公式でサポートしているよ。インストールしたらターミナルで `ollama run llama3.2` と打つだけ。モデルが自動ダウンロードされて、すぐに対話が始まるよ。ぜひ試してみて!

ひよこ ひよこ

どんなモデルが使えるの?

ペンギン先生 ペンギン先生

Ollamaのライブラリページには100種類以上のモデルがあるよ。代表的なのは Meta の Llama 3.2(2GB〜)、GoogleGemma 2(1.6GB〜)、Mistral(4GB〜)、コード特化の CodeLlama など。日本語が得意なモデルとしては Gemma や最新のLlamaがおすすめだよ。

ひよこ ひよこ

モデルのダウンロードや管理はどうやるの?

ペンギン先生 ペンギン先生

`ollama pull llama3.2` でダウンロード、`ollama list` でインストール済みモデルの一覧確認、`ollama rm llama3.2` で削除できるよ。モデルは数GB〜数十GBのファイルだからストレージに注意してね。軽量な2Bや3Bパラメータのモデルから試すといいよ。

ひよこ ひよこ

プログラムからOllamaを呼び出すにはどうするの?

ペンギン先生 ペンギン先生

Ollamalocalhost:11434でREST APIを提供しているよ。`curl http://localhost:11434/api/generate` にJSONプロンプトを送るだけで結果が返ってくる。PythonJavaScriptには公式クライアントライブラリもあって、`pip install ollama` や `npm install ollama` で使えるよ。

ひよこ ひよこ

PythonChatGPTみたいに使えるの?

ペンギン先生 ペンギン先生

使えるよ。`import ollama` して `ollama.chat(model='llama3.2', messages=[...])` と書くだけで、ChatGPTAPIとほぼ同じ感覚で使えるんだ。さらにOllamaOpenAI APIの互換モードも持っていて、`base_url='http://localhost:11434/v1'` を設定するだけで既存のOpenAI用コードをそのまま動かせるよ。

ひよこ ひよこ

ブラウザで使えるChatGPTみたいなUIはないの?

ペンギン先生 ペンギン先生

Open WebUIというプロジェクトがあるよ。Dockerで簡単に起動でき、ChatGPTそっくりのUIOllamaのモデルを使えるんだ。会話履歴の管理や複数モデルの切り替えもできる。Dockerが使えるなら `docker run -d -p 3000:80 ghcr.io/open-webui/open-webui:main` の1行で立ち上がるよ。

ひよこ ひよこ

RAGってOllamaと組み合わせられるの?

ペンギン先生 ペンギン先生

できるよ。LangChainLlamaIndexOllamaバックエンドとして対応していて、自分の文書をChromaDBなどに保存してOllamaのモデルで回答させるRAGが構築できる。社内ドキュメントクラウドに送らずに検索・QAシステムを作れるから、企業での活用事例も増えているよ。

ひよこ ひよこ

スペックが低いパソコンでも動くの?

ペンギン先生 ペンギン先生

最低8GBのRAMがあれば小さめのモデル(2B〜3B)は動くよ。推奨は16GB RAMで、GPUがあると格段に速くなるんだ。CPUだけでも動くけど応答が遅めになる。M1/M2/M3チップのMacは統合GPUが使えるから快適に動くよ。自分のパソコンのスペックに合ったモデルサイズを選ぶのがポイントだね。

ひよこ ひよこ

OpenAI APIと完全に同じコードで使えるの?

ペンギン先生 ペンギン先生

ほぼ使えるよ。OpenAI Python SDKで `base_url` を `http://localhost:11434/v1` に、`api_key` を `ollama`(ダミー)に変えるだけ。`model` にOllamaのモデル名を指定すれば動くんだ。ただしFine-tuningやEmbedding API、一部の高度な機能はOllamaに存在しないものもあるから注意してね。

次に学ぶなら