【2026年版】Ollamaの始め方 — ローカルLLMのインストールから活用まで完全ガイド
🎚 難易度 ★☆☆ 初心者向け
⏱ 学習時間の目安 読むだけ10分、最初のLLM起動まで20〜30分(モデルDLに数分かかる場合あり)
📚 前提知識 なし(コマンドラインの基礎があるとスムーズ)
✅ このガイドで学べること
- Ollamaのインストールとモデルのダウンロード
- ターミナルでのLLMとの対話
- REST API経由での利用
- Python/JavaScriptクライアントとの連携
コマンド早見表
# インストール(macOS)
brew install ollama
# Ollamaサーバーを起動(バックグラウンド)
ollama serve
# モデルのダウンロードと対話
ollama run llama3.2 # Llama 3.2(約2GB)
ollama run gemma2:2b # Gemma 2B(軽量、約1.6GB)
ollama run codellama # コード特化
ollama run mistral # Mistral 7B
# モデル管理
ollama list # ダウンロード済みモデル一覧
ollama pull mistral # 最新版にアップデート
ollama rm llama3.2 # 削除
# REST API(ポート11434)
curl http://localhost:11434/api/generate \
-d '{"model": "llama3.2", "prompt": "日本の首都は?", "stream": false}'
# Python クライアント
import ollama
response = ollama.chat(
model='llama3.2',
messages=[{'role': 'user', 'content': '日本の首都を教えてください'}]
)
print(response['message']['content'])
# OpenAI SDK 互換モード
from openai import OpenAI
client = OpenAI(base_url='http://localhost:11434/v1', api_key='ollama')
response = client.chat.completions.create(
model='llama3.2',
messages=[{'role': 'user', 'content': 'こんにちは!'}]
)
print(response.choices[0].message.content)
よくある詰まりポイント
Q. パソコンのスペックが低くても使えるの?
8GB RAM以上あれば2B〜3Bパラメータの小さいモデルは動くよ。おすすめは gemma2:2b(1.6GB)や llama3.2:3b(2GB)から試すこと。16GB RAMがあれば7Bクラス、32GB以上なら13Bクラスも快適に動くよ。GPUが搭載されていると応答速度が数倍〜十数倍速くなるから、GeForce/Radeon/Apple Siliconの環境では大きなモデルでも試してみてね。
Q. OpenAI APIと同じコードで使えるの?
ほぼそのまま使えるよ。OpenAI PythonライブラリやJavaScript SDKで base_url を http://localhost:11434/v1 に変えるだけ。すでにOpenAI APIで動いているコードをローカル環境でテストしたい場合や、コストをかけずに開発したい場合に便利だよ。ただし gpt-4o などのモデル名をOllama対応のモデル名に変える必要があるよ。
Q. 日本語の精度はどうなの?
モデルによって大きく差があるよ。llama3.2 と gemma2 は日本語の学習データが含まれているから比較的自然な日本語が返ってくるよ。精度を上げたいなら、プロンプトの先頭に「日本語で答えてください」と明示するのがコツ。英語より精度は落ちるけど、ローカルで動くことのプライバシー・コストメリットを優先したい場面で選択肢になるよ。
インストールはどうやるの?
どんなモデルが使えるの?
モデルのダウンロードや管理はどうやるの?
スペックが低いパソコンでも動くの?