RAGの仕組み — AIが「最新の知識」で回答できるわけをわかりやすく解説
ChatGPTに最新ニュースを聞いたら「知らない」って言われたよ。なんで?
LLMには「学習データの締め切り日(カットオフ)」があってね、それ以降の情報は持っていないんだよ。RAGはその問題を解決する技術で、デジタル庁の源内みたいな政府AIでも採用されてるんだ。
RAGって何なの?
Retrieval-Augmented Generationの略で「検索拡張生成」と訳すんだよ。AIが答える前に関連文書を検索して、その内容を読み込んでから回答させる仕組みだよ。「知識を暗記させる」んじゃなく「毎回調べてから答えさせる」イメージだね。
Google検索と何が違うの?
ベクトル検索って具体的にどうやってるの?
テキストを数百〜数千次元の数値配列(ベクトル)に変換するんだよ。意味が近い言葉はベクトルの向きが似るから、コサイン類似度で「距離」を計算して近い文書を探せるんだ。この変換に使うモデルをEmbeddingモデルと呼ぶよ。
RAGはどういう順番で動くの?
ファインチューニングってのとはどう違うの?
ファインチューニングはAIに知識を「学習させる」方式で、RAGは「検索して使わせる」方式だよ。使い分けを比較してみよう。
| 比較項目 | RAG | ファインチューニング |
|---|---|---|
| 知識の更新 | 文書追加だけでOK | 再学習が必要(費用・時間大) |
| 初期コスト | 低(推論のみ) | 高(GPU学習費用) |
| 機密情報の扱い | 学習に不要で安全 | モデルに組み込まれる |
| 得意な用途 | 最新情報・社内文書 | 特定スタイル・タスク |
| 出典の確認 | 元文書を参照できる | ブラックボックス |
じゃあRAGって完璧?弱点はないの?
検索でヒットしなければ答えられない、文書の品質と更新状態に左右される、という限界があるんだよ。源内みたいな大規模展開では「文書を整備・最新化し続ける」運用コストが実は一番の課題なんだ。技術より「人と仕組みの継続管理」が難しいんだよ。