転置インデックスとは何ですか？

単語からその単語を含むドキュメントの一覧を引けるインデックス構造。全文検索エンジンの中核技術。

転置インデックスのポイントは？

単語（ターム）をキーにして、その単語を含むドキュメントIDのリストを保持する。全文検索エンジン（Elasticsearch、Solr）の基盤技術。複数キーワードの検索はドキュメントIDリストの積集合・和集合で実現。TF-IDFやBM25などのスコアリングと組み合わせて検索結果の関連度を計算する

【てんちいんでっくす】

公開: 2026年3月25日

💡 本の巻末索引をデジタル化したら全文検索エンジンになった

📌 このページのポイント

転置インデックスのイメージ

ひよこ

転置インデックスって何が転置されてるの？

ペンギン先生

普通は「この文書にはどんな単語があるか」だよね。転置インデックスはそれをひっくり返して「この単語はどの文書にあるか」にしたものなんだ。本の巻末索引を思い浮かべてみて。「API→p.12, p.45, p.103」みたいに単語からページを引けるでしょ？あれがまさに転置インデックスだよ

ひよこ

Googleの検索もこれを使ってるの？

ペンギン先生

基本的にはそうだよ。Googleはウェブ全体のページを単語ごとに逆引きできるように巨大な転置インデックスを構築しているんだ。だから何十億ページの中から一瞬で検索結果を返せるんだね

ひよこ

Elasticsearchっていうのもこれ？

ペンギン先生

その通り！ElasticsearchもApache Solrも内部的にはApache Luceneという転置インデックスライブラリを使っているよ。文書を登録するときにトークナイザで単語に分割して、転置インデックスに格納するんだ

ひよこ

複数のキーワードで検索するときはどうなるの？

ペンギン先生

たとえば「Python AND データベース」で検索するなら、Pythonを含む文書IDリストとデータベースを含む文書IDリストの積集合（AND演算）を取るだけだよ。OR検索なら和集合。ビットマップインデックスと似た発想だね

ひよこ

日本語の検索は難しそう…

ペンギン先生

いいところに気づいたね。英語はスペースで単語を区切れるけど、日本語は形態素解析やN-gramで単語を分割する必要があるんだ。MeCabやkuromojiといった日本語トークナイザが活躍する場面だよ。検索精度はこのトークナイザの品質にかなり左右されるんだ

まとめ：ざっくりこれだけ覚えればOK！

転置インデックスって出てきたら「単語→文書の逆引き辞書で全文検索を支える仕組み」と思えればだいたいOK！

📖 おまけ：英語の意味

「Inverted Index」＝転置索引

💬 通常の「文書→単語」の関係をInvert（反転）して「単語→文書」にしたからこの名前だよ