PDFやExcelをそのまま入れてもRAG精度が上がらない理由
「社内の資料はたくさんある。全部入れたのにAIの回答が的外れだ」——RAGに取り組んでいる会社でよく起きる状況です。
資料の量を増やしても精度が上がらないのには理由があります。この記事では、PDFやExcelをそのまま入れることで起きる問題と、精度に効く整備の考え方を整理します。技術的な詳細ではなく、「なぜ精度が出ないか」の構造を理解することが目的です。
「資料が多いのに答えない」はよくある
RAGの仕組みは、質問に近い資料の断片を検索して、それをもとに回答を生成するというものです。なので、関係する資料がたくさんあれば答えられるはず——と思うのは自然です。
でも実際には、資料量と回答精度は比例しません。
問題は「何を入れたか」より「どう入れたか」にあります。
PDF・Excelをそのまま入れると起きる問題
PDFやExcelをそのままRAGに流し込んだとき、よく起きる問題をいくつか挙げます。
表が崩れて意味がなくなる
PDFの表は、多くの場合テキストとして抽出するときに行・列の関係が崩れます。「売上高:1,200万円」という情報が、「売上高」と「1,200万円」に分断されて別々のチャンクに入ることもあります。数値情報を含む資料でこれが起きると、回答の精度は大きく落ちます。
文章がページの切れ目で分断される
PDFをページ単位・文字数単位で機械的に切ると、文脈の途中で切断されます。前段の説明と後段の結論が別チャンクになると、検索で後段だけを拾っても意味が通じません。
Excelのシート構造が失われる
Excelは「どのシートの、どの列の、どの行か」という構造に意味があります。フラットなテキストに変換すると、この構造が消えます。製品仕様書や価格表など、構造を前提にした資料は特に影響が大きいです。
古い資料と新しい資料が混在する
更新日の管理がなければ、古いバージョンと最新バージョンが同じ重みで検索対象になります。ポリシーの改訂前後の情報が混じって出てくるのは、これが原因です。
文字分割だけでは精度が落ちる理由
RAGでは、入れた資料を「チャンク」と呼ばれる単位に分割して、それぞれをベクトル化します。質問が来たとき、その質問に近いチャンクを検索で取り出して、回答の材料にします。
チャンクの分け方が粗いと、何が起きるか。
- 質問に関係するチャンクを拾えない(検索ミス)
- 関係ないチャンクを拾ってしまう(ノイズ)
- 拾ったチャンク自体が文脈として機能しない(崩れた断片)
いずれの場合も、回答がおかしくなります。資料は存在しているのに、正しい回答が返らない。
意味単位のチャンク設計とは何か
精度を上げるには、「意味のある単位」でチャンクを切ることが必要です。
具体的には次のようなことを意識します。
一つのチャンクが一つの意味単位になるよう分割する
「この質問に答えるためのチャンクを取り出したとき、それだけで意味が通じるか」を基準にします。前後の文脈がないと意味をなさない断片を作らないことが重要です。
表や箇条書きは構造を保ったまま切る
表は行ごと・列ごとではなく、テーブル全体を一つのまとまりとして扱うか、行単位で切る場合はヘッダー情報を毎回付与します。
資料の性質に合わせて分割方法を変える
マニュアル・仕様書・議事録・FAQ——資料の種類によって、適切なチャンク設計は変わります。一律の分割ルールを当てはめると、いずれかで精度が落ちます。
メタデータ付与と更新管理の重要性
チャンクの分割と同じくらい重要なのが、メタデータの管理です。
メタデータとは、チャンクに付与する属性情報です。たとえば次のようなものです。
- 作成日・更新日
- 対象部署・対象製品
- 資料の種別(マニュアル・仕様書・規定など)
- 有効期限
メタデータがあることで、「最新の規定だけを参照する」「営業向けの資料に絞って回答する」といった絞り込みが可能になります。
また、資料が更新されたときに古いチャンクを差し替える運用ができるのも、更新管理の仕組みがあるからです。これがないと、時間が経つほど古い情報が混在していきます。
どんな整備から始めるべきか
資料の状態によって、最初にやるべきことが変わります。
資料が散在していて、どれが有効か分からない場合
まず棚卸しから始めます。有効な資料の特定と、重複・古いバージョンの整理が先です。
資料はあるが、チャンクが粗い場合
資料の種類ごとに分割方針を設計し直すことから始めます。
チャンクはあるが、精度が安定しない場合
テスト質問を使って、どの種類の質問でつまずいているかを特定します。問題が多いカテゴリのチャンクを優先して見直します。
ロコアシでの整備の進め方
ロコアシのデータ整備サービスでは、次の工程を担当しています。
- PDF・Excelの解析と、有効データの抽出
- 資料の種別・目的に応じたチャンク設計
- 意味単位での分割とメタデータ付与
- 更新ルールの設計と継続的な差し替え対応
- アノテーション・構造化
「とりあえず入れた」状態から整備し直す作業も、新規でRAGに入れる資料の整備も対応しています。
まとめ
RAG精度が上がらない原因は、多くの場合モデルではなく入力データにあります。
PDFやExcelをそのまま入れることで起きる問題は、チャンク設計とメタデータ管理を整えることで解消できます。「資料はあるのに答えない」という状態は、整備の方法を変えることで改善できます。
このコラムに関連するサービスをご紹介しています
RAGメンテナンス代行サービスを見る →