NO IMAGE

AIF-C01 D3 基盤モデルの応用 徹底解説(2025年最新)|RAG・プロンプト技法・FM評価

NO IMAGE
目次

D3 出題範囲と配点 — 108問・28%・最大配点

本記事は「AWS AIF-C01試験対策」シリーズの Vol3 です。
試験全体の概要と学習ロードマップは Vol0 ロードマップ で確認してください。

AIF-C01(AWS Certified AI Practitioner)の試験は5つのドメインで構成されており、本記事が対象とする D3「基盤モデルの応用(Applications of Foundation Models)」は出題比率28%で全ドメイン中の最大配点 です。
CertTrend LMSの400問演習ではD3に 108問 を割り当てており、ここを攻略できるかどうかが合否の分かれ目になります。

D3で問われる中心テーマは3つです。

  • RAG(Retrieval Augmented Generation) とAmazon Bedrock Knowledge Basesによるナレッジ統合
  • プロンプトエンジニアリング技法 (zero-shot/few-shot/CoT)とリスク対策
  • 基盤モデルのカスタマイズ手法 と評価指標(ROUGE/BERTScore/LLM-as-judge)
この記事(Vol3)で得られること

  • D3の出題範囲と最大配点28%の攻略視点(§1)
  • 基盤モデル選定の5つの基準(モダリティ・コスト・レイテンシ・サイズ・カスタマイズ性)(§2)
  • 推論パラメータ(temperature/top-p/max_tokens)の挙動と選択判断(§3)
  • RAGアーキテクチャとBedrock Knowledge Basesの仕組み(§4)
  • ベクトルDBの選択肢(OpenSearch/Aurora/Neptune)(§5)
  • FMカスタマイズ手法の比較(in-context/fine-tuning/RAG/distillation)(§6)
  • プロンプト技法(zero-shot/few-shot/CoT)とinjection・jailbreakリスク対策(§7〜§8)
  • FM評価指標(ROUGE/BLEU/BERTScore/LLM-as-judge/Bedrock Model Evaluation)(§9)

D3の出題傾向を押さえる

D3はFoundationalレベル(Bloom L1〜L3)を主眼としています。
「この概念は何か(L1)」「このユースケースにはどの手法が適切か(L2)」「与えられた条件でどれを選ぶべきか(L3)」という形式の設問が中心です。
深い実装詳細よりも、各手法の特徴・使い分け・トレードオフ を正確に理解することが高得点への近道です。

FM選定基準 — コスト・モダリティ・レイテンシ・サイズ・カスタマイズ

Amazon Bedrockには複数の基盤モデル(Foundation Model: FM)が用意されており、ユースケースに合ったモデルを選ぶ判断力が問われます。
選定基準は主に次の5軸です。

選定基準内容設問での判断ポイント
モダリティ対応する入出力の種類テキストのみ / 画像生成 / マルチモーダル(画像+テキスト)
コスト入出力トークン単価・API呼出し費用大規模処理ではコスト感度が高い
レイテンシ応答速度リアルタイム対話はミリ秒オーダーが必要
モデルサイズパラメータ数大モデルは高精度だがコスト高・小モデルは低コスト・高速
カスタマイズ性fine-tuning・継続事前学習への対応可否ドメイン特化が必要かどうか
設問ではこう問われる

  • 「テキストと画像の両方を入力したい」→ マルチモーダルモデルを選ぶ
  • 「コストを最小化しつつ高速なチャットボットを作りたい」→ 小規模モデルが候補
  • 「自社の専門用語でfine-tuningしたい」→ カスタマイズ対応モデルを確認

モデル選定の設問は「何を優先するか」を読み取ることが最重要です。
複数の条件が提示された場合、制約条件(コストやレイテンシ)を先に除外し、残った選択肢から最適解を選ぶ手順が有効です。

Amazon BedrockではClaude(Anthropic)・Llama(Meta)・Mistral・Titan(Amazon)・Stable Diffusion(Stability AI)など多数のモデルが利用可能です。
各モデルファミリーの特徴(テキスト生成特化・画像生成特化・コード生成強化など)を大まかに把握しておきましょう。

推論パラメータ — temperature・top-p・max_tokens

基盤モデルへのAPIリクエスト時には、推論の挙動を制御する 推論パラメータ を設定します。
試験ではこれらのパラメータが生成結果に与える影響を理解しているかが問われます。

temperature(温度)

temperature は生成テキストの ランダム性(多様性)を制御 するパラメータです。

  • 低い値(0に近い): 確率の高いトークンを優先的に選択 → 決定論的・一貫した出力
  • 高い値(1〜2程度): 確率の低いトークンも選ばれやすくなる → 多様・創造的な出力

ファクトチェックや要約など 正確性が求められる用途 では低い値を、クリエイティブライティングやアイデア出しなど 多様性が求められる用途 では高い値を設定します。

top-p(核サンプリング)

top-p累積確率のしきい値 を設定するパラメータです。
確率の高いトークンから順に合計確率が top-p に達するまでのトークン集合(核)からサンプリングします。

  • top-p = 0.9 → 上位90%の累積確率に含まれるトークンからのみ選択
  • 低い値にするほど選択肢が絞られ、高い値にするほど多様な選択肢が含まれます

temperatureとtop-pは両方設定できますが、一般的にはどちらか一方を調整し、もう一方はデフォルト値のままにする運用が推奨されています。

max_tokens(最大出力長)

max_tokens は生成するトークンの最大数を制限するパラメータです。
長い応答が不要な場面では小さく設定してコストと応答時間を削減できます。

推論パラメータの選択判断まとめ

  • 正確・一貫した回答が必要 → temperature を低く
  • 創造的・多様な回答が必要 → temperature を高く
  • 出力コストを抑えたい → max_tokens を制限
  • 稀なトークンを排除したい → top-p を低く

RAGアーキテクチャとBedrock Knowledge Bases

RAG(Retrieval Augmented Generation)は、D3の中核テーマであり最も出題頻度が高いトピックです。
基盤モデルの学習データは学習時点(カットオフ)で固定されているため、最新情報や社内文書など学習に含まれない知識 をモデルに与える仕組みが必要です。
RAGはその課題を解決するアーキテクチャパターンです。

RAGアーキテクチャ図
RAG(Retrieval Augmented Generation)アーキテクチャとBedrock Knowledge Bases

RAGの動作フロー

RAGは大きく インデックス化フェーズクエリフェーズ の2段階で動作します。

インデックス化フェーズ(オフライン処理)

  1. ドキュメントを取り込み、一定サイズの チャンク(断片) に分割する
  2. 各チャンクを 埋め込みモデル(Embedding Model) でベクトル(数値の配列)に変換する
  3. ベクトルを ベクトルデータベース に保存・インデックス化する

クエリフェーズ(オンライン処理)

  1. ユーザーのクエリを同じ埋め込みモデルでベクトルに変換する
  2. ベクトルDBで 近傍探索(Similarity Search) を実行し、類似度の高いチャンクを取得する
  3. 取得したチャンク(コンテキスト)をFMのプロンプトに付加して応答を生成する

Amazon Bedrock Knowledge Bases

Amazon Bedrock Knowledge BasesはAWSが提供するフルマネージドRAGソリューションです。
データソースの接続・埋め込み生成・ベクトルDB管理・検索・プロンプト付加までをワンストップで提供します。

機能内容
データソースS3、Confluence、SharePoint、Salesforce、Webサイトなど
埋め込みモデルAmazon Titan Embeddings、Cohere Embed など
ベクトルDBOpenSearch Serverless、Aurora PostgreSQL、Neptune、Pinecone、Mongodbなど
検索方式セマンティック検索(ベクトル類似度)、ハイブリッド検索(ベクトル+キーワード)
同期データソースの変更を定期同期またはオンデマンドで反映
RAGの利点と限界

  • 利点: モデルの再学習不要で最新情報を参照可能。出典(ソース)を示せるため回答の信頼性が高い。ハルシネーション(事実と異なる回答)を抑制できる
  • 限界: 検索精度(チャンク設計・埋め込みモデルの選択)に依存する。検索と生成の2ステップがあるためレイテンシが増加する。クエリと関連性の低いドキュメントが多い場合は効果が薄い

ベクトルDBの種類 — OpenSearch・Aurora・Neptune

RAGのベクトル保存先として使用できるベクトルDBの主要な選択肢を整理します。

Amazon OpenSearch Serverless(Vector Engine)

Amazon OpenSearch ServerlessはOpenSearchのサーバーレス版で、ベクトル検索エンジン(k-NN検索) に対応しています。
大規模なインデックスと高スループットが必要なケース、既存のOpenSearchインフラがある場合に選択されます。
Bedrock Knowledge Basesのデフォルト推奨ベクトルDBです。

Amazon Aurora PostgreSQL(pgvector)

Amazon Aurora PostgreSQLでは pgvectorエクステンション を有効化することでベクトル検索が可能です。
既存のRDSやAurora PostgreSQLデータベースを活用している場合、追加のデータストアを用意せずにRAGを構築できます。
リレーショナルデータとベクトルデータを同一DBで管理したいシナリオに適しています。

Amazon Neptune(グラフDB)

Amazon Neptuneはグラフデータベースですが、ベクトル検索機能も備えています。
知識グラフとベクトル検索を組み合わせた Graph RAG パターン、エンティティ間の関係性を考慮した検索が必要な場合に選択します。

ベクトルDB特徴向いている場面
OpenSearch Serverless大規模・高スループット・サーバーレス大量ドキュメント・デフォルト選択
Aurora PostgreSQL (pgvector)既存RDBとの統合SQL利用・既存PostgreSQL環境
Neptuneグラフ+ベクトルのハイブリッド関係性考慮・Graph RAG

FMカスタマイズ手法の比較

基盤モデルを特定のドメインやタスクに適応させる手法は複数あり、その選択判断がD3の頻出テーマです。

FMカスタマイズ手法選択フロー
基盤モデルカスタマイズ手法の選択基準(in-context/fine-tuning/RAG/distillation)

手法の全体像

手法追加学習データ要件コスト代表的なユースケース
In-context Learning不要プロンプト内の例示のみ数十件の例示で対応できるタスク
RAG不要検索対象ドキュメント最新情報・社内ドキュメント参照
Fine-tuning必要ラベル付き訓練データ(数百〜数千件)中〜高ドメイン特化・特定スタイル適応
継続事前学習(pre-training)必要大量のドメインテキスト非常に高特定ドメインの専門用語大量学習
知識蒸留(Distillation)必要教師モデルの出力大モデルの知識を小モデルへ転送

In-context Learning(インコンテキスト学習)

プロンプト内に例示(デモンストレーション)を含めることでモデルに挙動を教える手法です。
追加学習が不要で即座に試せるため、まず最初に試みるアプローチです。
ただしプロンプト長の制限(コンテキストウィンドウ)があるため、多数の例示には適しません。

Fine-tuning(ファインチューニング)

ラベル付きの訓練データを用いて、事前学習済みモデルのパラメータを特定タスク向けに調整する手法です。
Amazon Bedrockでは一部モデルで Custom Model(ファインチューニング) を利用できます。

Fine-tuningの効果が高い場面:

  • 特定の出力フォーマット(JSON形式での回答など)を一貫して生成させたい
  • 業界特有の表現・スタイルを学習させたい
  • 数百件以上の品質の高い訓練データが用意できる

継続事前学習(Continued Pre-training)

大量のドメイン特化テキストでモデルを追加学習する手法です。
医療・法律・金融など専門用語が非常に多いドメインで有効ですが、コストと大量データが必要になる点には注意してください。
Fine-tuningとの違いは、特定タスクへの適応(Fine-tuning) ではなく ドメイン知識の基盤強化(Pre-training) を目的とする点です。

知識蒸留(Knowledge Distillation)

大きな教師モデル(Teacher Model)の出力を学習データとして、小さな生徒モデル(Student Model)を訓練する手法です。
大モデルの推論コストを抑えながら、同等の性能を小モデルで実現したい場合に選択します。

手法選択の判断フロー

  • まず In-context Learning(プロンプト内例示) で試す
  • 精度不足で学習データがある → Fine-tuning
  • 最新情報・社内文書が必要 → RAG
  • 大量ドメインテキストがあり根本的に知識が足りない → 継続事前学習
  • 大モデルを小モデルで代替したい → 知識蒸留

「追加学習なしで最新情報を参照したい」はRAG、「スタイルや形式を固定したい」はFine-tuning、という整理が試験での定番判断です。

プロンプトエンジニアリング技法

プロンプトエンジニアリングは、基盤モデルへの入力(プロンプト)を設計することで、追加学習なしに出力品質を向上させる技術です。
D3では各技法の特徴と使い分けが問われます。

Zero-shot プロンプティング

例示なしで直接タスクを指示する最もシンプルな手法です。

顧客のメール文を「肯定的」「否定的」「中立」に分類してください。
メール:「配送が思ったより遅かったですが、商品自体には満足しています。」

モデルが汎用的な知識でタスクを解ける場合に有効です。
例示の準備が不要なため、プロトタイプ段階での評価に適しています。

Few-shot プロンプティング

プロンプト内に入出力の例示(ショット)を複数含めることで、モデルにタスクのパターンを示す手法です。

例1:
入力: 「素晴らしいサービスでした!」→ 出力: 肯定的

例2:
入力: 「二度と使いません」→ 出力: 否定的

入力: 「配送が遅かったですが商品は良かった」→ 出力:

Zero-shotより精度が上がりやすく、特定のフォーマットで出力させたい場合にも有効です。
プロンプトが長くなるため、コンテキストウィンドウと入力コストに注意が必要です。

Chain-of-Thought(CoT)プロンプティング

「ステップバイステップで考えてください(Let’s think step by step)」のように、推論過程を明示的に示させることで複雑な問題の正解率を向上させる手法です。

Q: 田中さんは月曜日から木曜日まで毎日8時間、金曜日に4時間働きます。週の総労働時間は何時間ですか?
A: ステップバイステップで考えましょう。
月〜木: 4日 × 8時間 = 32時間
金曜日: 4時間
合計: 32 + 4 = 36時間

算数的推論・論理問題・複数ステップが必要な判断問題で特に有効です。
Few-shot CoTでは例示にも推論過程を含めることでさらに精度が向上します。

ReAct プロンプティング

Reasoning(推論)とActing(行動)を組み合わせたパターンです。
ツール(検索・計算機など)の呼び出しと推論を繰り返しながらタスクを解決する手法で、Amazon Bedrockのエージェント機能の設計原則に採用されています。

各手法の使い分けまとめ

  • Zero-shot: 単純タスク・プロトタイプ初期評価
  • Few-shot: 特定フォーマットの出力・中難度タスク
  • CoT: 算数・論理推論・複数ステップが必要な判断
  • ReAct: ツール呼び出しを伴うエージェント設計

プロンプトリスク — injection・jailbreak

基盤モデルを本番環境で運用する際には、プロンプトに関するセキュリティリスクへの対策も重要です。

プロンプトインジェクション(Prompt Injection)

外部データ(ユーザー入力・Webページ・ドキュメントの内容)に悪意ある指示を埋め込み、モデルの動作を意図しない方向に操作する攻撃です。

直接型: ユーザーが直接プロンプトに不正な指示を挿入する
間接型: ツールやRAGで取得した外部コンテンツに悪意ある指示が埋め込まれている(Indirect Injection)

対策例:
– ユーザー入力をシステムプロンプトと明確に分離する
– Amazon Bedrock Guardrailsで不正なコンテンツをフィルタリングする
– RAGで取得するドキュメントの信頼性を管理する

ジェイルブレイク(Jailbreak)

モデルの安全フィルタや倫理ガイドラインを回避するよう巧みに設計されたプロンプトによって、有害なコンテンツを生成させようとする攻撃です。

対策例:
– Amazon Bedrock Guardrailsのコンテンツフィルタリングを適用する
– プロンプトのウォーターマーキングや検知機構を導入する
– モデルのシステムプロンプトでポリシーを明示する

Bedrock Guardrailsによるリスク低減
Amazon Bedrock Guardrailsは、プロンプトインジェクション検出・有害コンテンツフィルタリング・PIIデータのマスキング・禁止トピックの設定など、複数の防護層をモデルの前後に挿入するサービスです。
試験では「本番投入時のリスク低減策」として登場します。

FM評価指標 — ROUGE・BLEU・BERTScore・LLM-as-judge

基盤モデルの出力品質を定量的に評価する指標がD3の頻出テーマです。
各指標の算出原理と得意とするユースケースを理解しましょう。

ROUGE(Recall-Oriented Understudy for Gisting Evaluation)

ROUGEはテキスト要約タスクの評価で広く使われる指標です。
参照テキスト(正解)と生成テキストのn-gramのオーバーラップ を計算します。

バリアント計算対象
ROUGE-1単語(ユニグラム)のオーバーラップ
ROUGE-22単語の連続(バイグラム)のオーバーラップ
ROUGE-L最長共通部分列(LCS: Longest Common Subsequence)

ROUGEは 再現率(Recall) 重視の指標です。
生成テキストが正解テキストの語句をどれだけ網羅しているかを測定します。
要約品質の評価では、「重要な情報を漏らさず含んでいるか」が重要なため、再現率重視のROUGEが適しています。

BLEU(Bilingual Evaluation Understudy)

BLEUは機械翻訳タスクの評価で標準的に使われる指標です。
生成テキストの各n-gramが参照テキストに現れる割合(適合率 / Precision) を計算します。

ROUGEとBLEUの違い:

  • ROUGE → 再現率重視(Recall)→ 要約評価
  • BLEU → 適合率重視(Precision)→ 翻訳評価

BERTScore

BERTScoreは BERTなどの言語モデルが生成する文脈埋め込み(Contextual Embeddings) を使って、生成テキストと参照テキストの 意味的類似度 を計算する指標です。

ROUGEやBLEUが表面的な単語の一致を見るのに対し、BERTScoreは 意味レベルのマッチング を行います。
「同じ意味を別の言い回しで表現した場合でも正しく評価できる」点がBERTScoreの利点です。

LLM-as-judge(LLMを評価者として使う)

より大きな言語モデルを 評価者(judge) として活用し、生成テキストの品質を自動評価する手法です。
人手評価に近い柔軟な評価(流暢さ・有用性・事実性など)を自動化できます。
ただし評価用LLMのバイアスや一貫性の問題に注意が必要です。

Amazon Bedrock Model Evaluation

Amazon Bedrock Model Evaluationは、FMを タスク固有のデータセットで体系的に評価 するAWSのマネージドサービスです。
自動評価(ROUGE/BERTScoreなどの指標)と人手評価の両方に対応しており、複数モデルの比較・ベンチマーク・品質トラッキングに活用されます。

評価指標の使い分けまとめ

  • ROUGE: テキスト要約の評価(再現率重視)
  • BLEU: 機械翻訳の評価(適合率重視)
  • BERTScore: 意味的類似度の評価(言い換えに対応)
  • LLM-as-judge: 柔軟な品質評価(流暢さ・有用性など人手基準に近い評価)
  • Bedrock Model Evaluation: AWSマネージドの体系的FM評価サービス

試験では「翻訳品質を自動評価したい」→ BLEU、「要約の網羅性を測定したい」→ ROUGE、「言い換えを正しく評価したい」→ BERTScore、という形で問われます。

CertTrend LMS で400問チェック

D3の内容は概念の理解だけでなく、シナリオに基づいた手法選択の判断力 が問われます。
インプット学習の後は、問題演習で判断力を磨くことが合格への確実な道です。

CertTrend LMS — AIF-C01 対応400問演習

  • D3「基盤モデルの応用」108問を収録
  • 全問に日本語の詳細解説付き(正答理由+誤答の理由を明示)
  • AWS公式ドキュメントに基づいたオリジナル問題
  • 弱点ドメインを診断して重点演習が可能

関連実装記事 — 本番Bedrock設計を深掘りする

試験対策と並行して実装レベルの理解を深めたい場合は、以下の本番運用記事をあわせてご参照ください。

Vol3まとめ — D3の攻略ポイント

本記事ではAIF-C01 D3「基盤モデルの応用」(出題比率28%・最大配点)を体系的に解説しました。

D3 攻略の要点おさらい

  • FM選定は モダリティ・コスト・レイテンシ・サイズ・カスタマイズ性 の5軸で判断
  • 推論パラメータ: temperature(多様性)top-p(核サンプリング)max_tokens(出力長制限)
  • RAGは最新情報・社内文書参照に有効。ベクトルDB(OpenSearch/Aurora pgvector/Neptune)の選択も問われる
  • カスタマイズは In-context → RAG → Fine-tuning → Pre-training の順にコスト増加
  • プロンプト技法: Zero-shot(例示なし)Few-shot(例示あり)CoT(ステップ推論)
  • プロンプトリスク: Injection(不正指示の挿入)Jailbreak(安全フィルタの回避) → Bedrock Guardrailsで対策
  • 評価指標: ROUGE(要約・再現率)BLEU(翻訳・適合率)BERTScore(意味類似度)LLM-as-judge(柔軟評価)

シリーズ全体の進め方は Vol0 ロードマップ でご確認ください。

Vol対象ドメイン状態
Vol0 ロードマップ全体(ハブ)公開済
Vol1 AIと機械学習の基礎D1 (20%)公開予定
Vol2 生成AIの基礎D2 (24%)公開予定
Vol3(本記事) 基盤モデルの応用D3 (28%)公開予定
Vol4 責任あるAID4 (14%)公開予定
Vol5 AIセキュリティ・コンプライアンスD5 (14%)公開予定