NO IMAGE

AIF-C01 D1 AIとMLの基礎 徹底解説(2025年最新)|学習種別・評価指標・AWSサービス

NO IMAGE
目次

1. はじめに — D1「AIとMLの基礎」とは

本記事は「AWS AIF-C01 試験対策」シリーズの Vol1 です。
シリーズ全体像をつかんでいない方は、5ドメインの俯瞰とサービスマップを解説した Vol0 ロードマップ を先にご覧ください。

AIF-C01(AWS Certified AI Practitioner)は Foundational(基礎) レベルの試験です。
65問・90分・合格スコア700という仕様で、「AI/MLソリューションを使う」立場の方が対象となります。
D1「Fundamentals of AI and ML(AIとMLの基礎)」は出題比率 20% を占め、5ドメインのなかで学習の出発点となるドメインです。

この記事(Vol1)で得られること

  • D1の出題範囲とタスクステートメントの全体像(§1)
  • AI・ML・深層学習の包含関係(§2)
  • 教師あり・なし・強化学習の違いと使い分け(§3)
  • 回帰・分類・クラスタリング・推薦のタスク種類(§4)
  • バッチ・リアルタイム・非同期・サーバーレス推論の使い分け(§5)
  • データ種別と前処理の基本概念(§6)
  • accuracy/precision/recall/F1/ROC-AUCの評価指標(§7)
  • MLOpsの基本概念(§8)
  • タスク特化AIサービス早見(§9)

2. D1 出題範囲と配点(80問・20%)

2-1. 公式タスクステートメント

公式試験ガイドによると、D1 は以下の3つのタスクステートメントで構成されています。

#タスクステートメント
1.1基本的なAI概念と用語の説明
1.2AIの実用ユースケースの特定
1.3AI/ML開発ライフサイクルの説明

D1 で問われる中核概念は、AI・ML・深層学習の用語定義、学習種別(教師あり/なし/強化学習)、タスクの種類(回帰/分類/クラスタリング)、推論の種別、データ種別、評価指標、MLOps、タスク特化AIサービスです。
「何が何か」「どんな場面で使うか」という 概念・用途の理解 が問われ、実装コードの知識は範囲外です。

D1学習のコツ

  • 用語の「定義」と「典型的な使い場面」をセットで覚えましょう
  • AI ⊃ ML ⊃ 深層学習 という包含関係を図で頭に入れておくと多くの問題に対応できます
  • サービス選択問題では「そのサービスが自動化する作業は何か」という視点で整理すると迷いにくくなります

2-2. 出題傾向のポイント

D1 は Foundational レベルの基礎部分を担います。
試験では「教師あり学習はどのような場合に使うか」「Amazon Comprehend の用途は何か」といった 単一概念を問う設問 と、「回帰と分類の違いはどこか」「バッチ推論とリアルタイム推論をどう使い分けるか」といった 比較・使い分けを問う設問 が中心となります。

3. AI / ML / 深層学習の包含関係

3-1. 3つの概念の位置づけ

AI・ML・深層学習は混同されやすい用語ですが、実際には 入れ子(包含)関係 にあります。

AI・ML・深層学習の包含関係図
AI・ML・深層学習の包含関係(AIF-C01 D1)
  • AI(人工知能) — 人間の知的ふるまいをコンピュータで再現する技術の総称です。最も広い概念で、機械学習・深層学習のほか、ルールベースのシステムなども含まれます。
  • ML(機械学習) — AIの一分野で、データから規則やパターンを自動的に学習する手法です。明示的なルールを人間が書く代わりに、アルゴリズムがデータから規則を導き出します。
  • 深層学習(Deep Learning) — MLの一手法で、多層のニューラルネットワークを用いてデータの特徴を自動抽出します。画像認識・音声認識・自然言語処理で特に威力を発揮します。

試験の頻出ポイントは「深層学習 ⊂ ML ⊂ AI」という包含関係です。
「すべてのMLが深層学習ではない」「すべての深層学習はMLである」という命題は頻出します。

3-2. ニューラルネットワークの基本

ニューラルネットワークは人間の脳の神経細胞(ニューロン)の仕組みを模した数学的なモデルです。
入力層・中間層(隠れ層)・出力層という構造を持ち、層を多く重ねたものが深層学習(ディープニューラルネットワーク)と呼ばれます。

概念説明
ニューロン(ノード)値を受け取り、重み付き計算をして次の層へ渡す基本単位
重み(パラメータ)学習によって調整される数値。「どの入力を重視するか」を決める
活性化関数ニューロンの出力を変換する関数(ReLU/Sigmoid/Tanh 等)
学習正解データとの誤差を小さくするように重みを繰り返し更新するプロセス

3-3. 大規模言語モデル(LLM)と生成AI

大規模言語モデル(LLM: Large Language Model)は、大量のテキストデータで学習した深層学習モデルです。
文章生成・要約・翻訳・質問応答などのタスクをこなします。
LLM は生成AI(Generative AI)の中核技術であり、Amazon Bedrock を通じて AWS が提供する各種基盤モデル(Foundation Model)の多くもLLMベースです。

試験では「LLM は深層学習モデルの一種である」という理解が問われます。

4. 機械学習の学習種別(教師あり・なし・強化学習)

4-1. 3種類の学習方式

機械学習の学習方式は大きく 教師あり学習・教師なし学習・強化学習 の3種類に分類されます。

機械学習 学習種別マップ
機械学習の学習種別(教師あり/なし/強化学習)
学習種別データの特徴典型ユースケース
教師あり学習ラベル付きデータ(入力と正解のペア)スパム判定・画像分類・売上予測
教師なし学習ラベルなしデータ顧客セグメント分類・異常検知・次元削減
強化学習報酬フィードバック(環境との相互作用)ゲームAI・ロボット制御・推薦システム最適化

4-2. 教師あり学習

教師あり学習は、入力データと正解ラベルのペア を使ってモデルを訓練します。
「このメールはスパムかどうか(ラベル)」「この画像は猫か犬か(ラベル)」のように、正解が明示されているデータで学習します。

AIF-C01 では「正解データが必要な場面 → 教師あり学習」という判断軸を押さえましょう。
Amazon SageMaker の多くの内蔵アルゴリズム(XGBoost/Linear Learner 等)は教師あり学習を利用します。

4-3. 教師なし学習

教師なし学習は、ラベルなしのデータのみ を使って隠れたパターンや構造を見つけます。
正解が存在しない場合や、大量の未ラベルデータがある場面で活用されます。

典型的な手法としてクラスタリング(K-means 等)・次元削減(PCA 等)・異常検知があります。

4-4. 強化学習

強化学習は、エージェントが環境と相互作用しながら報酬を最大化 する方針を学習します。
「ある行動をとったとき、どれだけ良い結果(報酬)が得られるか」という試行錯誤のプロセスです。
チェスや囲碁のゲームAI、自律走行車のルート最適化などが代表例です。

RLHF(Reinforcement Learning from Human Feedback)は、LLMのファインチューニングに強化学習を組み合わせた手法で、生成AIの品質向上に使われています。

4-5. 半教師あり学習と転移学習

種別概要
半教師あり学習少量のラベルありデータと大量のラベルなしデータを組み合わせる手法
転移学習別タスクで事前学習したモデルを新タスクに流用する手法。少ないデータで高精度を実現

転移学習は基盤モデル(Foundation Model)のファインチューニングの基礎概念として D3 にも登場します。

5. タスクの種類(回帰・分類・クラスタリング・推薦)

5-1. 主要なMLタスク

MLで解くべき問題は、出力の種類によって以下のタスクに分類されます。

タスク出力
回帰連続数値明日の気温予測・不動産価格推定
二値分類2クラスのいずれかスパム/非スパム・陽性/陰性
多クラス分類複数クラスのいずれか犬/猫/鳥/その他の画像分類
クラスタリンググループ(ラベルなし)顧客セグメント分析
推薦スコア/ランキング商品レコメンデーション
異常検知正常/異常不正取引の検出

5-2. 回帰と分類の違い

試験でよく問われるのが 回帰と分類の区別 です。

  • 回帰(Regression) — 出力が連続する数値である問題です。「売上はいくらか」「温度は何度か」のような数値を予測します。
  • 分類(Classification) — 出力がカテゴリである問題です。「これはAクラスかBクラスか」のように有限の選択肢から判断します。

「出力が数値か、カテゴリか」という軸が判断の基本です。

5-3. クラスタリング

クラスタリングは 教師なし学習 のタスクで、ラベルを持たないデータを似たグループ(クラスター)に自動分類します。
「顧客を購買パターンで自動分類したい」「事前に分類ルールを決めずにグループを発見したい」という場面が典型的なユースケースです。

6. 推論の種別(バッチ・リアルタイム・非同期・サーバーレス)

6-1. SageMaker の4種類の推論方式

Amazon SageMaker は、用途に応じた4種類の推論方式を提供しています。
試験ではシナリオに合った推論方式の選択が問われます。

推論種別レイテンシ特徴典型ユースケース
リアルタイム推論ミリ秒〜秒常時稼働のエンドポイントチャットbot・不正検知リアルタイム判定
バッチ変換分〜時間大量データを一括処理月次レポート・大量画像の一括分類
非同期推論秒〜分大きい入力・長い処理時間向け長文文書解析・動画処理
サーバーレス推論ミリ秒〜秒使用時だけ課金・コールドスタートあり低頻度のAPIリクエスト

6-2. 使い分けの判断軸

「低レイテンシかつ常時リクエストがある」→ リアルタイム推論
「大量データを定期的にまとめて処理」→ バッチ変換
「入力データが大きくレスポンスに時間がかかる」→ 非同期推論
「リクエスト頻度が低くコストを最小化したい」→ サーバーレス推論

この4軸を押さえておくと、試験のシナリオ問題で迷わずに選択できます。

7. データ種別と前処理

7-1. データの種類

MLモデルへの入力データは多様な形式を持ちます。

データ種別代表的な処理
表形式データ(Tabular)顧客台帳・売上CSV数値化・正規化・欠損値補完
時系列データ(Time-series)株価・IoTセンサー値特徴量の時間ラグ・ウィンドウ集計
画像データ(Image)写真・医療画像リサイズ・正規化・拡張(Augmentation)
テキストデータ(Text)メール・SNS投稿トークナイズ・エンベディング変換
音声データ(Audio)通話録音・音楽波形→スペクトログラム変換

7-2. ラベルありデータとラベルなしデータ

  • ラベルありデータ(Labeled) — 各データに正解(ラベル)が付与されています。教師あり学習に必要で、人手によるアノテーション作業を経て準備します。Amazon SageMaker Ground Truth はこのラベリング作業を効率化するマネージドサービスです。
  • ラベルなしデータ(Unlabeled) — 正解ラベルを持たないデータです。教師なし学習や自己教師あり学習(Self-supervised Learning)に使われます。

7-3. 前処理の基本概念

処理概要
正規化(Normalization)値のスケールを0〜1などに揃える。異なるスケールの特徴量を比較可能にする
欠損値補完(Imputation)値が抜けているデータを平均値・中央値・予測値で埋める
エンコーディングカテゴリ変数(「男/女」等)を数値表現(One-Hot等)に変換する
特徴量選択モデルに有効な特徴量を絞り込み、不要な変数を除去する

8. モデル評価指標(accuracy/precision/recall/F1/ROC-AUC)

8-1. 混同行列の基礎

分類モデルの評価に使う 混同行列(Confusion Matrix) は4つのセルで構成されます。

予測:陽性予測:陰性
実際:陽性TP(真陽性)FN(偽陰性)
実際:陰性FP(偽陽性)TN(真陰性)

8-2. 主要な評価指標

指標計算式意味・使い場面
Accuracy(正解率)(TP+TN) / 全件全体の正解割合。クラスが均等な場合に有効
Precision(適合率)TP / (TP+FP)「陽性と予測した中でどれだけ本当に陽性か」。誤検知を減らしたい場面
Recall(再現率)TP / (TP+FN)「本当の陽性をどれだけ見つけられたか」。取りこぼしを減らしたい場面
F1スコア2 × (Precision × Recall) / (Precision + Recall)PrecisionとRecallの調和平均。不均衡データで有効
ROC-AUCROC曲線下の面積(0〜1)閾値に依存しない総合的な分類性能。1に近いほど良い

8-3. 試験での使い分け判断

不均衡データ(陽性がごく少数)の場合、Accuracy だけでは性能を正しく測れません。
「がん検診でがん患者を見落としたくない」→ Recall を最大化
「スパムフィルターで重要メールを誤って弾きたくない」→ Precision を最大化
「どちらも重視したい」→ F1スコアROC-AUC を参照する、という判断軸を覚えておきましょう。

8-4. 回帰モデルの評価指標

回帰タスクには分類とは異なる指標を使います。

指標概要
MAE(平均絶対誤差)誤差の絶対値の平均。外れ値に強い
MSE(平均二乗誤差)誤差の二乗の平均。大きな誤差を強く罰する
RMSE(二乗平均平方根誤差)MSEの平方根。誤差を元のスケールで解釈できる
R²(決定係数)モデルがデータの分散をどれだけ説明するか(0〜1)

9. MLOpsの基本概念

9-1. MLOpsとは

MLOps(Machine Learning Operations)は、MLモデルの開発・運用・保守を体系化したプラクティス です。
ソフトウェア開発の DevOps をML領域に応用したもので、モデルの継続的な品質維持と本番への安定デプロイを目的とします。

9-2. MLOpsの主要フェーズ

フェーズ内容
データ管理データの収集・バージョン管理・品質保証
実験管理ハイパーパラメータ・評価指標の追跡と比較
モデル学習パイプライン自動化された学習・評価・登録のフロー
モデルレジストリ承認済みモデルの一元管理とバージョン管理
デプロイ(CI/CD)本番環境への安全なリリース自動化
モニタリング本番推論の精度・データドリフトの継続監視

9-3. データドリフトとモデルドリフト

本番モデルは時間とともに性能が低下していきます。この現象を モデルドリフト といいます。

  • データドリフト — 入力データの分布が訓練時と変化している状態。例: 季節変動による購買パターンの変化
  • コンセプトドリフト — 入出力の関係性自体が変化している状態。例: トレンドの変化による嗜好の変化

Amazon SageMaker Model Monitor はデータドリフトを自動検出し、品質低下をアラートするマネージドサービスです。

9-4. バイアスと公平性

MLモデルは学習データのバイアスを引き継ぐ場合があります。
試験では「特定の人口グループに対して不公平な予測をしない」という モデルの公平性(Fairness) の概念も問われます。
Amazon SageMaker Clarify はモデルのバイアスを検出・可視化するサービスです。

10. AWSタスク特化AIサービス早見

10-1. タスク特化AIサービスとは

AWS は ML モデルを自分で構築せずに利用できる タスク特化型のマネージドAIサービス を提供しています。
試験では「どのサービスがどのタスクを自動化するか」を問う設問が頻出します。

サービスタスク典型ユースケース
Amazon Comprehend自然言語処理(NLP)テキストの感情分析・エンティティ抽出・言語検出・キーワード抽出
Amazon Rekognitionコンピュータビジョン画像・動画中の物体検出・顔認識・テキスト検出・不適切コンテンツ検出
Amazon Transcribe音声→テキスト変換(STT)通話録音の文字起こし・リアルタイム音声認識
Amazon Translateテキスト翻訳多言語コンテンツの自動翻訳・リアルタイム翻訳
Amazon Pollyテキスト→音声変換(TTS)ニュース読み上げ・音声ガイドシステム
Amazon Lex対話AIの構築チャットボット・音声AIアシスタントの作成
Amazon SageMaker AIML開発の統合プラットフォームカスタムモデルの学習・デプロイ・MLOps

10-2. Comprehend vs Rekognition vs Transcribe

最もよく出る組み合わせが Comprehend・Rekognition・Transcribe の使い分けです。

  • テキストを処理する(感情・エンティティ・言語)→ Comprehend
  • 画像や動画を処理する(物体・顔・テキスト検出)→ Rekognition
  • 音声をテキストに変換する → Transcribe

「コールセンターの音声録音から感情を分析したい」という場合は Transcribe(音声→テキスト変換)→ Comprehend(感情分析) というパイプラインになります。

10-3. SageMaker AI の位置づけ

Amazon SageMaker AI はカスタムMLモデルを一貫して開発・学習・デプロイできる統合プラットフォームです。
タスク特化サービス(Comprehend/Rekognition 等)では対応できない 固有の問題 を解くときや、モデルの学習・チューニング・管理が必要な場合に利用します。

試験では「既製のAIサービスで解けるか、カスタムモデルが必要か」という判断が問われます。

10-4. Bedrock と Amazon Q

サービス概要
Amazon Bedrockサードパーティを含む複数の基盤モデル(FM)をAPIで利用・カスタマイズできるマネージドサービス
Amazon Qビジネス向けの生成AIアシスタント。Amazon Q Developer(コード補完・セキュリティ診断)・Amazon Q Business(社内データへのQA)等の専門版がある

Bedrock は D2/D3 でより深く扱われますが、D1 では「FMを利用するためのAWSサービスは Bedrock」という基本認識を押さえておきましょう。

11. CertTrend LMS で400問チェック

D1 の概念を体系的に定着させるには、本記事の内容をベースにした 問題演習 が効果的です。
CertTrend LMS では AIF-C01 の全5ドメインをカバーする 400問の演習問題 を提供しています。

学習モードでは各問の解説を確認しながら、模試モードでは本番形式(65問・90分)で実力を測ることができます。
まずは D1「AIとMLの基礎」のカテゴリ別演習で、本記事の内容を問題形式で確認してみてください。

12. 実務で深掘り — AI/ML本番運用記事

試験の準備が整ったら、AWS環境での実際のAI/ML実装も確認してみましょう。
以下の記事では、本番環境でのSageMakerやBedrockの具体的な構成を詳しく解説しています。