E資格対策問題集

本稿は、JDLA主催のE資格試験の出題範囲を網羅する例題とその解説・解答を、基礎的な数学・機械学習の内容から、深層学習の基礎・応用、さらには実装環境や分散学習、強化学習、自然言語処理、生成モデル、ハードウェアアクセラレータなど多岐にわたるテーマでまとめたものです。以下、各問題ごとに記載しています。

基礎的な内容に関する問題（数学・機械学習）

問題 1

問題:
ベイズの定理を用いる確率計算の例です。あるメールがスパムである事前確率が20%（非スパムは80%）とします。そのメールに特定の単語が出現した場合、スパムでその単語が出現する確率は50%、非スパムでその単語が出現する確率は5%とします。では、その単語が出現したとき、メールがスパムである確率（事後確率）はおよそいくらになりますか。

解答はこちら

解答:
約71.4%（約0.714）
解説:
まず単語の出現確率は
P(単語)=P(単語∣スパム)P(スパム)+P(単語∣非スパム)P(非スパム)=0.5×0.2+0.05×0.8=0.1+0.04=0.14
となり、ベイズの定理より
P(スパム∣単語)=P(単語∣スパム)P(スパム)/P(単語)=0.1/0.14≈0.714
となるので、単語が出現すると約71.4%の確率でスパムと判定されます。

問題 2

問題:
ナイーブベイズ分類における「ナイーブ（naive）な仮定」とは何でしょうか。

解答はこちら

解答:
各特徴（素性）がクラスに条件づけて独立であると仮定することです。

解説:
この仮定により、事後確率 P(C∣特徴群) を各特徴の条件付き確率の積として簡単に計算でき、計算負荷を大幅に軽減します。実際は特徴間に依存関係がある場合もありますが、ナイーブ仮定は高速かつ効果的な分類を可能にします。

ナイーブベイズ分類器における「ナイーブ（naive）な仮定」とは、「各特徴量（変数）が、クラスラベルが与えられた場合に互いに独立である」という仮定のことです。

詳しい説明

本来、実世界のデータでは特徴量同士には何らかの関連性（相関関係）があるのが普通です。しかし、この仮定を置くことで、全体の条件付き確率

$P(x1,x2,…,xn∣class)P(x_1, x_2, \dots, x_n \mid \text{class})$

を、各特徴の条件付き確率の積

$P(x1∣class)×P(x2∣class)×⋯×P(xn∣class)P(x_1 \mid \text{class}) \times P(x_2 \mid \text{class}) \times \cdots \times P(x_n \mid \text{class})$

に単純化でき、計算が非常に効率的になります。この単純化のために「ナイーブ（素朴）」と呼ばれているのです。

具体例：スパムフィルターの場合

たとえば、電子メールのスパムフィルターを考えてみます。ここではメールの本文に含まれる各単語を特徴量とします。

実際の状況
「無料」や「お得」といった単語は、互いに関連して頻出する可能性があります（例えば、「無料」と「お得」が一緒に出現しやすい）。
ナイーブな仮定
しかし、ナイーブベイズ分類では「このメールがスパムである」という条件下で、各単語の出現は他の単語とは無関係に発生すると仮定します。つまり、
$P(メールの単語群∣スパム)=P(無料∣スパム)×P(お得∣スパム)×⋯P(\text{メールの単語群} \mid \text{スパム}) = P(\text{無料} \mid \text{スパム}) \times P(\text{お得} \mid \text{スパム}) \times \cdots$
として計算します。

このような仮定のおかげで、計算量が大幅に削減され、実際には単純な計算でスパムかどうかの判断が可能となります。もちろん、実際には単語間には依存関係があるため、この仮定は現実的ではない面もありますが、驚くほど高い精度が得られることが多いのが特徴です。

まとめ

ナイーブな仮定：クラスが与えられた場合、全ての特徴量は互いに独立である。
効果：膨大な組み合わせを個々の条件付き確率の積に置き換えることで、計算がシンプルになり高速に動作する。
実例：スパムフィルターでは、各単語の出現が他の単語に依存しないと仮定し、各単語の出現確率の積でメール全体のスパム確率を計算する。

この「ナイーブな仮定」によって、ナイーブベイズ分類器は非常にシンプルでありながら、実用上は多くのタスクで有効に機能する分類手法となっています。

問題 3

問題:
MAP推定（最尤事後推定）とMLE（最尤推定）の違いは何でしょうか。

解答はこちら

解答:
MAP推定は事前分布を考慮してパラメータの事後確率を最大化するのに対し、MLEは事前分布を無視してデータの尤度を最大化します。

解説:
MLEは観測データに対して最も尤もらしいパラメータを求める手法です。一方MAP推定では、パラメータに対する事前知識（事前分布）を導入し、データが少ない場合にも安定した推定が可能となります。事前分布が一様ならMAPはMLEと一致します。

問題 4

問題:
情報理論の基礎概念として、公平なコインを1回投げたときの情報エントロピー（単位：ビット）はいくつでしょうか。

解答はこちら

解答:
1ビット

解説:
公平なコインでは表と裏の確率が共に0.5です。エントロピーは
H = -∑pᵢlog₂pᵢ = -[0.5log₂0.5+0.5log₂0.5] = 1ビット
となります。

問題 5

問題:
クロスエントロピーとは何か。また、機械学習の文脈ではどのように使われますか。

解答はこちら

解答:
クロスエントロピーは2つの確率分布間のズレを定量化する指標で、機械学習では真の分布と予測分布との差を測り、損失関数として用いられます。

解説:
例えば、正解ラベルをone-hot分布とし、モデルの出力を予測分布とすると、そのクロスエントロピー損失を最小化することで、モデルの予測が正解に近づくよう学習されます。

問題 6

問題:
**主成分分析（PCA）**はどのような目的で使われる手法ですか。

解答はこちら

解答:
高次元データをできるだけ情報を失わずに低次元に圧縮し、特徴抽出や次元削減に用います。

解説:
PCAはデータの共分散行列の固有ベクトルを求め、分散が大きい方向（主成分）にデータを射影することで、元の情報の大部分を保持しながら次元を削減します。

問題 7

問題:
教師あり学習、教師なし学習、強化学習の違いを簡単に説明してください。

解答はこちら

教師あり学習：入力に正解ラベルが与えられ、その関係を学習して予測を行う。
教師なし学習：ラベルのないデータからパターンや構造を見つけ出す。
強化学習：エージェントが環境と相互作用し、報酬を得ながら最適な行動を学習する。

解説:
例えば、画像分類は教師あり学習、クラスタリングは教師なし学習、ゲームAIの学習は強化学習の典型例です。

問題 8

問題:
教師あり学習と強化学習のフィードバック（信号）の性質の違いは何ですか。

解答はこちら

解答:
教師あり学習では正解ラベルという明示的かつ即時の誤差信号が与えられるのに対し、強化学習では行動の結果として遅延的に得られる報酬がフィードバックとなります。

解説:
強化学習では、どの行動が正しいか明示されないため、エージェントは試行錯誤しながら累積報酬の最大化を目指します。

問題 9

問題:
**過学習（オーバーフィッティング）**とは何か。また、どのように判断できますか。

解答はこちら

解答:
過学習は、モデルが訓練データに対して過度に適合し、新たなデータに対して汎化性能が低下する現象です。訓練データの精度は高いが、テストデータの精度が低い場合に判断されます。

解説:
学習中、訓練データと検証データの誤差の差が大きくなる場合は、モデルが訓練データのノイズまで学習してしまっている可能性が高いです。

問題 10

問題:
モデルの過学習を防ぐ一般的な方法を1つ挙げてください。

解答はこちら

解答:
正則化手法（例：L2正則化、ドロップアウト、早期終了など）を用いる。

解説:
正則化はモデルの複雑さにペナルティを課すことで、過学習を抑制します。具体例として、L2正則化では重みの大きさを抑え、ドロップアウトは学習時に一部のニューロンを無効化することで、モデルが特定の特徴に依存しすぎないようにします。

問題 11

問題:
2クラス分類問題において、混同行列が以下の場合、**適合率（Precision）と再現率（Recall）**を計算してください。

正例：実際50件中40件正しく予測（TP=40）、10件誤検出（FN=10）
負例：実際に60件正しく予測（TN=60）、5件誤って正例と予測（FP=5）

解答はこちら

適合率 = 40 / (40 + 5) ≒ 88.9%
再現率 = 40 / (40 + 10) = 80%

解説:
適合率は、予測した正例のうち実際に正例である割合、再現率は実際の正例のうち正しく予測できた割合を表します。

問題 12

問題:
データのクラス不均衡時に正解率（Accuracy）が適切な評価指標とならない理由と、代わりに重視すべき評価指標は何かを述べてください。

解答はこちら

解答:
正解率は多数派クラスの割合に依存するため、クラス不均衡の場合は実際の性能を反映しません。代わりに、適合率、再現率、F1スコアやROC-AUCなどが用いられます。

解説:
例えば、正例が1%しかないデータで全てを負例と予測すると正解率は99%となるが、実際には正例を全く検出できないため有用ではありません。

問題 13

問題:
**k分割交差検証（k-fold Cross-Validation）**とは何か。また、5分割の場合、何回の学習が行われるかを説明してください。

解答はこちら

解答:
データセットをk個に分割し、各分割を1度ずつ検証データとして、残りを訓練データとして学習する手法です。5分割の場合は5回の学習が行われます。

解説:
各回で異なる1/5を検証に使い、残り4/5で訓練するため、最終的な評価は5回分の結果の平均となります。

問題 14

問題:
ロジスティック回帰とサポートベクターマシン（SVM）の主な違いを1つ挙げてください。

解答はこちら

解答:
ロジスティック回帰は確率を直接出力するのに対し、SVMはマージン最大化により分類境界を求め、出力は確率ではなく分類スコアです。

解説:
SVMはカーネル法により非線形分類にも拡張可能で、決定境界からの距離を重視するため、確率的な解釈が難しい一方、ロジスティック回帰は対数尤度を最大化するため確率的出力が可能です。

問題 15

問題:
従来の機械学習で重視された特徴量エンジニアリングとは何か、またなぜディープラーニングではその重要度が下がるのかを説明してください。

解答はこちら

解答:
特徴量エンジニアリングは、生データから有用な特徴を手作業で抽出するプロセスです。ディープラーニングは多層ネットワークが自動で特徴を抽出するため、手作業の必要性が低下します。

解説:
ディープラーニングは入力から高次元の中間表現を自動で学習するため、従来のような手動の特徴設計が不要となり、データ前処理以外の部分に集中できるメリットがあります。

問題 16

問題:
**バイアス-バリアンスのトレードオフ**とは何か、またモデルの容量（複雑さ）との関係を説明してください。

解答はこちら

解答:
モデルが単純すぎるとバイアスが高く、複雑すぎるとバリアンスが高くなる。最適なモデルは、バイアスとバリアンスの両者のバランスを取る必要がある。

解説:
単純なモデルはデータの関係を十分に捉えられず（アンダーフィッティング）、複雑なモデルは訓練データに過剰適合し新規データに対して不安定（オーバーフィッティング）になるため、この二者の間で最適なバランスを探すことが求められます。

深層学習の基礎に関する問題

問題 17

問題:
なぜニューラルネットワークの各層に非線形な活性化関数を入れる必要があるのでしょうか。線形関数ではなぜ不十分なのか説明してください。

解答はこちら

解答:
非線形活性化関数がなければ、いくつ層を重ねても全体が単一の線形変換と同じになり、表現力が著しく制限されるためです。

解説:
各層に線形変換と線形活性化のみがある場合、全体は1層の線形変換と等価になってしまいます。非線形関数（例：ReLU、シグモイド）を用いることで、層ごとに非線形な変換が加わり、複雑な関数を近似できるようになります。

問題 18

問題:
代表的な活性化関数であるReLUとシグモイド関数の特徴を述べ、なぜ深層ネットワークではReLUが好まれるのか説明してください。

解答はこちら

解答:
ReLUは入力が正ならそのまま、負なら0を出力するシンプルな関数で、勾配が飽和しにくく計算も高速です。一方、シグモイドは出力が0～1に圧縮されるが、大きな入力では勾配がほぼ0になる（飽和）ため深層では学習が難しくなります。

解説:
ReLUはそのシンプルさと、正の領域で一定の勾配を保つため、深いネットワークにおいて勾配消失問題を緩和し、学習を安定化させる効果があります。

問題 19

問題:
2クラス分類問題（出力が「はい/いいえ」）において、ニューラルネットの出力層にどんな活性化関数と損失関数の組み合わせを使うのが一般的でしょうか。

解答はこちら

解答:
出力層にシグモイド関数を用い、損失関数として二項交差エントロピー損失を使用します。

解説:
シグモイド関数は出力を0～1の範囲に収め、各サンプルが正例である確率として解釈できるため、二項分類問題に適しており、損失関数はその確率と正解ラベルとの乖離を測ります。

問題 20

問題:
回帰問題にニューラルネットワークを用いる場合、出力層の活性化関数と損失関数として一般的に何を用いるか説明してください。

解答はこちら

解答:
出力層は線形（活性化関数なし）で実数値を直接出力し、損失関数は平均二乗誤差（MSE）を用います。

解説:
回帰では出力が連続値となるため、出力層に非線形関数を用いると値域が制限される可能性があるため、線形出力が選ばれ、MSEで予測と実測値の誤差を評価します。

問題 21

問題:
0-1損失（誤分類率）は直接最小化されない理由は何でしょうか。

解答はこちら

解答:
0-1損失は非連続で微分不可能なため、勾配降下法などの最適化手法が適用できないからです。

解説:
0-1損失は誤分類か正解かの2値のみを評価するため、損失の変化が連続的でなく、最適化の際に勾配情報が得られず、代わりに滑らかで微分可能な代理損失（例：ヒンジ損失、交差エントロピー損失）が用いられます。

問題 22

問題:
誤差逆伝播法（バックプロパゲーション）において、連鎖律（chain rule）はどのように用いられているか具体的に説明してください。

解答はこちら

解答:
連鎖律により、出力から各層の重みへの勾配を、次層から伝わる勾配と現在の層の局所微分の積として計算し、順次入力層まで逆伝播させることで全パラメータの勾配を求めます。

解説:
例えば2層のネットワークでは、損失 L のパラメータ w に対する勾配は
∂L/∂w = (∂L/∂y) (∂y/∂h) (∂h/∂w)
のように、各層の微分の積となり、これを一般化して多層ネットワーク全体で連鎖律を適用します。

問題 23

問題:
深いニューラルネットワークで生じる勾配消失問題とは何でしょうか。

解答はこちら

解答:
勾配消失は、逆伝播で各層の勾配が連鎖的に小さくなり、入力層近くでほとんど更新が行われなくなる現象です。

解説:
特にシグモイドなど飽和する活性化関数を用いた場合、各層の微分が小さいため、層を遡るにつれて勾配が指数関数的に減衰し、結果として初期層の学習が著しく遅くなります。

問題 24

問題:
RNNの学習で問題となる勾配爆発とは何か、その対策として一般的に何が行われるか説明してください。

解答はこちら

解答:
勾配爆発は、逆伝播で勾配が過大に増幅され、重みが不安定に更新される現象です。対策としては、勾配クリッピングが一般的に行われます。

解説:
勾配爆発は、ヤコビ行列のノルムが1より大きい場合に起こりやすく、勾配の値が非常に大きくなることで学習が発散します。勾配クリッピングでは、勾配の大きさに上限を設け、過大な更新を防ぎます。

問題 25

問題:
**バッチ正規化（Batch Normalization）**とは何か、その利点を1つ述べよ。

解答はこちら

解答:
バッチ正規化は各ミニバッチ内で中間層の出力を平均0・分散1に正規化する手法で、学習の安定化と高速化、さらには正則化効果ももたらします。

解説:
正規化により各層への入力分布が一定に保たれ、勾配消失・爆発のリスクが低減します。また、学習が安定するため高い学習率が使えるようになり、結果として収束が早まります。

問題 26

問題:
L1正則化を適用すると、重みにはどのような影響があるか説明してください。

解答はこちら

解答:
L1正則化は重みの絶対値の総和にペナルティを与え、重要でない重みを0に近づけることでスパースなパラメータ分布に促します。

解説:
この手法は、特徴選択の効果も持ち、不要な特徴の重みをほぼゼロにすることでモデルをシンプルに保ち、過学習の抑制に寄与します。

問題 27

問題:
L2正則化（リッジ正則化）は重みにどのような効果をもたらすか説明してください。

解答はこちら

解答:
L2正則化は重みの二乗に対してペナルティを与え、全体的に重みの大きさを抑制し、滑らかなモデルに仕上げます。

解説:
大きな重みほど大きなペナルティを受けるため、モデル全体がバランス良く小さい重みを持つようになり、過学習が抑えられます。

問題 28

問題:
**ドロップアウト（Dropout）**とは何か、その効果について説明してください。

解答はこちら

解答:
ドロップアウトは学習時にランダムに一部のニューロンを無効化する正則化手法で、ニューロン間の共適応を防ぎ、複数のサブネットワークの平均化効果をもたらします。

解説:
各ミニバッチごとに異なる部分集合のニューロンを無効にすることで、モデルが特定のニューロンに依存しすぎるのを防ぎ、汎化性能が向上します。

問題 29

問題:
**早期終了（Early Stopping）**とは何か、なぜ過学習防止に役立つか説明してください。

解答はこちら

解答:
早期終了は、検証データの損失が悪化し始めた時点で学習を停止する手法です。これにより、過学習が始まる前の状態でモデルを確定させることができます。

解説:
学習を続けると訓練データに対する性能は向上しても検証データでの性能が低下するため、最適なタイミングで停止することで、より汎化性能の高いモデルが得られます。

問題 30

問題:
サイズ32×32ピクセル、1チャンネルの画像に対し、カーネルサイズ3×3、パディングなし、ストライド1の畳み込み層を適用すると、出力の特徴マップのサイズは何になりますか。

解答はこちら

解答:
30×30ピクセル

解説:
一般式
W_out = (W – K + 2P)/S + 1
に W=32, K=3, P=0, S=1 を代入すると
W_out = (32-3)/1 + 1 = 30 となり、出力は30×30ピクセルとなります。

問題 31

問題:
ある畳み込み層が入力チャンネル16、出力チャンネル32、カーネルサイズ3×3（ストライド1、パディングあり）の場合、バイアス項を含めた学習パラメータの総数はいくつか。

解答はこちら

解答:
総パラメータ数は4640個
（重み: 3×3×16×32=4608 個、バイアス: 32個）

解説:
パラメータ数は、カーネルサイズ×入力チャンネル数×出力チャンネル数に各出力チャネルのバイアス数を加えることで求められます。

問題 32

問題:
なぜCNNは画像認識に適しているのか、全結合ネットワークと比較して説明してください。

解答はこちら

解答:
CNNは局所的な特徴（エッジやパターン）を捉える畳み込み層と重み共有によりパラメータ数を大幅に削減できるため、計算効率と学習効率が高い。また、平行移動不変性を持つため、画像中のどこに特徴が現れても同様に認識できる。

解説:
全結合層は各ピクセルに独自の重みを持つためパラメータが非常に多くなりますが、CNNは同一フィルタを画像全体に適用するため、効率的に学習できます。また、プーリング層により局所的な情報の要約が行われ、ロバストな認識が可能となります。

問題 33

問題:
**プーリング層（Pooling）**はCNNにおいてどのような役割を果たすか説明してください。

解答はこちら

解答:
プーリング層は局所領域内の情報を集約して空間解像度を縮小し、計算量削減と平行移動不変性を実現します。

解説:
例えば、Maxプーリングは各ブロックの最大値を取り出すことで、特徴マップのサイズを縮小し、重要な特徴を強調するとともにノイズに強い表現を構築します。

問題 34

問題:
LSTMには3つのゲートがあると言われます。それぞれ何と呼ばれ、どのような役割を持っているか説明してください。

解答はこちら

忘却ゲート: 過去のセル状態のどの部分を保持するか決定
入力ゲート: 新たな情報の取り込み量を制御
出力ゲート: セル状態から出力する情報を決定

解説:
これらのゲートにより、LSTMは長期依存性を保持しつつ、不要な情報を除去することで、従来のRNNの勾配消失問題を克服しています。

問題 35

問題:
エンコーダ・デコーダ（Seq2Seq）モデルとは何か、典型的な用途とあわせて説明してください。

解答はこちら

解答:
エンコーダ・デコーダモデルは、可変長の入力シーケンスを固定長の中間表現にエンコードし、その表現から可変長の出力シーケンスを生成する構造で、主に機械翻訳などで利用されます。

解説:
エンコーダは入力文を内部ベクトルに圧縮し、デコーダはそのベクトルから出力文を生成します。Attention機構を組み合わせることで、より柔軟な情報伝達が可能となっています。

問題 36

問題:
**自己注意（Self-Attention）**とは何か、その仕組みを簡単に説明してください。

解答はこちら

解答:
自己注意は、シーケンス内の各要素が他の全要素との関連度を計算し、その重み付け和で新たな表現を生成する仕組みです。

解説:
各入力からQuery、Key、Valueベクトルを生成し、Queryと全Keyとの内積で注意重みを求め、これをValueにかけることで、各要素が他要素から文脈情報を集約して更新されます。これをマルチヘッドで並列処理するのがTransformerです。

問題 37

問題:
**位置エンコーディング（Positional Encoding）**は何のために必要か説明してください。

解答はこちら

解答:
位置エンコーディングは、Transformerなどの自己注意モデルにおいて、シーケンス内の各要素の順序情報を与えるために必要です。

解説:
自己注意は入力順序を考慮しないため、各要素に位置情報を加えることで、文中での単語の順序や相対位置をモデルに認識させます。

問題 38

問題:
画像データのデータ拡張の例を1つ挙げ、その効果を説明してください。

解答はこちら

解答:
例：画像のランダム水平反転。
これにより、同じ物体でも左右反転した画像を学習に加えることで、モデルが位置や向きの変化に対して頑健になり、汎化性能が向上します。

解説:
データ拡張は、人工的に学習データのバリエーションを増やす手法で、過学習を防ぎ、未知の入力に対して柔軟に対応できるモデルを作る効果があります。

問題 39

問題:
自然言語処理におけるデータ拡張の例を1つ挙げてください。

解答はこちら

解答:
例：文章中の単語を同義語に置換する。
意味は変えずに異なる表現の文章を生成することで、モデルが多様な言い回しに対応できるようになります。

解説:
同義語置換やバックトランスレーションなどの手法で、ラベル付きデータの表現の幅を広げ、学習データの多様性を確保することでモデルの頑健性を向上させます。

問題 40

問題:
アンサンブル学習（例：バギング）によってモデルの性能が向上する理由を説明してください。

解答はこちら

解答:
複数のモデルの予測を平均化することで、個々のモデルの誤差（特に分散部分）が相殺され、より安定した予測が可能になるためです。

解説:
バギングではブートストラップサンプルで学習した複数のモデルを組み合わせ、各モデルのばらつきを低減することで、全体の精度が向上します。

問題 41

問題:
モデル学習における**検証データ（Validation set）**の役割は何か、訓練データやテストデータとの違いを含めて説明してください。

解答はこちら

解答:
検証データはハイパーパラメータの調整やモデル選択のために用いられるデータで、訓練には使わず、最終評価に使うテストデータとは別に保持されます。

解説:
訓練データでモデルを学習し、検証データで過学習の兆候や性能の推移をチェックし、最終的にテストデータで汎化性能を評価するという役割分担があります。

問題 42

問題:
ハイパーパラメータチューニングにおけるグリッドサーチとランダムサーチの違いを、高次元空間でなぜランダムサーチが効率的か説明してください。

解答はこちら

解答:
グリッドサーチは全組み合わせを網羅するため試行数が指数的に増えるが、ランダムサーチは指定回数だけランダムにサンプルするため、重要なパラメータ軸にリソースを集中できる。

解説:
高次元では無駄な組み合わせが多くなるため、ランダムサーチは効率的に有用なハイパーパラメータの組み合わせに当たる可能性が高く、実用的です。

深層学習の応用に関する問題

問題 43

問題:
**ResNet（Residual Network）**の「残差接続（スキップ接続）」はどのような問題を解決し、どのような効果をもたらしたか説明してください。

解答はこちら

解答:
残差接続は、層の出力に入力を直接足し合わせることで、層が学習すべき変換を「残差」として扱い、勾配が深い層まで効果的に伝播するようにし、層を深くしても性能劣化を防ぎます。

解説:
これにより、従来の深層ネットワークで見られたデグラデーション問題が解消され、非常に深いネットワーク（50層以上）でも安定して学習できるようになりました。

問題 44

問題:
**Vision Transformer (ViT)**では、画像はどのように処理されて入力されるか。また、CNNと比較したViTの特徴は何か説明してください。

解答はこちら

解答:
ViTでは画像を固定サイズのパッチ（例：16×16）に分割し、各パッチを1次元ベクトルに展開、線形変換と位置エンコーディングを加えてTransformerに入力します。CNNは局所的な畳み込みで特徴抽出を行うのに対し、ViTは全パッチ間の自己注意機構によりグローバルな関係性を捉えます。

解説:
ViTは大域的な依存関係を初期層から学習できる一方、学習に大量のデータが必要となるなどの特徴があります。

問題 45

問題:
物体検出におけるTwo-Stage（2段階）法とOne-Stage（1段階）法の違いを説明してください。

解答はこちら

解答:
Two-Stage法は、まず候補領域を提案し、その領域ごとに分類とバウンディングボックス回帰を行う方法（例：Faster R-CNN）で、One-Stage法は画像全体を一度にグリッド分割して直接検出する方法（例：YOLO, SSD）です。

解説:
Two-Stage法は高精度だが計算コストが高く、One-Stage法は高速ですが、初期のモデルでは精度面で劣る傾向がありました。近年はOne-Stageも精度が向上しています。

問題 46

問題:
Mask R-CNNは物体検出に加え、インスタンスセグメンテーションも行います。Faster R-CNNに追加された出力は何か、またどのようにマスクを予測するか説明してください。

解答はこちら

解答:
Mask R-CNNは、検出された各RoIに対してピクセル単位のバイナリマスクを予測するブランチを追加しています。RoI Alignにより抽出された特徴をもとに、FCNを用いてマスクを生成します。

解説:
これにより、検出された物体ごとに高解像度なシルエットが得られ、物体毎のセグメンテーションが実現されます。

問題 47

問題:
**FCOS（Fully Convolutional One-Stage Object Detection）**における「アンカーフリー」検出とは何か説明してください。

解答はこちら

解答:
アンカーフリーとは、あらかじめ定義したアンカーボックスを使わず、各ピクセルごとに物体中心の有無や境界までの距離を直接回帰する方法です。

解説:
これにより、アンカー設定に伴うパラメータチューニングや冗長な予測が不要となり、シンプルで効率的な物体検出が実現されます。

問題 48

問題:
セマンティックセグメンテーションとは何か、物体検出の出力とどのように異なるか説明してください。

解答はこちら

解答:
セマンティックセグメンテーションは、画像中の各ピクセルにクラスラベルを割り当てるタスクで、物体検出が矩形のバウンディングボックスで物体を示すのに対し、より細かい領域単位のマスクを出力します。

解説:
物体検出は個々の物体の位置とクラスをリストアップするのに対し、セグメンテーションは画像全体をクラスごとに塗り分け、同じクラスの領域はまとめて表現します。

問題 49

問題:
U-Netのアーキテクチャの特徴、特にEncoder-Decoder構造内のスキップ結合について説明してください。

解答はこちら

解答:
U-NetはEncoderで抽出した低次元の特徴を、Decoderでアップサンプリングする際に、同じ解像度のEncoder層からの特徴マップを結合することで、詳細な位置情報を保持しながら高精度なセグメンテーションを実現します。

解説:
スキップ結合により、アップサンプリングだけでは失われがちな局所的な情報を補完でき、物体の境界や細部を正確に再現することが可能となります。

問題 50

問題:
単語表現におけるone-hotエンコーディングと**単語埋め込み（word embedding）**の違いは何でしょうか。

解答はこちら

解答:
one-hotは語彙数と同じ次元の疎なベクトルで、各単語が全く独立な表現であるのに対し、単語埋め込みは低次元の密な連続値ベクトルで、意味的な類似性が反映されます。

解説:
埋め込みベクトルは、例えば「king」と「queen」が近い距離に配置されるなど、単語間の意味的な関係を学習でき、計算効率も向上します。

問題 51

問題:
BERTとGPTはTransformerベースの言語モデルですが、「双方向」と「単方向」とはどういう意味か、またそれぞれどんなタスクに向いているか説明してください。

解答はこちら

解答:
BERTは入力文全体（双方向）の文脈情報を利用してマスク予測などを行うため、自然言語理解系タスクに向いています。一方、GPTは左から右への単方向で次の単語を予測するため、文章生成や対話システムなど生成系タスクに適しています。

解説:
BERTはTransformerエンコーダを使用し、文全体の情報を同時に考慮するため文脈の理解が深く、GPTはTransformerデコーダにより逐次生成するため、連続文章生成に強みがあります。

問題 52

問題:
生成モデルと識別モデルの違いを、例えばガウス判別分析とロジスティック回帰の例などを踏まえて説明してください。

解答はこちら

解答:
生成モデルは各クラスのデータ生成過程（P(データ∣クラス)）をモデル化するのに対し、識別モデルは直接P(クラス∣データ)や決定境界を学習します。

解説:
生成モデルはデータ分布の全体像を捉えられるため、欠損値補完や異常検知にも利用可能ですが、識別モデルは分類精度に特化して学習され、実際の分類タスクでは高精度を示すことが多いです。

問題 53

問題:
**オートエンコーダ（Autoencoder）**とは何か、その構造と学習目的を説明してください。

解答はこちら

解答:
オートエンコーダは入力を低次元の潜在表現に圧縮（エンコード）し、再び入力と同じ形式に復元（デコード）する自己教師あり学習モデルです。目的は、入力データの本質的特徴を抽出することです。

解説:
エンコーダとデコーダにより、入力の再構成誤差を最小化するよう学習することで、データの次元削減や特徴抽出、さらには生成モデルとしても利用可能です。

問題 54

問題:
**GAN（Generative Adversarial Network）**の基本的な仕組みを説明してください。

解答はこちら

解答:
GANは生成器（Generator）と識別器（Discriminator）という2つのネットワークが互いに競い合う構造で、生成器は偽データを生成し、識別器はそれが本物か偽物かを判定します。最終的に生成器が本物に近いデータを生成できるように学習します。

解説:
ミニマックスゲームとして定式化され、生成器は識別器を騙すように、識別器は偽データを見破るように交互に学習を進めることで、リアルなデータ分布を模倣する生成モデルが構築されます。

問題 55

問題:
**DQN（Deep Q-Network）**が従来のQ学習に導入した工夫を1つ説明してください。

解答はこちら

解答:
経験再生（Experience Replay）を導入し、エージェントが得た経験をメモリに蓄積、ランダムサンプリングで学習することで、時系列依存性を低減し、学習の安定性を向上させました。

解説:
また、ターゲットネットワークを用いて更新ターゲットを安定化させる工夫も行われ、これらにより関数近似による不安定性を大幅に改善しました。

問題 56

問題:
**A3C（Asynchronous Advantage Actor-Critic）**の特徴と、なぜDQNに比べてメリットがあるか説明してください。

解答はこちら

解答:
A3Cは複数のエージェントが並行して環境と相互作用し、それぞれが得た勾配でグローバルネットワークを非同期に更新します。これにより多様な経験を同時に学習でき、探索の偏りを低減し、学習が高速かつ安定します。

解説:
経験再生を使わずに並列処理で直接学習するため、計算資源を有効活用でき、Actor-Critic方式でポリシーと価値の同時更新が可能な点が大きな利点です。

問題 57

問題:
**転移学習（Transfer Learning）**とは何か、どのように活用されるか説明してください。

解答はこちら

解答:
転移学習は、あるタスクで学習したモデルの知識や重みを別の関連タスクに再利用する手法です。事前学習済みモデルの特徴抽出部を利用し、最終層だけを新しいタスク用に再学習（ファインチューニング）することで、少量のデータでも高精度が得られます。

解説:
特にImageNetで学習されたCNNなどは多くのビジョンタスクで転移学習により高いパフォーマンスを発揮しており、NLPでもBERTなど大規模事前学習モデルが活用されています。

問題 58

問題:
半教師あり学習と自己教師あり学習の違いを説明してください。

解答はこちら

解答:
半教師あり学習は、少量のラベル付きデータと大量のラベルなしデータを組み合わせて学習する手法です。一方、自己教師あり学習はラベルなしデータのみから擬似的なラベルを自動生成して学習を行います。

解説:
半教師あり学習では人手ラベルを部分的に利用するのに対し、自己教師あり学習はデータ自体から学習目標を生成するため、ラベル収集のコストがかからず大規模な事前学習に適しています。

問題 59

問題:
**メトリックラーニング（距離学習）**において、Siamese Networkとトリプレットロスを用いた学習の違いを説明してください。

解答はこちら

解答:
Siamese Networkは2つの入力ペアに対して、同一クラスなら近く、異なるクラスなら遠くなるように学習するのに対し、トリプレットロスはアンカー、ポジティブ、ネガティブの3つのサンプルを用い、アンカーに対してポジティブは近く、ネガティブは一定のマージンだけ遠ざけるように学習します。

解説:
トリプレットロスは3者比較により、より相対的な距離関係を学習できるため、Siameseよりも洗練された埋め込み空間を獲得できることが多いです。

問題 60

問題:
Grad-CAMは画像分類モデルの判断根拠を可視化する手法ですが、どの情報を利用してヒートマップを生成するか説明してください。

解答はこちら

解答:
対象クラスの出力スコアに対する、特定の畳み込み層の各チャネルの勾配情報を利用し、これをグローバル平均プールして重みとし、特徴マップと線形結合することで可視化を行います。

解説:
この手法により、どの局所領域が分類に強く寄与しているかが視覚的に示され、モデルのブラックボックスな判断の根拠を理解するのに役立ちます。

問題 61

問題:
複雑なモデルの判断を説明するために用いられる**代理モデル（Surrogate Model）**は何をする手法か説明してください。

解答はこちら

解答:
代理モデルは、複雑なモデルの入力と出力の関係を、解釈しやすいシンプルなモデル（例：線形モデル、決定木）で近似し、その構造や係数から元のモデルの判断ロジックを理解する手法です。

解説:
LIMEやSHAPといった手法が代表例で、局所的または全体の代理モデルを構築し、複雑モデルの予測根拠を「説明」するために利用されます。

問題 62

問題:
エッジコンピューティング環境でディープラーニングモデルを動かす際に必要な工夫の1つを挙げ、その理由を説明してください。

解答はこちら

解答:
モデルの軽量化（例：量子化、プルーニング、知識蒸留）を行う。
これにより、モデルサイズと計算量を削減し、リソースの限られたエッジデバイスでもリアルタイム推論が可能になります。

解説:
例えば、32ビット浮動小数点から8ビット整数への量子化により、メモリ消費や計算負荷が大幅に減少し、エッジでの実装が容易になります。

問題 63

問題:
**データ並列（Data Parallelism）**を用いた分散学習において、4枚のGPUがそれぞれ32サンプルのミニバッチを処理する場合、全体のバッチサイズはどうなるか。

解答はこちら

解答:
全体のバッチサイズは 32 × 4 = 128 となります。

解説:
各GPUが独立に32サンプルずつ処理し、その勾配を統合して重み更新を行うため、実質的に128サンプル分の計算が1ステップで行われます。

問題 64

問題:
なぜGPUはディープラーニングの訓練においてCPUよりも適しているのか、簡潔に説明してください。

解答はこちら

解答:
GPUは多数のコアを持ち、大量の並列演算が可能なため、行列演算やベクトル演算が多いディープラーニングの計算を高速に実行できる。

解説:
ディープラーニングは数値計算（例：行列積）の並列処理が鍵となるため、並列計算に特化したGPUが大規模な演算を効率良く処理できます。

問題 65

問題:
**TPU（Tensor Processing Unit）**とは何か、簡単に説明してください。

解答はこちら

解答:
TPUはGoogleが開発したディープラーニング専用のASICで、テンソル演算（特に行列乗算）を高速かつ効率的に行うよう最適化されたプロセッサです。

解説:
TPUは専用回路（シストリックアレイなど）を用い、低消費電力で高い計算性能を発揮するため、大規模なディープラーニングモデルの訓練・推論に利用されています。

問題 66

問題:
コンテナ型仮想化（Dockerなど）がディープラーニングの開発やデプロイで用いられる理由を説明してください。

解答はこちら

解答:
コンテナはアプリケーションとその依存環境を一つにまとめ、どの環境でも同じ挙動を保証できるため、再現性が高く、開発から本番環境への移行が容易になる。

解説:
特にディープラーニングでは、フレームワークやライブラリ、CUDA環境など依存関係が多いため、コンテナを用いることで環境構築の手間を省き、開発者間や本番サーバ間での一貫性を保つことができます。

ベイズの定理に関する問題
次のうち、ベイズの定理の正しい表現はどれか？
A. P(A|B) = P(A) + P(B|A)
B. P(A|B) = P(B|A) × P(A) / P(B)
C. P(A|B) = P(A) / [P(B) + P(B|A)]
D. P(A|B) = P(B|A) / P(A)

解答はこちら

解答:
正解: B

解説:
特に解説はありません。
ナイーブベイズ分類の仮定
ナイーブベイズ分類器が採用する「ナイーブな」仮定とはどれか？
A. 各特徴は互いに依存している
B. 各特徴は独立している
C. クラス間に依存関係がある
D. すべての特徴は平均値で表現される

解答はこちら

解答:
正解: B

解説:
特に解説はありません。
最尤推定（MLE）とMAP推定の違い
最尤推定とMAP推定の主な違いとして正しいものはどれか？
A. MLEは事前分布を考慮する
B. MAPはデータの尤度のみを最大化する
C. MAPは事前分布を考慮してパラメータの事後確率を最大化する
D. MLEは事後分布を最大化する

解答はこちら

解答:
正解: C

解説:
MAP推定は事前分布を考慮する点が特徴です。
クロスエントロピーの定義
クロスエントロピー損失の定義として正しいものはどれか？
A. -∑ P(x) log P(x)
B. ∑ (y – ŷ)²
C. -∑ P(x) log Q(x)
D. ∑ |y – ŷ|

解答はこちら

解答:
正解: C

解説:
クロスエントロピーは2つの分布間のズレを定量化します。
主成分分析（PCA）の目的
PCAの主な目的として正しいものはどれか？
A. データの次元を増やす
B. データのノイズを加える
C. データの分散が最大となる方向を見つけ次元削減を行う
D. データをランダムに並べ替える

解答はこちら

解答:
正解: C

解説:
PCAは高次元データの次元削減手法です。
教師あり学習、教師なし学習、強化学習の違い
次の記述のうち、教師なし学習の特徴として正しいものはどれか？
A. 正解ラベルが与えられる
B. 報酬を元にエージェントが学習する
C. データの隠れた構造を見つけ出す
D. 入力と出力のマッピングを直接学習する

解答はこちら

解答:
正解: C

解説:
教師なし学習はラベルなしデータからパターンを見つけ出す手法です。
過学習とアンダーフィッティングの違い
過学習に関する記述として誤っているものはどれか？
A. 訓練データに対して非常に高い精度を示す
B. 未知のデータに対する汎化性能が低い
C. モデルがシンプルすぎるために起こる
D. モデルが訓練データのノイズまで記憶している

解答はこちら

解答:
正解: C

解説:
過学習は複雑なモデルで発生する現象です。
過学習防止の手法
次のうち、過学習を防ぐための正しい手法はどれか？
A. 学習率の増加
B. ドロップアウトの導入
C. 訓練データの削減
D. 重み初期化のランダム性の排除

解答はこちら

解答:
正解: B

解説:
ドロップアウトはニューロンの過適合を防ぐ有効な手法です。
混同行列の計算
2クラス分類において、真陽性(TP)=40、偽陽性(FP)=5、偽陰性(FN)=10の場合、適合率（Precision）の計算として正しいものはどれか？
A. 40 / (40 + 10)
B. 40 / (40 + 5)
C. 40 / (40 + 5 + 10)
D. 5 / (40 + 5)

解答はこちら

解答:
正解: B

解説:
適合率は TP / (TP + FP) で計算されます。
k分割交差検証の回数
データを5分割する交差検証の場合、モデルの学習は何回行われるか？
A. 1回
B. 3回
C. 5回
D. 10回

解答はこちら

解答:
正解: C

解説:
各分割が1回ずつ検証用に使われ、合計で5回学習します。
ロジスティック回帰とSVMの違い
ロジスティック回帰とSVMの主な違いとして正しいものはどれか？
A. ロジスティック回帰は確率出力を提供するが、SVMは境界を示すスコアを出力する
B. SVMは確率出力を提供するが、ロジスティック回帰は出力が固定される
C. 両者は全く同じ手法である
D. ロジスティック回帰は非線形分類に優れる

解答はこちら

解答:
正解: A

解説:
SVMはマージン最大化により分類境界を求め、確率解釈は直接はできません。
特徴量エンジニアリングの意義
ディープラーニングが特徴量エンジニアリングの必要性を低減した理由として正しいものはどれか？
A. ネットワークが自動的に階層的な特徴を学習するため
B. ネットワークが線形回帰と同等であるため
C. データがすでに低次元に圧縮されているため
D. 特徴量エンジニアリングはもはや必要ないため

解答はこちら

解答:
正解: A

解説:
深層学習は自動で特徴抽出を行うため、従来の手作業の特徴量エンジニアリングの重要性が低下しました。
バイアス・バリアンスのトレードオフ
次の記述のうち、バイアス・バリアンスのトレードオフに関する正しい説明はどれか？
A. 複雑なモデルは常に低バリアンスを示す
B. 単純なモデルは低バイアスを示す
C. モデルが複雑すぎると、訓練データへの過剰適合（高バリアンス）を引き起こす
D. バイアスとバリアンスは互いに独立している

解答はこちら

解答:
正解: C

解説:
モデルが複雑すぎると、訓練データに過剰適合し、汎化性能が低下します。
活性化関数の役割
ニューラルネットワークにおいて非線形活性化関数を用いる主な理由はどれか？
A. 計算量を減らすため
B. 線形変換を強化するため
C. ネットワーク全体を非線形変換にするため
D. 学習率を自動調整するため

解答はこちら

解答:
正解: C

解説:
非線形活性化関数により、複雑な関数の近似が可能になります。
ReLUとシグモイドの比較
ReLU活性化関数の利点として正しいものはどれか？
A. 出力が常に0～1に収まる
B. 勾配が常に一定である
C. 勾配消失が起きにくい
D. 非線形性が全くない

解答はこちら

解答:
正解: C

解説:
ReLUは大きな入力に対しても勾配が消失しにくいため、深層ネットワークに適しています。
2クラス分類の出力層
2クラス分類問題において、出力層に適した活性化関数と損失関数の組み合わせはどれか？
A. シグモイド活性＋二項交差エントロピー
B. ソフトマックス活性＋多クラス交差エントロピー
C. ReLU活性＋MSE損失
D. シグモイド活性＋ヒンジ損失

解答はこちら

解答:
正解: A

解説:
シグモイドは2クラス分類で確率として解釈でき、二項交差エントロピー損失と組み合わせます。
回帰問題の出力層
回帰問題において、出力層と損失関数の適切な組み合わせはどれか？
A. 線形出力＋平均二乗誤差（MSE）
B. シグモイド出力＋クロスエントロピー損失
C. ソフトマックス出力＋二項交差エントロピー
D. ReLU出力＋平均絶対誤差（MAE）

解答はこちら

解答:
正解: A

解説:
回帰問題では出力を連続値で出すため、線形出力とMSEが一般的です。
0-1損失の最適化が困難な理由
0-1損失が直接最小化されない理由として正しいものはどれか？
A. 計算量が多すぎるため
B. 非微分可能なため
C. 連続的でないため
D. 常にゼロとなるため

解答はこちら

解答:
正解: B

解説:
0-1損失は不連続かつ非微分可能なため、勾配降下法が適用できません。
誤差逆伝播法の基本
誤差逆伝播法で各層の勾配を計算する際、どの原理が用いられるか？
A. 積分計算
B. 連鎖律（チェーンルール）
C. フーリエ変換
D. ラプラス変換

解答はこちら

解答:
正解: B

解説:
連鎖律を用いて各層の勾配を伝播させます。
勾配消失問題の原因
深いニューラルネットワークで勾配消失が発生する主な理由として正しいものはどれか？
A. 活性化関数が非線形であるため
B. 層が深くなるにつれて勾配が指数関数的に減衰するため
C. 学習率が高すぎるため
D. データが不足しているため

解答はこちら

解答:
正解: B

解説:
深い層では連鎖律により勾配が小さくなり、初期層で更新が滞ります。
勾配爆発の対策
勾配爆発を防ぐ一般的な手法はどれか？
A. 勾配クリッピング
B. バッチ正規化
C. ドロップアウト
D. L1正則化

解答はこちら

解答:
正解: A

解説:
勾配の上限を設けることで急激な更新を防ぎます。
バッチ正規化の効果
バッチ正規化の主な効果として正しいものはどれか？
A. 学習速度の低下
B. 勾配消失の緩和と学習の安定化
C. モデルのパラメータ数の削減
D. 過学習の促進

解答はこちら

解答:
正解: B

解説:
入力分布の正規化により学習が安定します。
L1正則化の効果
L1正則化を適用すると、モデルの重みはどのような特徴を持つか？
A. すべての重みが均等に小さくなる
B. 重要でない重みがゼロに近づく（疎な表現になる）
C. 重みの分布が正規分布に従う
D. 重みが大きくなる

解答はこちら

解答:
正解: B

解説:
L1正則化は不要な重みを0に近づけ、スパースな表現を促します。
L2正則化の効果
L2正則化がもたらす効果として正しいものはどれか？
A. 重みが完全にゼロになる
B. 重みの振れ幅が抑えられ、平滑なモデルになる
C. 学習速度が低下する
D. ネットワークがスパースになる

解答はこちら

解答:
正解: B

解説:
大きな重みに対してより強いペナルティが課せられます。
ドロップアウトの目的
ニューラルネットワークにドロップアウトを導入する主な目的はどれか？
A. 学習率を上げるため
B. 過学習を防ぎ、ニューロン間の共適応を抑えるため
C. 重みの初期化を容易にするため
D. 勾配の消失を完全に防ぐため

解答はこちら

解答:
正解: B

解説:
ランダムにニューロンを無効化することで、特定のニューロンへの依存を防ぎます。
早期終了（Early Stopping）の目的
早期終了の主な目的として正しいものはどれか？
A. モデルが過学習する前に学習を停止するため
B. 学習率を自動的に増加させるため
C. モデルのパラメータ数を減らすため
D. 訓練データのサイズを増やすため

解答はこちら

解答:
正解: A

解説:
検証データの損失悪化を検出して停止することで、過学習を防ぎます。
畳み込み層の出力サイズ計算
入力サイズ32×32、カーネルサイズ3×3、パディングなし、ストライド1の場合の出力サイズはどれか？
A. 32×32
B. 31×31
C. 30×30
D. 29×29

解答はこちら

解答:
正解: C

解説:
出力サイズは (W – K)/S + 1 で計算され、(32-3)/1 + 1 = 30 となります。
畳み込み層のパラメータ数
入力チャネル16、出力チャネル32、カーネルサイズ3×3の畳み込み層の重みパラメータ数（バイアス含む）はどれか？
A. 4608個
B. 4640個
C. 9248個
D. 9280個

解答はこちら

解答:
正解: B

解説:
重みは 3×3×16×32 = 4608 個、バイアスが32個で合計4640個です。
CNNが画像認識に適している理由
CNNが画像認識タスクに適している理由として正しいものはどれか？
A. 全結合層のみを用いるため
B. 重み共有と局所受容野によりパラメータが削減され、位置不変性が得られるため
C. 入力画像を直接ベクトル化するため
D. 各ピクセルごとに独立した重みを持つため

解答はこちら

解答:
正解: B

解説:
CNNは局所的な特徴抽出と重み共有により効率的に学習します。
プーリング層の役割
プーリング層の主な役割として正しいものはどれか？
A. 入力画像のサイズを拡大する
B. 空間情報を完全に無視する
C. 特徴マップの次元削減と局所的不変性を実現する
D. 全結合層の代わりに使用する

解答はこちら

解答:
正解: C

解説:
プーリングは空間情報の圧縮とノイズの軽減に寄与します。
LSTMのゲート機構
LSTMにおいて「忘却ゲート」の役割として正しいものはどれか？
A. 新しい情報を完全に採用する
B. 古いセル状態のどの部分を保持するか決定する
C. 出力を決定する
D. 入力を無視する

解答はこちら

解答:
正解: B

解説:
忘却ゲートは不要な情報を除去する役割を担います。
エンコーダ・デコーダモデルの概要
エンコーダ・デコーダモデルに関する記述で正しいものはどれか？
A. 入力シーケンスと出力シーケンスの長さは常に同じである
B. エンコーダは入力シーケンスを固定長のベクトルに圧縮し、デコーダがそれを用いて出力シーケンスを生成する
C. デコーダは入力シーケンスから直接クラスラベルを予測する
D. エンコーダとデコーダは全く独立して学習される

解答はこちら

解答:
正解: B

解説:
エンコーダ・デコーダは機械翻訳などで広く用いられています。
Transformerの自己注意機構
自己注意機構で行われる計算として正しいものはどれか？
A. 各要素が隣接要素のみを見る
B. 各要素が全体の要素との内積を計算し、重み付き平均を求める
C. 各要素が固定された重みでのみ処理される
D. 入力系列の順序を完全に無視する

解答はこちら

解答:
正解: B

解説:
自己注意は全要素間の相互作用を捉えます。
位置エンコーディングの必要性
Transformerで位置エンコーディングが必要な理由として正しいものはどれか？
A. 入力データが常に固定長であるため
B. 自己注意機構自体が順序情報を保持しないため
C. 全結合層が入力順序を自動認識するため
D. 位置エンコーディングは不要であるため

解答はこちら

解答:
正解: B

解説:
位置情報を与えることで、語順の情報をモデルに提供します。
Vision Transformer (ViT) の画像処理
ViTでは画像をどのように処理して入力しているか、正しいものはどれか？
A. 画像全体を1次元ベクトルに変換する
B. 画像を固定サイズのパッチに分割し、各パッチを埋め込みベクトルに変換する
C. 画像の各ピクセルを独立に入力する
D. 画像をグレースケールに変換してから入力する

解答はこちら

解答:
正解: B

解説:
ViTはパッチ単位で画像を処理することでグローバルな情報を捉えます。
Two-Stage vs One-Stage物体検出
物体検出におけるTwo-Stage物体検出器の特徴として正しいものはどれか？
A. 画像全体を1回で検出する
B. 物体候補領域を抽出した後に精密分類を行う
C. 全部の候補領域を無視する
D. 単一のネットワークで検出と分類を同時に行う

解答はこちら

解答:
正解: B

解説:
Two-Stage法は候補領域の抽出と分類を分けて行います。
Mask R-CNNの拡張点
Mask R-CNNがFaster R-CNNに追加している機能として正しいものはどれか？
A. バウンディングボックス回帰のみ
B. 各物体のピクセル単位マスクの予測
C. 物体候補領域の抽出
D. 全結合層の削減

解答はこちら

解答:
正解: B

解説:
Mask R-CNNは物体ごとにマスクを予測します。
アンカーフリー物体検出
アンカーフリーな物体検出手法の特徴として正しいものはどれか？
A. 事前に定義されたアンカーボックスを使用する
B. 各位置で物体中心の有無と境界までの距離を直接回帰する
C. 物体検出に全くCNNを使用しない
D. 画像全体を1つの領域として扱う

解答はこちら

解答:
正解: B

解説:
アンカーフリー方式は、事前設定のアンカーに頼らず直接予測します。
セマンティックセグメンテーションとインスタンスセグメンテーション
次のうち、セマンティックセグメンテーションの特徴として正しいものはどれか？
A. 各個体を個別に識別する
B. 画像中の各ピクセルにクラスラベルを割り当て、同じクラスの領域を一括して扱う
C. バウンディングボックスのみを出力する
D. 物体の姿勢情報を含む

解答はこちら

解答:
正解: B

解説:
セマンティックセグメンテーションはクラスごとに画素単位で分類します。
U-Netのスキップ結合
U-Netにおけるスキップ結合の役割として正しいものはどれか？
A. エンコーダの低レベル特徴をデコーダに直接伝え、空間解像度の復元を助ける
B. エンコーダとデコーダの間で重みを共有する
C. モデルのパラメータ数を増加させるため
D. 学習率の自動調整を行うため

解答はこちら

解答:
正解: A

解説:
スキップ結合により詳細な位置情報が保持されます。
One-hotエンコーディング vs 単語埋め込み
次の記述のうち、単語埋め込みの利点として正しいものはどれか？
A. 次元が高く疎な表現となる
B. 意味的類似性が反映され、低次元で表現される
C. 各単語が互いに完全に独立している
D. 計算コストが非常に高い

解答はこちら

解答:
正解: B

解説:
単語埋め込みは意味的な情報を低次元ベクトルで表現します。
BERTとGPTの違い
BERTとGPTの主な違いとして正しいものはどれか？
A. BERTは単方向、GPTは双方向のモデルである
B. BERTは双方向の文脈を利用し、GPTは左から右への単方向生成を行う
C. 両者とも単方向である
D. GPTは分類タスクにのみ用いられる

解答はこちら

解答:
正解: B

解説:
BERTは文脈全体を利用、GPTは逐次生成に特化しています。
生成モデル vs 識別モデル
生成モデルと識別モデルの違いとして正しいものはどれか？
A. 生成モデルは直接P(Y|X)を学習する
B. 識別モデルはデータの生成過程をモデル化する
C. 生成モデルはクラスごとのデータ分布を学習し、識別モデルは決定境界を学習する
D. 両者に本質的な違いはない

解答はこちら

解答:
正解: C

解説:
生成モデルは確率分布全体を学習するのに対し、識別モデルは分類境界に特化します。
オートエンコーダの目的
オートエンコーダの学習目的として正しいものはどれか？
A. 入力データをそのまま出力することにより、低次元の潜在表現を獲得する
B. ラベル付きデータを分類する
C. 画像の回転を予測する
D. 損失関数を最大化する

解答はこちら

解答:
正解: A

解説:
オートエンコーダは自己教師あり学習の一種で、入力の再現を目指します。
GANの構造
GANの基本的な構造として正しいものはどれか？
A. 生成器と識別器が競い合う形で学習する
B. 識別器のみを学習する
C. 生成器は常に固定された重みを持つ
D. 生成器と識別器は連結された1つのネットワークである

解答はこちら

解答:
正解: A

解説:
GANは2つのネットワークが互いに競い合うことで学習します。
DQNにおける経験再生
DQNで経験再生が導入される主な目的はどれか？
A. 時系列のサンプルの相関を強化するため
B. 過去の経験をランダムに再利用し、学習の安定性を向上させるため
C. モデルのパラメータ数を削減するため
D. 環境からの報酬を増加させるため

解答はこちら

解答:
正解: B

解説:
経験再生は、データの相関を緩和し、より効果的な学習を可能にします。
A3Cの特徴
A3C（Asynchronous Advantage Actor-Critic）の特徴として正しいものはどれか？
A. 単一のエージェントのみが環境で学習する
B. 複数のエージェントが並行して学習し、グローバルなモデルを更新する
C. 経験再生を使用して学習する
D. ActorとCriticは別々のネットワークとして全く共有しない

解答はこちら

解答:
正解: B

解説:
並列学習により、多様な経験から効率的に学習します。
転移学習の目的
転移学習の主な利点として正しいものはどれか？
A. 新しいタスクのためにすべてのパラメータをランダム初期化する
B. 事前学習済みモデルの知識を新しいタスクに活かし、学習を効率化する
C. モデルのサイズを増大させる
D. 教師なし学習のみを行う

解答はこちら

解答:
正解: B

解説:
転移学習は既存の知識を利用して少ないデータで高精度を実現します。
半教師あり学習 vs 自己教師あり学習
次の記述のうち、半教師あり学習と自己教師あり学習の違いとして正しいものはどれか？
A. 半教師ありはすべてラベル付きデータのみを用いる
B. 自己教師ありはデータ自体から擬似ラベルを生成して学習する
C. 両者ともにラベル付きデータのみを使用する
D. 半教師ありは全くラベルなしデータを使用しない

解答はこちら

解答:
正解: B

解説:
自己教師あり学習はラベルを自動生成して学習します。
対比学習の目的
対比学習（Contrastive Learning）の目的として正しいものはどれか？
A. 同じサンプルの異なる拡張ビューを近づけ、異なるサンプルは離すように特徴空間を学習する
B. 各サンプルを全く同一のベクトルに変換する
C. ラベル付きデータのみを用いて学習する
D. 出力層の重みのみを更新する

解答はこちら

解答:
正解: A

解説:
対比学習はサンプル間の距離関係を最適化します。
ロバスト性評価の指標
画像分類モデルのロバスト性を評価する方法として適切なものはどれか？
A. 訓練データのサイズを増やす
B. ノイズや摂動を加えた際の精度低下を測定する
C. バッチサイズを小さくする
D. モデルのパラメータ数を減らす

解答はこちら

解答:
正解: B

解説:
外部摂動に対する耐性を評価する指標です。
Federated Learningの特徴
Federated Learningの利点として正しいものはどれか？
A. 全データを中央サーバに集約する必要がある
B. 各クライアントのデータはローカルに保持され、プライバシーを保護しながら共同学習が可能となる
C. モデルの学習が各端末で独立して行われ、統合されない
D. 学習速度が大幅に低下する

解答はこちら

解答:
正解: B

解説:
データをローカルに保持することでプライバシーが守られます。
Explainable Boosting Machines (EBM)
EBMの特徴として正しいものはどれか？
A. ブラックボックスモデルであり、解釈が困難である
B. 各特徴の寄与を可視化できる加法モデルの形で学習される
C. ニューラルネットワークと同様に多数の隠れ層を持つ
D. 決定木を用いずに線形回帰のみを行う

解答はこちら

解答:
正解: B

解説:
EBMは解釈性が高い加法モデルです。
MLP-Mixerの基本構造
MLP-Mixerの主要なアイデアとして正しいものはどれか？
A. 畳み込み層とAttention機構を組み合わせる
B. パッチ間とチャネル内で交互にMLPを適用して特徴を混合する
C. RNNを用いて時系列情報を抽出する
D. 全ての層で自己注意のみを使用する

解答はこちら

解答:
正解: B

解説:
MLP-Mixerは畳み込みやAttentionを使わず、MLPで特徴を混合します。
Zero-Shot Learningの手法
Zero-Shot Learningが可能になる理由として正しいものはどれか？
A. 学習時にすべてのクラスを含む
B. クラスごとの意味情報（属性やテキスト埋め込み）を利用して、未学習クラスを識別する
C. ラベルなしデータのみで学習する
D. すべての特徴がランダムに初期化される

解答はこちら

解答:
正解: B

解説:
意味情報を利用することで、未学習クラスの識別が可能になります。
1D-CNNの時系列処理
1D-CNNが時系列データの処理において有効な理由として正しいものはどれか？
A. 順序情報を無視するため
B. 隣接時刻の局所パターンを並列計算により効率的に抽出できるため
C. データ全体を一度に平坦化するため
D. RNNよりも必ず高精度な予測が得られるため

解答はこちら

解答:
正解: B

解説:
局所パターンの抽出により時系列の特徴を効率的に捉えます。
敵対的事例（Adversarial Example）の特徴
敵対的事例に関する記述で正しいものはどれか？
A. 人間には明瞭に識別可能な大きな摂動が必要である
B. 微小な摂動でモデルの予測を大きく誤らせることがある
C. モデルの性能向上に寄与する
D. 学習データと同一のデータでしか発生しない

解答はこちら

解答:
正解: B

解説:
微小な摂動が大きな誤分類を引き起こす点が特徴です。
INT8推論の利点
モデル推論をINT8で行う主な利点として正しいものはどれか？
A. 演算精度が大幅に向上する
B. メモリ使用量と計算コストが削減され、推論速度が向上する
C. 学習が容易になる
D. すべてのパラメータが自動的に最適化される

解答はこちら

解答:
正解: B

解説:
低精度化によりリソース消費を抑えつつ、速度向上が可能です。
半教師あり学習 vs 自己教師あり学習
次の記述のうち、半教師あり学習と自己教師あり学習の違いとして正しいものはどれか？
A. 半教師ありはすべてラベル付きデータのみを用いる
B. 自己教師ありはデータ自体から擬似ラベルを生成して学習する
C. 両者ともにラベル付きデータのみを使用する
D. 半教師ありは全くラベルなしデータを使用しない

解答はこちら

解答:
正解: B

解説:
自己教師あり学習はデータ自体からラベルを生成します。
Siamese Networkとトリプレットロスの違い
Siamese Networkとトリプレットロスの違いとして正しいものはどれか？
A. Siameseはペア入力、トリプレットロスはアンカー・ポジティブ・ネガティブの3入力を使用する
B. 両者ともに同一の入力数を用いる
C. トリプレットロスはペア入力のみで動作する
D. Siamese Networkは識別タスクにのみ使用される

解答はこちら

解答:
正解: A

解説:
トリプレットロスは3者比較によりより相対的な距離を学習します。
Grad-CAMの原理
Grad-CAMの判断根拠可視化で利用される情報として正しいものはどれか？
A. 各層の出力の平均値のみ
B. 対象クラスの出力に対する畳み込み層の各チャネルの勾配
C. 入力画像のRGB値の分布
D. 全結合層の重みのみ

解答はこちら

解答:
正解: B

解説:
Grad-CAMは勾配情報を利用して重要領域をハイライトします。
代理モデル（Surrogate Model）の目的
代理モデルを用いた説明手法の目的として正しいものはどれか？
A. 複雑なモデルの内部構造を完全に再現すること
B. ブラックボックスモデルの振る舞いを単純な代理モデルで近似すること
C. モデルのパラメータ数を増加させること
D. データの前処理を省略すること

解答はこちら

解答:
正解: B

解説:
代理モデルは複雑なモデルの解釈を補助するために用います。
エッジコンピューティングでのモデル軽量化
エッジデバイス上でディープラーニングモデルを動作させるための軽量化手法として正しいものはどれか？
A. モデルの量子化
B. 学習率の増加
C. データ拡張の除去
D. モデルの層数の自動増加

解答はこちら

解答:
正解: A

解説:
量子化によりモデルサイズと計算量が大幅に削減されます。
データ並列学習でのバッチサイズ
各GPUがミニバッチサイズ32の場合、4枚のGPUを使用したときの全体のバッチサイズはどれか？
A. 32
B. 64
C. 96
D. 128

解答はこちら

解答:
正解: D

解説:
全体で32×4=128サンプルとなります。
GPUがディープラーニングに適している理由
GPUがディープラーニングの訓練において有利な理由として正しいものはどれか？
A. 少数の高性能コアを持つため
B. 多数の並列処理コアにより行列演算を高速に実行できるため
C. CPUよりもシリアル計算が得意なため
D. 低消費電力であるため

解答はこちら

解答:
正解: B

解説:
GPUは多数のコアで並列演算を行うため、ディープラーニングに最適です。
TPUの特徴
TPUの特徴として正しいものはどれか？
A. 汎用性が高く、全てのタスクに最適化されている
B. テンソル演算に特化したASICで、ディープラーニングにおいて高い計算効率を発揮する
C. CPUと同様の動作をする
D. 学習と推論の両方で常にFP64を使用する

解答はこちら

解答:
正解: B

解説:
TPUはディープラーニング専用に設計された専用プロセッサです。
コンテナ型仮想化のメリット
Dockerなどのコンテナ型仮想化をディープラーニング開発で使用する利点として正しいものはどれか？
A. 環境の一貫性と再現性が確保できる
B. ハードウェア依存性が全くなくなる
C. モデルの精度が自動的に向上する
D. コードが自動生成される

解答はこちら

解答:
正解: A

解説:
コンテナにより環境構築の手間が省け、一貫した動作が保証されます。