Search

Deep Learning Questions

Computer Vision

Q35: What is computer vision, and why is it important?
Answer:
Q36: Explain the concept of image segmentation and its applications.
Answer:
Q37: What is object detection, and how does it differ from image classification?
Answer:
Q38: Describe the steps involved in building an image recognition system.
Answer:
Q39: What are the challenges in implementing real-time object tracking?
Answer:
Q40: Can you explain the concept of feature extraction in computer vision?
Answer:
Q41: What is optical character recognition (OCR), and what are its main applications?
Answer:
Q42: How does a convolutional neural network (CNN) differ from a traditional neural network in the context of computer vision?
Answer:
Q43: What is the purpose of data augmentation in computer vision, and what techniques can be used?
Answer:
The purpose of data augmentation in computer vision is to artificially increase the size and diversity of a training dataset by applying various transformations to the original images. Data augmentation helps prevent overfitting and improves the generalization ability of deep learning models by exposing them to a broader range of variations and patterns present in the data. It also reduces the risk of the model memorizing specific examples in the training data.
By applying different augmentation techniques, the model becomes more robust and capable of handling variations in the real-world test data that may not be present in the original training set. Common data augmentation techniques include:
1.
Horizontal Flipping: Flipping images horizontally, i.e., left to right, or vice versa. This is particularly useful for tasks where the orientation of objects doesn't affect their interpretation, such as object detection or image classification.
2.
Vertical Flipping: Similar to horizontal flipping but flipping images from top to bottom.
3.
Random Rotation: Rotating images by a random angle. This can be helpful to simulate objects at different angles and orientations.
4.
Random Crop: Taking random crops from the input images. This forces the model to focus on different parts of the image and helps in handling varying object scales.
5.
Scaling and Resizing: Rescaling images to different sizes or resizing them while maintaining the aspect ratio. This augmentation helps the model handle objects of varying sizes.
6.
Color Jittering: Changing the brightness, contrast, saturation, and hue of the images randomly. This augmentation can help the model become more robust to changes in lighting conditions.
7.
Gaussian Noise: Adding random Gaussian noise to the images, which simulates noisy environments and enhances the model's noise tolerance.
8.
Elastic Transformations: Applying local deformations to the image, simulating distortions that might occur due to variations in the imaging process.
9.
Cutout: Randomly masking out portions of the image with black pixels. This helps the model learn to focus on other informative parts of the image.
10.
Mixup: Combining two or more images and their corresponding labels in a weighted manner to create new training examples. This encourages the model to learn from the combined patterns of multiple images.
It's important to note that the choice of data augmentation techniques depends on the specific computer vision task and the characteristics of the dataset. Additionally, augmentation should be applied only during the training phase and not during testing or evaluation to ensure that the model generalizes well to unseen data.

Q44: Discuss some popular deep learning frameworks or libraries used for computer vision tasks.

alias란?

이미지 aliasing은 디지털 이미지 처리에서 샘플링 주파수가 신호의 주파수 스펙트럼을 제대로 표현하지 못할 때 발생하는 왜곡 현상으로, 계단 현상이나 모아레 패턴으로 나타납니다. 이는 나이퀴스트 샘플링 정리에 따라 샘플링 주파수가 신호의 최대 주파수의 2배 이상이어야 한다는 조건을 충족하지 못할 때 발생하며, 이를 해결하기 위해 저역통과 필터링이나 안티에일리어싱 기술(예: MSAA, 슈퍼샘플링)이 사용됩니다.

Probability

확률분포 간 거리

확률분포 간 거리는 두 확률분포가 얼마나 다른지 측정하는 데 사용됩니다. 아래는 주요 거리 및 척도와 그 특징입니다.

1. Kullback-Leibler (KL) Divergence

정의
\[ D_{KL}(P || Q) = \sum_x P(x) \log \frac{P(x)}{Q(x)} \]
(연속형 분포의 경우 적분으로 표현)
특징
\(P\)에서 \(Q\)로의 정보 손실을 측정.
비대칭적: \(D_{KL}(P || Q) \neq D_{KL}(Q || P)\).
값은 \(0\) 이상이며, \(P = Q\)일 때 \(D_{KL} = 0\).
\(Q(x) = 0\)인 경우 계산 불가능.

2. Jensen-Shannon (JS) Divergence

정의
\[ D_{JS}(P || Q) = \frac{1}{2} D_{KL}(P || M) + \frac{1}{2} D_{KL}(Q || M) \]
여기서 \(M = \frac{1}{2}(P + Q)\).
특징
KL Divergence의 대칭화 버전.
값의 범위: \([0, \log 2]\).
\(P = Q\)일 때 \(D_{JS} = 0\).
안정적이고 대칭적.

3. Wasserstein Distance (Earth Mover’s Distance)

정의
\[ W(P, Q) = \inf_{\gamma \in \Pi(P, Q)} \int |x - y| \, d\gamma(x, y) \]
여기서 \(\Pi(P, Q)\)는 \(P\)와 \(Q\) 간의 결합 확률 분포 집합.
특징
두 분포를 서로 변환하는 데 필요한 최소 작업량.
분포가 겹치지 않을 때 유용.
물리적 거리 개념.

4. Total Variation (TV) Distance

정의
\[ D_{TV}(P, Q) = \frac{1}{2} \sum_x |P(x) - Q(x)| \]
특징
값의 범위: \([0, 1]\).
\(P = Q\)일 때 \(D_{TV} = 0\).

5. Bhattacharyya Distance

정의
\[ D_B(P, Q) = -\ln \sum_x \sqrt{P(x) Q(x)} \]
특징
값이 작을수록 두 분포가 유사.
주로 분류 및 신호처리에서 사용.

6. Hellinger Distance

정의
\[ H(P, Q) = \sqrt{1 - \sum_x \sqrt{P(x) Q(x)}} \]
특징
\(H = 0\)일 때 두 분포가 동일.
값의 범위: \([0, 1]\).

7. Chi-Square Distance

정의
\[ D_{\chi^2}(P || Q) = \sum_x \frac{(P(x) - Q(x))^2}{Q(x)} \]
특징
값이 작을수록 두 분포가 유사.
\(Q(x) = 0\)인 경우 계산 불가능.

8. Euclidean Distance (L2 Norm)

정의
\[ D(P, Q) = \sqrt{\sum_x (P(x) - Q(x))^2} \]
특징
계산이 간단.
분포 간의 확률 구조를 충분히 반영하지 못할 수 있음.

선택 가이드

정보 손실 측정: KL 또는 JS Divergence.
대칭적 거리: JS Divergence, Wasserstein Distance.
물리적 거리: Wasserstein Distance.
빠른 계산: Total Variation 또는 Euclidean Distance.

Deep Learning

Machine Learning vs. Deep Learning?

Autoencoders란 무엇인가? Autoencoder의 다양한 레이어를 설명하고 세 가지 실용적인 사용 사례를 언급하라.

Autoencoders는 비지도 학습에 사용되는 딥 러닝 유형 중 하나입니다. 주요 레이어는 입력 레이어, 인코더, 병목(hidden) 레이어, 디코더 및 출력입니다.
Autoencoder의 세 가지 주요 레이어는 다음과 같습니다:
Encoder: 입력 데이터를 압축하여 보통 입력 데이터보다 훨씬 작은 인코딩된 표현을 생성합니다.
Latent Space Representation/Bottleneck/Code: 입력의 가장 중요한 특징을 포함하는 압축 요약입니다.
Decoder: 인코딩된 표현을 복원하여 데이터를 다시 재구성합니다. 출력과 입력 이미지의 차이를 비교하기 위해 loss function이 사용됩니다. 입력과 출력의 차원은 동일해야 합니다.
Autoencoders의 실용적인 사용 사례는 다음과 같습니다:
Transformers 및 Big Bird와 같은 알고리즘의 구성 요소로 텍스트 요약 및 생성
이미지 압축
PCA의 비선형 버전

Activation function이란 무엇이며 사용 목적은 무엇인가? 세 가지 다른 activation function을 설명하라.

수학적으로 activation function은 현재 뉴런 입력과 다음 레벨로 전달되는 출력 사이의 게이트 역할을 합니다. 뉴런이 활성화되어야 할지를 결정합니다. 모델에 비선형성을 도입하는 데 사용됩니다.
Activation function을 추가함으로써 네트워크에 비선형성을 도입할 수 있으며, 이는 네트워크가 더 복잡한 패턴을 학습하고 단순한 선형 모델로는 캡처할 수 없는 복잡한 변화를 모델링할 수 있게 합니다.
대표적인 activation function은 다음과 같습니다:
Sigmoid function: \( f(x) = \frac{1}{1 + e^{-x}} \). 출력 값은 0과 1 사이입니다. 분류에 사용되지만, 극단적인 경우 gradient vanishing 문제를 겪으며 계산 비용이 큽니다.
ReLU: \( f(x) = \max(0, x) \). 입력이 음수면 0을 반환하고 양수면 그대로 반환합니다. 양수 측에서는 gradient vanishing 문제를 해결하지만 음수 측에서는 여전히 문제가 있습니다. 빠른 속도를 제공합니다.
Leaky ReLU: \( F(x) = ax \) (x < 0), \( F(x) = x \) (x >= 0). 양측에서 gradient vanishing 문제를 해결하며 양수 쪽은 ReLU와 동일한 기능을 합니다.
Softmax: 마지막 레이어에서 분류 문제에 사용됩니다. 확률 집합을 반환하며, 총합은 1이 됩니다. Cross-entropy loss와 호환됩니다.

예측 작업에 딥 뉴럴 네트워크를 사용 중이며, 모델이 학습 세트에 과적합하고 테스트 성능이 좋지 않을 때 어떻게 과적합을 줄일 수 있는가?

딥 뉴럴 네트워크의 과적합을 줄이기 위해 다음 세 가지 단계에서 변경할 수 있습니다: 입력 데이터, 네트워크 구조, 학습 과정.
입력 데이터:
모든 특징이 유효하고 신뢰할 수 있는지 확인.
학습 샘플 분포가 검증 및 테스트 세트 분포와 동일한지 확인.
데이터 오염 여부 확인.
데이터셋 크기가 충분하지 않다면 데이터 증강(data augmentation) 사용.
데이터셋의 균형 확인.
네트워크 구조:
모델 복잡도를 점검.
Fully connected 레이어를 convolutional + pooling 레이어로 교체할 수 있는지 검토.
레이어와 뉴런 수를 결정할 때의 근거 점검.
정규화(L1, L2, elastic net) 추가.
Dropout 및 Batch Normalization 추가.
학습 과정:
검증 손실 개선이 멈추면 조기 중단(early stopping) 및 최적의 가중치 복원 사용.

Batch Normalization을 사용해야 하는 이유는 무엇인가?

Batch normalization은 각 미니 배치마다 레이어에 대한 입력을 표준화하여 매우 깊은 신경망을 훈련할 때 유용한 기법입니다. 미니 배치마다 데이터 분포가 다를 수 있어 backpropagation 시 gradient vanishing 또는 exploding gradient 문제가 발생할 수 있습니다. 이를 해결하기 위해 주로 activation function 이전의 레이어에 BN 레이어를 사용합니다.
BN의 효과는 다음과 같습니다:
깊은 레이어의 강건한 학습.
Covariate-shift에 대한 내성 강화.
약간의 정규화 효과.
Activation 값의 중앙 집중화 및 제어.
Gradient 폭발/소멸 방지.
빠른 학습 및 수렴.

모델이 Exploding Gradient 문제를 겪고 있는지 확인하는 방법은?

Exploding gradient는 오류를 최소화하기 위해 gradient descent 알고리즘이 점진적으로 최소값을 향해 이동할 때 발생합니다. 과도한 업데이트로 인해 가중치가 오버플로우하거나 NaN이 됩니다.
이 문제를 겪고 있는지 확인하는 미묘한 신호는 다음과 같습니다:
학습 데이터에서 모델이 성과를 내지 못함(예: 손실이 나쁨).
손실의 불안정성으로 인해 업데이트마다 큰 변화.
훈련 중 모델의 손실이 NaN으로 변경.
확인할 수 있는 더 명확한 신호는 다음과 같습니다:
훈련 중 모델의 가중치가 매우 커짐.
가중치가 NaN 값으로 변경.
각 노드와 레이어의 오류 gradient 값이 1.0을 초과.

신경망 학습에 사용되는 몇 가지 하이퍼파라미터를 설명하라.

하이퍼파라미터는 학습된 데이터가 아닌 사용자가 수동으로 변경할 수 있는 모델의 성능에 영향을 미치는 파라미터입니다.
노드 수: 각 레이어의 입력 수.
Batch Normalization: 레이어의 입력 표준화/정규화.
Learning Rate: 가중치 업데이트 속도.
Dropout Rate: 학습 중 임시로 제거할 노드의 비율.
Kernel: 이미지 배열과의 점곱을 수행할 행렬.
Activation Function: 입력의 가중합을 출력으로 변환하는 방식.
Epoch 수: 알고리즘이 수행해야 할 학습 횟수.
Batch Size: 알고리즘을 통해 개별적으로 전달할 샘플 수.
Momentum: 이전 업데이트 벡터의 일부를 현재 업데이트 벡터에 추가.
Optimizers: 학습률을 적절히 조정.

Deep Learning에서 parameter sharing 개념을 설명하라.

Parameter sharing은 특정 feature map의 모든 뉴런이 가중치를 공유하는 방법입니다. 이는 시스템 전체의 파라미터 수를 줄여 계산 비용을 절감할 수 있습니다. 같은 파라미터가 시스템의 다른 변환을 나타내기 위해 사용됩니다. 이로 인해 같은 행렬 요소가 여러 번 업데이트될 수 있으며, 다양한 gradient로 backpropagation 됩니다.
특정한 예로는 Siamese 네트워크가 있습니다. 동일한 가중치를 공유하면 더 다양한 특징 표현을 학습하게 되어 모델의 일반화 능력이 향상됩니다.
그러나 ConvNet의 입력 이미지가 특정한 중심 구조를 가질 경우, parameter sharing이 적합하지 않을 수 있습니다. 이 경우에는 Locally-Connected Layer를 사용하는 것이 일반적입니다.

일반적인 Convolutional Neural Network(CNN)의 아키텍처를 설명하라.

일반적인 CNN 아키텍처에서는 여러 convolutional 레이어가 직렬로 연결됩니다. 각 convolutional 레이어는 Rectified Linear Unit (ReLU) 또는 다른 activation function에 의해 이어지고, 그 다음 pooling 레이어가 옵니다. 이후 또 다른 convolutional 레이어(+ReLU)가 있고, 다시 pooling 레이어가 이어집니다.
각 convolution 레이어의 출력은 feature map이라 불리는 객체들로, 하나의 kernel filter에 의해 생성됩니다. 이 feature map들은 다음 레이어의 새로운 입력을 정의하는 데 사용됩니다. 일반적으로 이미지의 크기가 줄어들수록 filter의 수는 증가하는 경향이 있습니다. 커널의 크기는 보통 3×3입니다.
마지막으로, 여러 필터를 갖는 작은 이미지 출력(3D 출력)은 평탄화되어 fully connected 레이어를 통과합니다. 최종적으로, softmax 레이어를 사용하여 분류하거나 기타 용도로 fully connected 레이어 출력을 사용합니다.
Stride, Padding, Filter 크기, Pooling 유형 등은 하이퍼파라미터로, 이전에 성공적으로 구축된 모델을 참고해 선택합니다.
Pooling: 주변 값을 나타내기 위해 숫자를 선택하여 특징 수를 줄이는 방법입니다. Max-pooling, Average pooling, Global average 등의 유형이 있습니다.
Max pooling: 2×2 창의 최대값을 선택하여 창을 슬라이드하며 적용.
Average pooling: 동일한 방식이지만 평균값을 선택.

Artificial Neural Networks에서 Vanishing Gradient 문제란 무엇이며 어떻게 해결할 수 있는가?

Vanishing Gradient 문제는 gradient-based 학습 및 backpropagation을 사용하는 인공 신경망에서 발생합니다. 네트워크의 각 가중치는 학습 중 오류 함수의 편도함수에 비례해 업데이트됩니다. 그러나 여러 hidden 레이어를 갖는 경우, gradient가 매우 작아져 가중치가 거의 변하지 않게 되어 초기 레이어의 학습이 매우 느려집니다. 이로 인해 네트워크가 학습을 멈추게 됩니다.
해결 방법은 다음과 같습니다:
Skip/residual connections 사용.
Sigmoid 및 Tanh 대신 ReLU 또는 Leaky ReLU 사용.
GRUs 및 LSTMs과 같은 모델 사용.

인공 신경망을 학습할 때, 몇 번의 epoch 이후에도 손실이 감소하지 않는 이유는 무엇인가?

손실이 감소하지 않는 이유는 다음과 같습니다: a) 모델이 학습 데이터를 과소적합하고 있음. b) 학습률이 너무 큼. c) 초기화가 적절하지 않음(예: 모든 가중치를 0으로 초기화하면 네트워크가 학습할 수 없음). d) 정규화 하이퍼파라미터가 너무 큼. e) Vanishing Gradient 문제 발생.

왜 신경망의 hidden 레이어에서 Sigmoid나 Tanh를 선호하지 않는가?

Tanh나 Sigmoid 함수의 일반적인 문제는 포화(saturation)입니다. 포화 상태에 도달하면 학습 알고리즘이 가중치를 조정하지 못해 모델 성능을 향상시킬 수 없습니다. 이로 인해 Vanishing Gradient 문제가 발생하여 신경망의 효과적인 학습을 방해합니다. 이러한 문제는 Rectified Linear Activation Function (ReLU)를 사용함으로써 해결할 수 있습니다.

Transfer learning을 사용하는 것이 권장되는 상황과 그렇지 않은 상황을 논하라.

Transfer learning은 특정 작업을 위해 개발된 모델을 다른 작업에 재사용하는 머신 러닝 방법입니다. 주로 컴퓨터 비전과 자연어 처리에서 미리 학습된 모델을 시작점으로 사용합니다.
Transfer Learning이 권장되는 상황:
데이터가 충분하지 않을 때.
초기 레이어가 공통적인 특성을 포착하는 경우(예: Vision과 NLP 작업).
Transfer Learning을 사용하지 않는 것이 좋은 경우:
비용 문제가 클 때.
사전 학습된 모델이 작업과 관련이 없는 경우.
지연 시간이 중요한 제약일 때(NLP 등).

RNN에서 Vanishing Gradient 문제를 설명하고 이를 해결할 방법을 논하라.

RNN에서는 긴 시퀀스의 장기 의존성을 처리할 때 Vanishing Gradient 문제가 발생할 수 있습니다. 시간 역전파(backpropagation through time) 과정에서 gradient가 작아지면 초기 단계의 가중치가 변경되지 않아 학습이 멈춥니다.
해결 방법:
GRULSTM 사용: 게이트 메커니즘으로 정보 유지 및 삭제를 제어.
Transformers 사용: Self-attention 메커니즘을 통해 의존성을 포착.

LSTM의 주요 게이트와 그 기능은 무엇인가?

LSTM 모델에는 다음과 같은 세 가지 주요 게이트가 있습니다:
1.
Forget Gate: 데이터를 유지할지 버릴지를 결정.
2.
Input Gate: 새로운 데이터를 long-term 메모리 셀에 추가할지를 결정.
3.
Output Gate: 새로운 hidden state를 생성.
각 게이트는 현재 상태 및 이전 hidden state를 입력으로 사용하며, 대부분 sigmoid activation을 사용합니다.

1D 신호를 분류하는 데 CNN을 사용하는 것이 좋은가?

1D 시계열 데이터의 경우 CNN도 가능한 접근 방식 중 하나입니다. 그러나 가장 많이 사용되는 방법은 RNN입니다. CNN은 슬라이딩 윈도우를 사용하여 데이터의 반복적인 패턴을 찾는 데 유용할 수 있습니다. 다만, 순차적 측면은 반영되지 않습니다. RNN은 이전 hidden state와 현재 입력을 사용하여 정보가 흐르도록 하며, 시계열 의존성을 고려합니다.
QRNN은 두 접근 방식을 혼합한 것입니다.

L1/L2 정규화가 신경망에 미치는 영향은?

L1/L2 정규화는 복잡한 신경망 모델의 과적합을 줄이기 위해 사용됩니다. L1 정규화는 가중치 파라미터를 0으로 만듭니다. L2 정규화는 가중치를 0에 가깝게 만듭니다(완전한 0은 아님). 이를 통해 가중치가 작은 뉴런은 무시되며, 네트워크의 복잡성이 줄어들고 과적합이 감소합니다.
정규화의 장점:
모델의 분산 감소.
복잡한 모델에서도 과적합 없이 학습 가능.
가중치와 바이어스의 크기 감소.
L1은 희소 모델 학습에 유리하여 가중치가 0이 되는 경우가 많음.

L1/L2 손실함수의 정의와 특징, 사용에 적합한 상황은?

L1 손실 함수와 L2 손실 함수는 머신러닝과 딥러닝에서 모델의 예측값과 실제값 사이의 차이를 측정하는 주요 지표로 사용됩니다.
L1 손실 함수 (Mean Absolute Error, MAE):
정의: 예측값과 실제값의 차이의 절댓값을 평균한 값입니다.
MAE=1ni=0n=1Nyiyi^\text{MAE}=\frac{1}{n}\sum^n_{i=0}=\frac{1}{N} ​\|y_i​-\hat{y_i}​\|
특징: 이상치(outlier)에 덜 민감하여, 데이터에 노이즈가 많을 경우에도 안정적인 예측이 가능합니다.
적용 사례: 이상치가 존재하거나 노이즈가 많은 데이터셋에서 사용하기 적합합니다.
L2 손실 함수 (Mean Squared Error, MSE):
정의: 예측값과 실제값의 차이의 제곱을 평균한 값입니다.
MSE=1ni=0n=1N(yiyi^)2\text{MSE}=\frac{1}{n}\sum^n_{i=0}=\frac{1}{N} ​(y_i​-\hat{y_i}​)^2
특징: 큰 오차에 대해 제곱으로 증가하므로, 이상치에 민감합니다. 또한, 미분 가능하여 경사 하강법 등 최적화 알고리즘에 유리합니다.
적용 사례: 이상치가 거의 없거나, 큰 오차를 특히 중요하게 다루어야 할 경우에 사용하기 적합합니다.
따라서, 데이터의 특성과 목표에 따라 L1 또는 L2 손실 함수를 선택하여 모델의 성능을 최적화할 수 있습니다.

사전 학습된 신경망을 분류에서 회귀로 변경하는 방법은?

Transfer learning을 사용하여 사전 학습된 모델을 회귀 문제로 전환할 수 있습니다. 모델의 마지막 fully connected 레이어와 Softmax를 새로운 레이어로 교체하고 회귀용 뉴런을 추가합니다. 필요한 경우 첫 번째 레이어는 고정(freeze)하여 빠른 수렴을 도모할 수 있습니다. 그런 다음 회귀 문제에 맞는 loss function으로 네트워크를 재학습합니다.

SGD optimizer에서 momentum 하이퍼파라미터를 1에 가깝게 설정(예: 0.9999)하면 어떻게 되는가?

momentum이 1에 가까우면 알고리즘이 속도를 크게 얻지만 전역 최소값을 지나칠 수 있습니다. 그 결과, 최소값에 도달하기까지 진동하며 수렴이 지연될 수 있습니다. momentum은 이전 gradient의 기여가 강하게 작용하여 gradient가 폭발하는 상황이 발생할 수도 있습니다.

Batch Normalization 레이어의 최적화 가능한 하이퍼파라미터는?

Batch Normalization 레이어의 최적화 가능한 하이퍼파라미터는 γ\gammaβ\beta입니다. 이들은 네트워크에 의해 학습되며 중간 레이어의 출력을 표준화(평균 0, 표준 편차 1)한 후 다시 조정하고 변환합니다.

Dropout이 딥 러닝 모델의 학습 및 예측 속도에 미치는 영향은?

Dropout은 정규화 기법으로 일부 가중치를 0으로 만들고 나머지 가중치를 1/(1p)1/(1-p) 로 스케일합니다. 학습 중에는 활성화되지만, 검증 및 테스트 시에는 비활성화되어 더 빠르게 처리됩니다. Dropout은 모델 복잡성을 줄여 과적합을 방지하기 위해 학습 중에만 사용됩니다.

딥 러닝이 기존 머신 러닝에 비해 가지는 이점은?

딥 러닝의 주요 이점은 다음과 같습니다:
대용량 데이터 처리: 이미지 인식 및 자연어 처리에 적합.
자동 특징 추출: 전통적 머신 러닝의 수동 특징 엔지니어링 없이 원시 데이터에서 특징 추출.
높은 정확도: 복잡한 작업에서 높은 정확도 달성.
새로운 데이터 적응성: 동적 환경에서 학습 및 적응 가능.
딥 러닝은 데이터와 계산 자원이 많이 필요하다는 한계가 있지만, 특정 응용에 적합합니다.

Depthwise Separable Layer란 무엇이며, 그 장점은?

기존의 CNN convolution 레이어는 많은 곱셈 연산이 필요하여 배포에 부적합할 수 있습니다. Depthwise Separable Convolution은 이를 depthwise convolution과 pointwise convolution으로 나누어 연산량을 줄입니다.
장점:
연산량 감소: 표준 convolution에 비해 계산량이 대폭 감소하여 효율성이 높아집니다.
이 기법은 계산 비용을 줄이고 모델 경량화를 통해 성능을 향상시킵니다.

CNN vs Transformers vs MLP의 장단점과 적합한 사용예시는? (이미지 처리에서)

1. CNN
특징: 지역적 특징 학습, 계층적 표현 추출.
장점: 공간 불변성, 효율적 계산으로 이미지 처리에 최적화.
단점: 전역적 관계 학습 한계, 대규모 데이터에서 성능 저하.
적합 사례: 객체 탐지, 얼굴 인식, 의료 영상 분석.
2. Transformer
특징: 전역적 관계 학습(Self-Attention), 패치 단위 처리.
장점: 글로벌 정보 학습 강점, 대규모 데이터에서 우수 성능.
단점: 계산량과 데이터 요구량 높음, 소규모 데이터에서는 과적합 가능.
적합 사례: 이미지 분류, 이미지 캡셔닝, 멀티모달 학습.
3. MLP
특징: 완전 연결 계층으로 전역적 정보 처리.
장점: 구조 단순, 빠른 학습과 추론.
단점: Convolution이나 Attention 없이 복잡한 구조 학습 한계.
적합 사례: 소규모 데이터 분류, Feature Extraction 후 최종 분류.

딥 러닝 모델의 학습이 불안정하거나 과도한 손실 변동을 보일 때 어떤 조치를 취할 수 있는가?

딥 러닝 모델이 불안정하거나 손실이 크게 변동하는 경우 다음과 같은 조치를 취할 수 있습니다:
학습률 감소: 너무 큰 학습률은 불안정한 학습을 유발할 수 있습니다. 작은 학습률로 조정하면 손실의 안정성이 향상될 수 있습니다.
Gradient Clipping 사용: gradient의 최대값을 제한하여 gradient exploding 문제를 방지할 수 있습니다.
Batch Normalization 추가: 학습 안정성을 증가시키고 손실 변동을 줄이는 데 도움이 됩니다.
Optimizers 변경: SGD 대신 Adam, RMSprop 등의 보다 안정적인 optimizer 사용을 고려할 수 있습니다.
Regularization 적용: Dropout, L1/L2 정규화를 통해 과적합을 방지하고 모델의 일반화 성능을 높일 수 있습니다.

학습 중 Early Stopping의 역할은 무엇인가?

Early Stopping은 과적합을 방지하기 위해 학습 중 일정 기간 동안 검증 손실(validation loss)이 개선되지 않을 경우 학습을 중단하는 기법입니다. 이는 불필요한 epoch를 줄여 학습 시간과 리소스를 절약하고, 과적합된 모델이 만들어지는 것을 방지합니다. Early Stopping은 학습 종료 시 가장 성능이 좋은 모델의 가중치를 복원할 수 있습니다.

CNN에서 Stride와 Padding의 역할은?

Stride:
입력 데이터에 필터를 적용할 때 필터가 이동하는 단계 수를 의미합니다. Stride가 1이면 필터는 한 칸씩 이동하며, 2이면 두 칸씩 이동합니다. Stride를 늘리면 출력 크기가 줄어들어 계산 비용이 감소하지만 정보 손실이 발생할 수 있습니다.
Padding:
입력 데이터의 가장자리에 추가적인 행이나 열을 추가하여 필터가 입력 데이터의 모든 부분에 적용되도록 하는 방법입니다. Padding을 사용하면 출력 크기를 유지할 수 있으며, 주로 'same' padding(출력 크기가 입력과 같음)과 'valid' padding(추가하지 않음)으로 나뉩니다.

Optimizer로 Adam을 사용할 때의 장점은 무엇인가?

Adam(Adaptive Moment Estimation)은 다음과 같은 장점이 있습니다:
적응형 학습률: 각 매개변수에 대해 적응형 학습률을 사용하여 학습 과정에서 학습률이 자동으로 조정됩니다.
빠른 수렴: SGD보다 빠르게 수렴하여 대규모 데이터셋 및 모델에서 효율적입니다.
메모리 효율적: 추가 메모리 요구 사항이 상대적으로 적습니다.
Gradient의 안정성: Gradient의 1차 및 2차 모멘트를 사용하는 메커니즘으로, 학습의 안정성을 높입니다.

딥 러닝 모델에서 Weight Initialization의 중요성은?

Weight Initialization(가중치 초기화)은 딥 러닝 모델의 학습에 큰 영향을 미칩니다. 잘못된 초기화는 다음과 같은 문제를 유발할 수 있습니다:
Gradient Vanishing/Exploding: 초기화된 가중치의 값이 지나치게 작거나 크면 gradient가 소멸하거나 폭발하여 학습이 방해받을 수 있습니다.
수렴 속도: 적절한 초기화는 모델의 학습 속도를 높이고 수렴 과정을 안정화할 수 있습니다.
대표적인 초기화 방법으로는 Xavier/Glorot 초기화He 초기화가 있습니다. Xavier는 sigmoid 및 tanh 활성화 함수에 적합하고, He는 ReLU 및 변형 ReLU 활성화 함수에 적합합니다.
딥 러닝에서의 Data Augmentation이란 무엇이며, 그 장점은?
Data Augmentation은 기존 데이터셋에 다양한 변형을 적용하여 데이터셋의 크기를 증가시키는 기술입니다. 이는 모델의 일반화 성능을 높이고 과적합을 방지하는 데 사용됩니다.
장점:
다양성 증가: 데이터셋의 변형을 통해 모델이 다양한 패턴을 학습할 수 있습니다.
과적합 방지: 더 많은 데이터를 제공하여 모델이 학습 데이터에 과적합되는 것을 방지합니다.
실제 환경에 더 잘 대응: 데이터 변형(예: 회전, 자르기, 색상 변화 등)은 실제 데이터의 다양한 상황을 반영합니다.

NLP

Q23: What is transformer architecture, and why is it widely used in natural language processing tasks?
Answer: The key components of a transformer architecture are as follows:
1.
Encoder: The encoder processes the input sequence, such as a sentence or a document, and transforms it into a set of representations that capture the contextual information of each input element. The encoder consists of multiple identical layers, each containing a self-attention mechanism and position-wise feed-forward neural networks. The self-attention mechanism allows the model to attend to different parts of the input sequence while encoding it.
2.
Decoder: The decoder takes the encoded representations generated by the encoder and generates an output sequence. It also consists of multiple identical layers, each containing a self-attention mechanism and additional cross-attention mechanisms. The cross-attention mechanisms enable the decoder to attend to relevant parts of the encoded input sequence when generating the output.
3.
Self-Attention: Self-attention is a mechanism that allows the transformer to weigh the importance of different elements in the input sequence when generating representations. It computes attention scores between each element and every other element in the sequence, resulting in a weighted sum of the values. This process allows the model to capture dependencies and relationships between different elements in the sequence.
4.
Positional Encoding: Transformers incorporate positional encoding to provide information about the order or position of elements in the input sequence. This encoding is added to the input embeddings and allows the model to understand the sequential nature of the data.
5.
Feed-Forward Networks: Transformers utilize feed-forward neural networks to process the representations generated by the attention mechanisms. These networks consist of multiple layers of fully connected neural networks with activation functions, enabling non-linear transformations of the input representations.
The transformer architecture is widely used in NLP tasks due to several reasons:
Self-Attention Mechanism: Transformers leverage a self-attention mechanism that allows the model to focus on different parts of the input sequence during processing. This mechanism enables the model to capture long-range dependencies and contextual information efficiently, making it particularly effective for tasks that involve understanding and generating natural language.
Parallelization: Transformers can process the elements of a sequence in parallel, as opposed to recurrent neural networks (RNNs) that require sequential processing. This parallelization greatly accelerates training and inference, making transformers more computationally efficient.
Scalability: Transformers scale well with the length of input sequences, thanks to the self-attention mechanism. Unlike RNNs, transformers do not suffer from the vanishing or exploding gradient problem, which can hinder the modeling of long sequences. This scalability makes transformers suitable for tasks that involve long texts or documents.
Transfer Learning: Transformers have shown great success in pre-training and transfer learning. Models like BERT (Bidirectional Encoder Representations from Transformers) and GPT (Generative Pre-trained Transformer) are pre-trained on massive amounts of text data, enabling them to learn rich representations of language. These pre-trained models can then be fine-tuned on specific downstream tasks with comparatively smaller datasets, leading to better generalization and improved performance.
Contextual Understanding: Transformers excel in capturing the contextual meaning of words and sentences. By considering the entire input sequence simultaneously, transformers can generate more accurate representations that incorporate global context, allowing for better language understanding and generation.
Q24: Explain the key components of a transformer model.
Answer:
A transformer model consists of several key components that work together to process and generate representations for input sequences. The main components of a transformer model are as follows:
Encoder: The encoder is responsible for processing the input sequence and generating representations that capture the contextual information of each element. It consists of multiple identical layers, typically stacked on top of each other. Each layer contains two sub-layers: a self-attention mechanism and a position-wise feed-forward neural network.
Self-Attention Mechanism: This mechanism allows the model to attend to different parts of the input sequence while encoding it. It computes attention scores between each element and every other element in the sequence, resulting in a weighted sum of values. This process allows the model to capture dependencies and relationships between different elements.
Position-wise Feed-Forward Neural Network: After the self-attention mechanism, a feed-forward neural network is applied to each position separately. It consists of fully connected layers with activation functions, enabling non-linear transformations of the input representations.
Decoder: The decoder takes the encoded representations generated by the encoder and generates an output sequence. It also consists of multiple identical layers, each containing sub-layers such as self-attention, cross-attention, and position-wise feed-forward networks.
Self-Attention Mechanism: Similar to the encoder, the decoder uses self-attention to attend to different parts of the decoded sequence while generating the output. It allows the decoder to consider the previously generated elements in the output sequence when generating the next element.
Cross-Attention Mechanism: In addition to self-attention, the decoder employs cross-attention to attend to relevant parts of the encoded input sequence. It allows the decoder to align and extract information from the encoded sequence when generating the output.
Self-Attention and Cross-Attention: These attention mechanisms are fundamental components of the transformer architecture. They enable the model to weigh the importance of different elements in the input and output sequences when generating representations. Attention scores are computed by measuring the compatibility between elements, and the weighted sum of values is used to capture contextual dependencies.
Positional Encoding: Transformers incorporate positional encoding to provide information about the order or position of elements in the input sequence. It is added to the input embeddings and allows the model to understand the sequential nature of the data.
Residual Connections and Layer Normalization: Transformers employ residual connections and layer normalization to facilitate the flow of information and improve gradient propagation. Residual connections enable the model to capture both high-level and low-level features, while layer normalization normalizes the inputs to each layer, improving the stability and performance of the model.
These components collectively enable the transformer model to process and generate representations for input sequences in an efficient and effective manner. The self-attention mechanisms, along with the feed-forward networks and positional encoding, allow the model to capture long-range dependencies, handle the parallel processing, and generate high-quality representations, making transformers highly successful in natural language processing tasks.
Q25: What is self-attention, and how does it work in transformers?
Answer:
Q26: What are the advantages of transformers over traditional sequence-to-sequence models?
Answer: Transformers have several advantages over traditional sequence-to-sequence models, such as recurrent neural networks (RNNs), when it comes to natural language processing tasks. Here are some key advantages:
Long-range dependencies: Transformers are capable of capturing long-range dependencies in sequences more effectively compared to RNNs. This is because RNNs suffer from vanishing or exploding gradient problems when processing long sequences, which limits their ability to capture long-term dependencies. Transformers address this issue by using self-attention mechanisms that allow for capturing relationships between any two positions in a sequence, regardless of their distance.
Parallelization: Transformers can process inputs in parallel, making them more efficient in terms of computational time compared to RNNs. In RNNs, the sequential nature of computation limits parallelization since each step depends on the previous step's output. Transformers, on the other hand, process all positions in a sequence simultaneously, enabling efficient parallelization across different positions.
Scalability: Transformers are highly scalable and can handle larger input sequences without significantly increasing computational requirements. In RNNs, the computational complexity grows linearly with the length of the input sequence, making it challenging to process long sequences efficiently. Transformers, with their parallel processing and self-attention mechanisms, maintain a constant computational complexity, making them suitable for longer sequences.
Global context understanding: Transformers capture global context information effectively due to their attention mechanisms. Each position in the sequence attends to all other positions, allowing for a comprehensive understanding of the entire sequence during the encoding and decoding process. This global context understanding aids in various NLP tasks, such as machine translation, where the translation of a word can depend on the entire source sentence.
Transfer learning and fine-tuning: Transformers facilitate transfer learning and fine-tuning, which is the ability to pre-train models on large-scale datasets and then adapt them to specific downstream tasks with smaller datasets. Pretraining transformers on massive amounts of data, such as in models like BERT or GPT, helps capture rich language representations that can be fine-tuned for a wide range of NLP tasks, providing significant performance gains.
Q27: How does the attention mechanism help transformers capture long-range dependencies in sequences?
Answer: The attention mechanism in transformers plays a crucial role in capturing long-range dependencies in sequences. It allows each position in a sequence to attend to other positions, enabling the model to focus on relevant parts of the input during both the encoding and decoding stages. Here's how the attention mechanism works in transformers:
Self-Attention: Self-attention, also known as intra-attention, is the key component of the attention mechanism in transformers. It computes the importance, or attention weight, that each position in the sequence should assign to other positions. This attention weight determines how much information a position should gather from other positions.
Query, Key, and Value: To compute self-attention, each position in the sequence is associated with three learned vectors: query, key, and value. These vectors are derived from the input embeddings and transformed through linear transformations. The query vector is used to search for relevant information, the key vector represents the positions to which the query attends, and the value vector holds the information content of each position.
Attention Scores: The attention mechanism calculates attention scores between the query vector of a position and the key vectors of all other positions in the sequence. The attention scores quantify the relevance or similarity between positions. They are obtained by taking the dot product between the query and key vectors and scaling it by a factor of the square root of the dimensionality of the key vectors.
Attention Weights: The attention scores are then normalized using the softmax function to obtain attention weights. These weights determine the contribution of each position to the final representation of the current position. Positions with higher attention weights have a stronger influence on the current position's representation.
Weighted Sum: Finally, the attention weights are used to compute a weighted sum of the value vectors. This aggregation of values gives the current position a comprehensive representation that incorporates information from all relevant positions, capturing the long-range dependencies effectively.
By allowing each position to attend to other positions, the attention mechanism provides a mechanism for information to flow across the entire sequence. This enables transformers to capture dependencies between distant positions, even in long sequences, without suffering from the limitations of vanishing or exploding gradients that affect traditional recurrent neural networks. Consequently, transformers excel in modeling complex relationships and dependencies in sequences, making them powerful tools for various tasks, including natural language processing and computer vision.
Q28: What are the limitations of transformers, and what are some potential solutions?
Answer: While transformers have revolutionized many natural language processing tasks, they do have certain limitations. Here are some notable limitations of transformers and potential solutions:
Sequential Computation: Transformers process the entire sequence in parallel, which limits their ability to model sequential information explicitly. This can be a disadvantage when tasks require strong sequential reasoning. Potential solutions include incorporating recurrent connections into transformers or using hybrid models that combine the strengths of transformers and recurrent neural networks.
Memory and Computational Requirements: Transformers consume more memory and computational resources compared to traditional sequence models, especially for large-scale models and long sequences. This limits their scalability and deployment on resource-constrained devices. Solutions involve developing more efficient architectures, such as sparse attention mechanisms or approximations, to reduce memory and computational requirements without sacrificing performance significantly.
Lack of Interpretability: Transformers are often considered as black-box models, making it challenging to interpret the reasoning behind their predictions. Understanding the decision-making process of transformers is an ongoing research area. Techniques such as attention visualization, layer-wise relevance propagation, and saliency maps can provide insights into the model's attention and contribution to predictions, enhancing interpretability.
Handling Out-of-Distribution Data: Transformers can struggle with data that significantly deviates from the distribution seen during training. They may make overconfident predictions or produce incorrect outputs when faced with out-of-distribution samples. Solutions include exploring uncertainty estimation techniques, robust training approaches, or incorporating external knowledge sources to improve generalization and handle out-of-distribution scenarios.
Limited Contextual Understanding: Transformers rely heavily on context information to make predictions. However, they can still struggle with understanding the broader context, especially in scenarios with complex background knowledge or multi-modal data. Incorporating external knowledge bases, leveraging graph neural networks, or combining transformers with other modalities like images or graphs can help improve contextual understanding and capture richer representations.
Training Data Requirements: Transformers typically require large amounts of labeled data for effective training due to their high capacity. Acquiring labeled data can be expensive and time-consuming, limiting their applicability to domains with limited labeled datasets. Solutions include exploring semi-supervised learning, active learning, or transfer learning techniques to mitigate the data requirements and leverage pretraining on large-scale datasets.
Researchers and practitioners are actively working on addressing these limitations to further enhance the capabilities and applicability of transformers in various domains. As the field progresses, we can expect continued advancements and novel solutions to overcome these challenges.
Q29: How are transformers trained, and what is the role of pre-training and fine-tuning?
Answer:
Q30: What is BERT (Bidirectional Encoder Representations from Transformers), and how does it improve language understanding tasks?
Answer: BERT (Bidirectional Encoder Representations from Transformers) is a transformer-based neural network model introduced by Google in 2018. It is designed to improve the understanding of natural language in various language processing tasks, such as question answering, sentiment analysis, named entity recognition, and more.
BERT differs from previous language models in its ability to capture the context of a word by considering both the left and right context in a sentence. Traditional language models, like the ones based on recurrent neural networks, process text in a sequential manner, making it difficult to capture the full context.
BERT, on the other hand, is a "pre-trained" model that is trained on a large corpus of unlabeled text data. During pre-training, BERT learns to predict missing words in sentences by considering the surrounding words on both sides. This bidirectional training allows BERT to capture contextual information effectively.
Once pre-training is complete, BERT is fine-tuned on specific downstream tasks. This fine-tuning involves training the model on labeled data from a particular task, such as sentiment analysis or named entity recognition. During fine-tuning, BERT adapts its pre-trained knowledge to the specific task, further improving its understanding and performance.
The key advantages of BERT include:
1.
Contextual understanding: BERT can capture the contextual meaning of words by considering both the preceding and following words in a sentence, leading to better language understanding.
2.
Transfer learning: BERT is pre-trained on a large corpus of unlabeled data, enabling it to learn general language representations. These pre-trained representations can then be fine-tuned for specific tasks, even with limited labeled data.
3.
Versatility: BERT can be applied to a wide range of natural language processing tasks. By fine-tuning the model on specific tasks, it can achieve state-of-the-art performance in tasks such as question answering, text classification, and more.
4.
Handling ambiguity: BERT's bidirectional nature helps it handle ambiguous language constructs more effectively. It can make more informed predictions by considering the context from both directions.
Q31: Describe the process of generating text using a transformer-based language model.
Answer:
Q32: What are some challenges or ethical considerations associated with large language models?
Answer:
Q33: Explain the concept of transfer learning and how it can be applied to transformers.
Answer:
Transfer learning is a machine learning technique where knowledge gained from training on one task is leveraged to improve performance on another related task. Instead of training a model from scratch on a specific task, transfer learning enables the use of pre-trained models as a starting point for new tasks.
In the context of transformers, transfer learning has been highly successful, particularly with models like BERT (Bidirectional Encoder Representations from Transformers) and GPT (Generative Pre-trained Transformer).
Here's how transfer learning is applied to transformers:
1.
Pre-training: In the pre-training phase, a transformer model is trained on a large corpus of unlabeled text data. The model is trained to predict missing words in a sentence (masked language modeling) or to predict the next word in a sequence (causal language modeling). This process enables the model to learn general language patterns, syntactic structures, and semantic relationships.
2.
Fine-tuning: Once the transformer model is pre-trained, it can be fine-tuned on specific downstream tasks with smaller labeled datasets. Fine-tuning involves retraining the pre-trained model on task-specific labeled data. The model's parameters are adjusted to optimize performance on the specific task, while the pre-trained knowledge acts as a strong initialization for the fine-tuning process.
a. Task-specific architecture: During fine-tuning, the architecture of the pre-trained transformer model is often modified or extended to accommodate the specific requirements of the downstream task. For example, in sentiment analysis, an additional classification layer may be added on top of the pre-trained model to classify text sentiment.
b. Few-shot or zero-shot learning: Transfer learning with transformers allows for few-shot or even zero-shot learning scenarios. Few-shot learning refers to training a model on a small amount of labeled data, which is beneficial when data availability is limited. Zero-shot learning refers to using the pre-trained model directly on a task for which it hasn't been explicitly trained, but the model can still generate meaningful predictions based on its understanding of language.
Transfer learning with transformers offers several advantages:
1.
Reduced data requirements: Pre-training on large unlabeled datasets allows the model to capture general language understanding, reducing the need for massive amounts of labeled task-specific data.
2.
Improved generalization: The pre-trained model has learned rich representations of language from extensive pre-training, enabling it to generalize well to new tasks and domains.
3.
Efficient training: Fine-tuning a pre-trained model requires less computational resources and training time compared to training from scratch.
4.
State-of-the-art performance: Transfer learning with transformers has achieved state-of-the-art performance on a wide range of NLP tasks, including text classification, named entity recognition, question answering, machine translation, and more.
By leveraging the knowledge encoded in pre-trained transformers, transfer learning enables faster and more effective development of models for specific NLP tasks, even with limited labeled data.
Q34: How can transformers be used for tasks other than natural language processing, such as computer vision?
Answer:

GANs

Generative Adversarial Networks(GANs)의 구성과 작동 방식을 설명하라.

GAN은 두 개의 주요 신경망, 생성자(Generator)와 판별자(Discriminator)로 구성됩니다.
생성자는 무작위 입력으로부터 새로운 데이터를 생성하며, 가능한 한 실제 데이터처럼 보이도록 학습됩니다.
판별자는 입력 데이터가 실제 데이터인지 생성된 데이터인지를 구별하도록 학습됩니다.
GAN의 학습 과정은 다음과 같습니다:
1.
생성자는 판별자를 속이기 위해 가짜 데이터를 생성합니다.
2.
판별자는 실제 데이터와 생성된 데이터를 비교하며 학습합니다.
3.
판별자의 피드백을 받아 생성자는 더 정교한 데이터를 생성하도록 학습됩니다.
이 과정은 두 네트워크가 서로 경쟁하며 발전하도록 하여 매우 현실적인 데이터를 생성할 수 있습니다.

Diffusions

DDPM?

ELBO Loss?

Rectified Flow?

Rectified Flow는 Diffusion 모델 학습에서 중요한 역할을 합니다. 이 기법은 광학 흐름에서 발생할 수 있는 비대칭성을 해결하여, 학습 과정에서 양방향 흐름의 일관성을 보장합니다. 이를 통해, 모델이 데이터를 정확하게 복원하고 노이즈를 효율적으로 제거할 수 있게 돕습니다. 또한, 흐름 추정의 정확성을 높여 학습 안정성을 개선하고, 계산 자원을 절약하며, 더 빠르고 효율적인 학습을 가능하게 합니다. 이 과정에서 흐름의 일관성과 대칭성을 보장함으로써, Diffusion 모델이 더 정확하고 고품질의 결과를 생성할 수 있도록 지원합니다.

flow matching?

FlowMatching은 Diffusion 모델과 같은 생성 모델에서 효율적인 학습을 위해 사용하는 기법으로, 두 분포 간의 흐름을 일치시키는 방법입니다. 이 기법은 데이터의 점진적 변환을 추적하는 과정에서 발생할 수 있는 비대칭성을 해결하여, 생성된 데이터와 실제 데이터 간의 흐름을 정확하게 맞추는 데 도움을 줍니다. FlowMatching은 구조적 정합성과 일관성을 보장하여, 모델이 빠르고 안정적으로 학습할 수 있도록 돕습니다. 이 방식은 학습 중 손실 함수의 최적화를 개선하고, 효율적인 파라미터 조정을 가능하게 하여, Diffusion 모델이 더 빠르고 정확하게 수렴하도록 합니다.

3D Generation

nerf?

gaussian splatting?

1. Sigmoid
정의
Sigmoid 함수는 입력 값을 0과 1 사이로 압축하는 비선형 활성화 함수로, 확률로 해석할 수 있는 출력값을 제공합니다:
적합한 상황
이진 분류 문제: 각 클래스에 대한 확률을 직접 출력할 때 사용.
간단한 확률 예측: 출력값을 명확히 0~1로 제한해야 하는 경우.
한계
Gradient Vanishing 문제: 입력 값이 매우 크거나 작을 때 기울기가 0에 가까워져 학습이 느려짐.
다중 클래스 문제 비적합: 클래스 간 관계를 고려하지 못함.
2. Cross-Entropy
정의
Cross-Entropy는 모델이 출력한 확률 분포와 실제 레이블의 차이를 측정하는 손실 함수로, 주로 분류 문제에서 사용됩니다:
여기서 는 실제 레이블, 는 예측 확률입니다.
적합한 상황
이진 분류: Sigmoid와 함께 사용.
다중 클래스 분류: Softmax 출력과 함께 사용.
장점
클래스 간의 확률 차이를 반영하여 학습 효율을 높임.
차이와 적합한 상황 요약
항목 Sigmoid Cross-Entropy
역할 비선형 활성화 함수 손실 함수
적합한 문제 이진 분류 이진 분류(Sigmoid와 함께), 다중 클래스 분류
특징 확률 출력 제공, 단일 클래스 확률 계산 가능 모델 출력과 실제 분포 간 차이를 수치화
한계 다중 클래스 문제에 부적합 다중 클래스에서는 Softmax 등 활성화 함수 필요
적용 예시
이진 분류: Sigmoid를 마지막 출력층에 사용하고, Binary Cross-Entropy로 학습.
다중 클래스 분류: Softmax를 출력층에 사용하고, Categorical Cross-Entropy로 손실 계산.
kl divergence
KL Divergence (Kullback-Leibler Divergence)
정의
KL Divergence는 두 확률 분포 (참조 분포)와 (근사 분포) 간의 차이를 측정하는 비대칭 지표입니다.
수식으로는 다음과 같이 정의됩니다:
여기서:
: 실제(참조) 확률 분포.
: 근사하거나 예측된 확률 분포.
: 각 샘플 에서 두 분포의 비율에 대한 로그값.
의미
KL Divergence는 가 와 얼마나 다른지 나타내며, 를 기준으로 의 부정확성을 측정합니다.
값이 0이면 와 가 동일한 분포임을 의미합니다.
항상 0 이상이며 비대칭적이므로 .
특징 및 한계
비대칭성: 는 가 를 얼마나 잘 근사하는지를 나타내지 가 를 근사하는 것은 측정하지 않음.
확률 분포가 필요: 인 영역에서 이면 KL Divergence는 정의되지 않음.
감도: 가 에 비해 작은 값을 가질 경우, 값이 크게 증가함.
적합한 사용 사례
1.
머신러닝
확률 모델 학습: Variational Autoencoder(VAE) 등에서 근사 분포 와 참조 분포 간의 차이를 줄이기 위해 사용.
정규화 손실: 예측된 분포 와 실제 데이터 분포 를 정렬하기 위한 손실 함수.
1.
통계 및 정보 이론
정보 손실 측정: 두 분포 간 정보 차이를 정량적으로 분석.
1.
언어 모델링
Word Embedding과 같은 분야에서 두 확률 분포 간 차이를 비교.
직관적 예시
참조 분포 : 실제 데이터의 분포.
근사 분포 : 모델이 예측한 분포.
KL Divergence는 모델이 데이터의 실제 분포를 얼마나 잘 근사하는지 평가하며, 작을수록 가 에 가깝다는 것을 의미합니다.
Knowledge Distillation에서 KL Divergence 사용 이유
KL Divergence와 Cross-Entropy의 차이점 및 Knowledge Distillation에서 KL Divergence 사용 이유
1. Cross-Entropy와 KL Divergence의 관계
먼저 Cross-Entropy와 KL Divergence는 서로 밀접하게 관련이 있습니다. 이 두 가지는 모두 확률 분포 간의 차이를 측정하는 지표이지만, 중요한 차이가 있습니다.
Cross-Entropy:
여기서 는 실제 분포(혹은 정), 는 모델이 예측한 확률 분포입니다.
Cross-Entropy는 모델이 예측한 분포 와 실제 정 분포 사이의 차이를 측정합니다. 주로 분류 문제에서 사용되며, **학생 모델(Student)**의 예측을 실제 레이블 에 맞추는 데 사용됩니다.
KL Divergence:
KL Divergence는 두 확률 분포 와 사이의 비대칭적인 차이를 측정하는 지표입니다. 두 분포가 얼마나 다른지를 측정하며, 주로 확률 분포 간의 차이를 세밀하게 비교합니다.
2. Knowledge Distillation에서 KL Divergence 사용 이유
Knowledge Distillation에서 Teacher 모델(큰 모델)과 Student 모델(작은 모델) 간의 지식 전달을 최적화하는 데 KL Divergence를 사용하는 이유는 다음과 같습니다:
부드러운 확률 분포 전달:
Teacher 모델의 출력은 확률 분포입니다. KL Divergence는 이 확률 분포 간의 차이를 계산하므로, Student 모델이 Teacher 모델의 확률 분포를 최대한 근사할 수 있도록 합니다. KL Divergence는 단순히 정에 대한 정확한 맞춤만을 목표로 하지 않고, 각 클래스의 상대적 확률을 학습하도록 유도합니다.
반면, Cross-Entropy는 정 클래스에만 집중하여 해당 클래스의 확률을 높이는 데 중점을 두고, 다른 클래스들 간의 상대적인 관계는 고려하지 않습니다. 즉, Cross-Entropy는 단일 클래스에 대해서만 중요한 정보를 제공합니다.
Teacher 모델의 “부드러운 지식” 전달:
Teacher 모델의 예측이 매우 높은 확률을 가진 클래스를 지정할 수 있지만, Softmax의 출력은 모든 클래스에 대한 상대적인 확률을 나타냅니다. 이때, KL Divergence는 Teacher 모델의 Softmax 분포를 사용하여 그 분포의 차이를 최소화하도록 유도하는데, 이는 모델이 단일 클래스에 대해서만 맞추기보다는 전체 클래스의 분포적 특성을 학습하도록 합니다.
반면, Cross-Entropy는 학생 모델이 단일 클래스에 대한 확률을 정확히 맞추도록 강제하므로, 학생 모델이 Teacher 모델의 확률 분포를 제대로 학습하지 못할 수 있습니다.
Cross-Entropy는 정 클래스에만 집중:
Cross-Entropy는 기본적으로 정 클래스에 대한 확률을 높이는 데만 초점을 맞추고, 모든 클래스에 대한 정보를 사용하는 확률 분포의 차이를 반영하지 않습니다. 즉, Student 모델이 Teacher 모델의 비정 클래스에 대해 배운 정보는 매우 적거나 아예 없을 수 있습니다.
그러나 KL Divergence는 Teacher 모델이 예측한 모든 클래스에 대한 확률 분포를 비교하기 때문에, Student 모델이 정뿐만 아니라 비정 클래스들에 대해서도 효과적으로 학습할 수 있도록 돕습니다.
3. 요약: KL Divergence를 사용하는 이유
Cross-Entropy는 단일 클래스에 대한 정확도를 높이는 데 초점이 맞춰져 있으며, 확률 분포 간의 미세한 차이를 반영하지 않습니다. 따라서 Knowledge Distillation에서 Teacher 모델의 전체 예측 분포를 학습하려는 목적에는 적합하지 않습니다.
KL Divergence는 확률 분포 간의 차이를 측정하고, 전체 클래스에 대한 상대적 확률을 고려하여, Student 모델이 Teacher 모델의 지식을 보다 부드럽고 균형 잡힌 방식으로 학습하도록 유도합니다.

ml vs dl

ddpm vs score model
ML vs DL?
DDPM?
DDPM vs Score Model?