범주형 특징을 수치형 특징으로 변환하는 방법 두가지
 
원 핫 인코딩 : 범주형 데이터를 이진 벡터로 변환 → 데이터 차원이 커질 우려
 
순서 인코딩: 범주형 데이터를 중요한 순서대로 숫자로 변환 → 순서가 명확할 때 유리
 
 
로지스틱 함수 :
로지스틱 함수는 S자 형태의 곡선을 그리는 함수로, 주로 이진 분류 문제에서 사용되는 활성화 함수입니다. 이 함수는 특정 입력 값을 0과 1 사이의 값으로 변환하여 출력합니다. 입력 값이 작을수록 0으로, 입력값이 클수록 1로 수렴하며 입력값이 0일때는 0.5를 출력한다
 
 
학습률의 역할과 학습률을 설정할 때 주의점
학습률은 경사하강법에서 파라미터를 업데이트할 때 이동하는 거리를 의미하고, 학습률이 너무 크면 최적값을 지나칠 수 있고, 너무 작으면 학습 속도가 느려진다.
 
 
비용 함수의 용도
비용함수란 - 주어진 입력 데이터에 대해 모델이 출력한 예측결과와 실제 값을 비교하여 오차를 계산한다. 이때 이 오차를 수치적으로 표현 한 것을 비용 함수이다.
 
모델 학습중 가중치를 조절하는 역할 → 비용 함수를 최소화 하는 방향으로 가중치 업데이트
 
성능 평가 : 모델이 새로운 데이터에 대해 얼마나 예측률이 높은지 평가. 즉 낮은 비용함수 일수록 높은 예측 정확도
 
최적화 과정 안내: 비용 함수의 기울기를 계산하여 최적화 알고리즘을 통해 모델의 파라미터 조정
 
모델 비교: 서로 다른 모델의 성능을 비교할 때 비용 함수 값을 사용하여 어떤 모델이 나은지 평가 할 수 있다
→ 정리하면 모델의 예측 성능을 평가하고, 모델을 최적화 하는데 사용, 모델의 오차를 수치적으로 표현하고 오차를 최소화하는 방향으로 모델을 학습
 
 
비용함수가 최소화 되도록 하는 최적의 w를 얻는 방법 → 경사하강법
→ 비용함수의 기울기를 사용하여 최소화 방향으로 파라미터를 업데이트하는 최적화 알고리즘
 
 
확률적 경사하강법SGD의 특징
확률적 경사하강법은 하나의 훈련 샘플을 사용하여 기울기를 계산한다.
계산이 빠르고 메모리 효율성이 높으며, 국소 최적점 탈출에 용이하다. 학습률이 너무 크면 최적값을 지날 수도 있고, 학습이 불안정 할 수 있다. 반대로 학습률이 작으면 학습 속도가 느려지며 최적값에 머물 가능성이 높다
 
 
확률적 경사 하강법과 미니배치 경사 하강법의 차이점
확률적 경사하강법은 훈련 샘플을 하나만 사용하여 기울기를 계산하고, 미니 배치 경사 하강법은 작은 배치를 사용하여 기울기를 계산한다. 이때 미니배치 경사 하강법은 계산의 효율성과 안정성을 향상 시킨다.
 
 
로지스틱 회귀에서 과적합을 방지하는 방법 → 정규화
L1 정규화는 비용 함수에 가중치의 절대값 합을 추가하고,→ L1 정규화는 희소 모델을 생성
이때 L1 정규화는 일부 가중치를 0으로 만들어 특성 선택 역할을 하고, 불필요한 특성을 제거하고 모델을 단순화
가중치의 크기를 절대값 합을 통해 크기를 제한하여 모델이 훈련 데이터에 과적합 되는 것을 방지한다.
L2 정규화는 가중치의 제곱합을 추가 → L2 정규화는 가중치를 작은 값으로 제한 → 모델 복잡성을 낮춰 과적합 방지
 
 
비볼록 함수를 비용함수로 사용하면 최적화가 어려운 이유
비볼록 함수를 비용함수로 사용하면 여러개의 국소 최적점이 발생한다. 그렇기 때문에 최적화 알고리즘을 통해 전역 최적점 발견이 어려울 수도 있다.
 
 
예측 확률로 분류 임계 값을 설정하는 방법
예측 확률이 특정 임계값 (일반적으로 0.5를 사용) 보다 크면 양성 클래스로, 작으면 음성 클래스로 분류한후 임계값을 조정하여 민감도를 수정하여 분류 임계 값을 설정 할 수 있다
 
 
로지스틱 회귀 모델에서 다중 클래스 분류를 처리하는 방법은 소프트맥스 함수를 사용하여 각 클래스의 확률을 계산한뒤 가장 높은 확률의 클래스로 분류한다
-----------------------------------------------------------------------------------------------------------------------------------------
 
경사 하강법에서 학습률이 너무 큰 경우와 너무 작은 경우의 문제점은 무엇인가요?
 
학습률이 너무 크면 최적값을 지나칠 수 있고, 학습이 불안정해집니다. 학습률이 너무 작으면 학습 속도가 느려지고, 지역 최적값에 머물 가능성이 높습니다.
 
확률적 경사 하강법(SGD)과 미니배치 경사 하강법의 차이점을 설명하세요.
 
SGD는 하나의 훈련 샘플을 사용하여 기울기를 계산하는 반면, 미니배치 경사 하강법은 작은 배치를 사용하여 기울기를 계산합니다. 미니배치 경사 하강법은 계산의 효율성과 안정성을 향상시킵니다.
 
로지스틱 회귀 모델에서 사용되는 시그모이드 함수의 도함수(derivative)를 구하세요.σ′(x)=σ(x)(1−σ(x))
 
시그모이드 함수 σ(x)=1+ex1의 도함수는 다음과 같습니다.
𝜎(𝑥)=11+𝑒−𝑥
𝜎′(𝑥)=𝜎(𝑥)(1−𝜎(𝑥))
 
로지스틱 회귀에서 과적합(overfitting)을 방지하기 위한 방법 중 하나를 설명하세요.J(w)=−m1i=1∑m[y(i)log(y^(i))+(1−y(i))log(1−y^(i))]+2j=1∑nwj2
 
과적합을 방지하기 위해 정규화(Regularization)를 사용할 수 있습니다. L2 정규화는 비용 함수에 가중치의 제곱합을 추가하여 모델의 복잡도를 줄입니다.
𝐽(𝑤)=−1𝑚∑𝑖=1𝑚[𝑦(𝑖)log⁡(𝑦^(𝑖))+(1−𝑦(𝑖))log⁡(1−𝑦^(𝑖))]+𝜆2𝑚∑𝑗=1𝑛𝑤𝑗2
 
로지스틱 회귀(Logistic Regression)에서 사용하는 비용 함수가 비볼록(non-convex)인 경우 최적화의 어려움을 설명하세요.
 
비볼록 비용 함수는 여러 개의 국소 최적점이 존재할 수 있으며, 최적화 알고리즘이 전역 최적값에 수렴하지 않을 수 있습니다.
 
L1 정규화와 L2 정규화의 차이점을 설명하세요.
 
L1 정규화는 비용 함수에 가중치의 절대값 합을 추가하고, L2 정규화는 가중치의 제곱합을 추가합니다. L1 정규화는 희소 모델을 생성하는 반면, L2 정규화는 가중치를 작은 값으로 제한합니다.
 
로지스틱 회귀에서의 예측 확률을 기반으로 분류 임계값을 설정하는 방법을 설명하세요.
 
예측 확률이 특정 임계값(일반적으로 0.5)보다 크면 양성 클래스, 작으면 음성 클래스로 분류합니다. 임계값을 조정하여 민감도와 특이도를 조절할 수 있습니다.
 
Adagrad 알고리즘의 주요 장점과 단점을 설명하세요.
 
Adagrad는 각 파라미터에 대해 적응적 학습률을 적용하여 드문 특징에 더 큰 업데이트를 합니다. 그러나 학습률이 너무 빠르게 감소할 수 있어 장기 학습에 불리할 수 있습니다.
 
로지스틱 회귀 모델에서 다중 클래스 분류를 처리하는 방법을 설명하세요.P(y=kx)=∑j=1KewjTxewkTx
 
다중 클래스 분류를 위해 소프트맥스 회귀(Softmax Regression)를 사용합니다. 소프트맥스 함수는 각 클래스의 확률을 계산하여 가장 높은 확률을 가지는 클래스로 분류합니다.
𝑃(𝑦=𝑘∣𝑥)=𝑒𝑤𝑘𝑇𝑥∑𝑗=1𝐾𝑒𝑤𝑗𝑇𝑥