파이썬

머신러닝 용어 관련 정리

sheepone 2021. 8. 17. 14:35
반응형

딥러닝

머신러닝의 방식중 하나 딥러닝 (데이터로부터 표현을 학습하는 방식)

인공지능 > 머신러닝 > 딥러닝


과대 접합과 과소 접합 (overfitting and underfitting)

과대 접합

일정 에포크 동안 훈련하면 검증 세트에서 모델 성능이 최고점에 도달한 다음 감소.

훈련 세트에서 높은 성능을 얻을 수 있지만 진짜 원하는 테스트 세트

(또는 이전에 본 적 없는 데이터)에서는 성능이 떨어짐.

과소 접합

테스트 세트의 성능이 향상될 여지가 아직 있을 때,

모델이 너무 단순하거나, 규제가 너무 많거나, 그냥 단순히 충분히 오래 훈련하지 않는 경우.

즉 네트워크가 훈련 세트에서 적절한 패턴을 학습하지 못했다는 뜻

 

모델이 데이터를 반복 학습하는 횟수가 늘어날수록 모델이 

복잡한 정도(Model Complexity)도 따라서 늘어나게 되는데, 
이것은 훈련용 데이터를 그대로 외우는 방향이기 때문이다.

따라서 Training Error는 갈수록 줄어들게 되지만 Validation Error는 어느 정도까지는 줄어들다가, 

어느 지점 이후부터는 다시 상승하게 됩니다.
모델을 훈련시키는 도중에 Validation Error가 최소인 지점에서 훈련을 멈추는 것이 필요.


편향과 분산 (bias and variance)

편향 (bias) - 예측값들과 정답이 대체로 멀리 떨어져 있으면 결과의 편향(bias)이 높다

분산 (variance) - 예측값들이 자기들끼리 대체로 멀리 흩어져있으면 결과의 분산(variance)이 높다

 

좌측 - 편향이 높고 분산이 적다.

우측 - 편향이 적고 분산이 높다.


연역추론과 귀납추론

연역추론 - 이론(모델)으로부터 현상(데이터)을 설명 (머신러닝 이전의 모든 프로그램은 연역적인 방식)

귀납추론 - 현상(데이터)로부터 이론(모델)을 만듬 (머신러닝)


협업 기반 필터링과 컨텐츠 기반 필터링

협업 기반 필터링 - 사람 A와 B의 성향이 평소 유사하다면 A가 고른 물건을 B에게도 권유하는 방식

컨텐츠 기반 필터링 - 문서 A와 B가 유사하다면 A를 고른 사람에게 B도 권유하는 방식


확률과 우도 (X개 바구니에 색깔공)

확률은 X번 바구니에 X색공이 들었을 가능성 (1번 바구니에 파란공이 들었을 가능성)

우도는 X색공이 X번 항아리 출신인지 도출 (빨간공이 2번 바구니 출신인지 도출)

(우도 결과에서 원인 도출)


Parametric model (머신러닝 모델의 구조 세가지)

  • parametric 모델
    설계하는 사람이 모델의 형태를 강제로 고정해놓고 파라미터만 배우도록 한다는 점에서 
    유연성(flexibility)이 적고, 따라서 bias가 비교적 크게 나타납니다.
  • semi-parametric 모델
    설계자가 모델에 개입하는 정도가 적고, 데이터를 거의 있는 그대로 사용한다는 점에서
    서로 다른 데이터에 대해서 유연하게 사용할 수 있고, bias 정도도 적다는 특징
    분산(variance)이 일관되지 않다는 말이 됩니다.
  • non-parametric 모델
    데이터의 분포를 표현해놓고, 비슷한 입력에는 비슷한 출력

차원축소

데이터의 양을 줄이는 방법 (복잡도와 시간등을 완화)

오버핏등의 상황 완화

 

feature selection

필요한 열을 빼거나 더하는 방법

  • Forward search 방법 - 에러가 적은 열들만으로 합한 테이블
  • Backward search 방법 - 열을 뺏을때 에러가 적은 열들의 테이블

 

feature extraction

여러 무더기의 데이터 열을 뭉개는(=압축하는) 방법

 

unsupervised 방법 - 정답 레이블(answer)을 사용

  • Factor analysis
    2차원 데이터를 생성(generate)하는데 가장 적합한 1차원의 숨겨진(=hidden 혹은 latent) 변수가 있다면 그것이 어떻게 생겼을까를 유추하는 것이 목적
  • Multidimensional scaling
    2차원의 데이터 점 각각의 정확한 위치 등은 일절 고려하지 않고 데이터 점 각각의 거리를 보존하면서 1차원으로 축소하려면 어떻게 하면 되겠느냐는 것
  • Principal component analysis
    2차원의 데이터의 정보 손실을 최소화(minimize)하기 위해서는 어느 방향으로 짜부러트려야 할 것인가를 푸는 것

 

supervised 방법 - 정답 레이블(answer)을 사용 안함

  • Linear discriminant analysis
    지도학습(supervised) 방법 데이터가 분류(classification)된 결과를 훼손하지 않으면서 데이터를 1차원으로 축소하려면 어떻게 하면 되겠는가 하는 문제를 풉니다. 분류가 되었다는 결과를 일단 손에 들고 계산을 해야 하므로 supervised 방법

 

반응형