TIL_220513_머신러닝 프로젝트 기초

👦 내일배움캠프/TIL(Today I Learned)

TIL_220513_머신러닝 프로젝트 기초

MVMT 2023. 1. 1. 00:57

2주차 머신러닝..

이미 매워서 혀가 얼얼한데..

점점 통각이 쌔지는 기분이랄까..

찍먹하려다 크게 혼나는 중이다.

이해의 범주에 계속 팅겨져 나가버리니..

날아가는 멘탈 잡는 중..

오늘도 화이팅!!!

Logistic regression (로지스틱 회귀)

가능성이 더 높은 범주로 분류하는 알고리즘
종속 변수와 독립 변수 간의 관계를 구체적으로 나타낸다.
선형 회귀처럼 연속된 값을 예측하는 것이 아니라 종속변수가 범주형 데이터일 때 사용한다.
회귀를 사용하여 범주에 속할 확률을 예측한다.

독립 변수 : 독립 변수는 입력값이나 원인
종속 변수 : 종속 변수는 결과물이나 효과
범주형 데이터 : 0 또는 1처럼 이진으로 나타나 있는 데이터
이항 로지스틱 회귀 : 종속 변수가 2개인 binary 형태일 때 EX) 날씨(hot, cold)
다항 로지스틱 회귀 : 종속 변수가 3개 이상 multi 형태일 때 EX) 날씨(rainy, sunny, cloudly)

예시) 공부한 시간에 대한 해당 과목의 이수 여부 예측

이진분류

문제)
- 직선으로 그려졌기 때문에 2시간 이상 공부하지 않으면 합격 확률이 음수가 된다.
- 정확도가 낮다.
해결) 로지스틱 회귀를 사용한다.

머신러닝 : 로지스틱 회귀

회귀 모델에서 사용하는 Sigmoid function (시그모이드 함수)

S-커브를 함수로 표현해낸 것.
X축에는 (조건을 모두 고려하였을 때의) 점수, Y축으로 결과가 나타나 있는데, 결과를 보면 알다시피 0과 1로만 이루어진 모습을 확인
즉, 사건이 일어나고(1) 일어나지 않고(0)를 예측하는 것이 로지스틱 회귀 모델의 목표
예시)
- 화재가 발생했을 때, 산소가 X만큼 부족해지면 '사망한다 or 사망하지 않는다.'
- 교통사고가 발생했을 때, 충격량이 X일 때 '중상을 입는다 or 입지 않는다.'
- 타이타닉에서 사고가 벌어졌을 때, X라는 조건이 주어지면 '사망한다 or 사망하지 않는다.'

Tistory, [인공지능][개념] 로지스틱 회귀(Logistic Regression)는 무엇이며, 시그모이드(Sigmoid) 함수는 왜 사용하는 것일까?, https://itstory1592.tistory.com/8 , (2022.05.13)

단항 논리 회귀 :

Sigmoid 를 사용해 0 과 1로 나누고 Crossentropy 를 사용해 확률 분포 그래프의 차이를 계산해서 최소화 한다.

다항 논리 회귀 :

Sigmoid 대신 Softmax 를 사용하고, 똑같이 Crossentropy 를 사용한다. 확률 분포 그래프의 차이를 계산해서 최소화 한다.

Support vector machine (SVM)

구분하는 문제를 푸는 것은 분류 문제(Classification problem)
분류 문제를 푸는 모델을 분류기(Classifier)
그래프의 축을 Feature(특징)라고 부르고 각 고양이, 강아지와 우리가 그린 빨간 벡터를 Support vector, 벡터의 거리를 Margin
우리는 Margin이 넓어지도록 이 모델을 학습시켜 훌륭한 Support vector machine
예외 상황 발생
- Feature(특성)의 개수를 늘려서 학습시키는 것이 일반적

머신러닝 모델 간단 소개

k-Nearest neighbors (KNN)

새로 나타났을 때 일정 거리안에 다른 개체들의 개수(k)를 보고 자신의 위치를 결정하게하는 알고리즘

Decision tree (의사결정나무)

스무고개와 같은 방식으로 예, 아니오를 반복하며 추론하는 방식
생각보다 성능이 좋아 간단한 문제를 풀 때 자주 사용

Random forest

의사결정나무를 여러개 합친 모델
각각의 의사결정나무들이 결정을 하고 마지막에 투표(Majority voting)을 통해 최종 답을 결정

전처리(Preprocessing)

넓은 범위의 데이터 정제 작업을 뜻.
필요없는 데이터를 지우고 필요한 데이터만을 취하는 것.
null 값이 있는 행을 삭제하는 것.
정규화(Normalization), 표준화(Standardization) 등의 많은 작업들을 포함.

정규화 (Normalization)

데이터를 0과 1사이의 범위를 가지도록 만듬
같은 특성의 데이터 중에서 가장 작은 값을 0으로 만들고, 가장 큰 값을 1로 만듬

표준화 (Standardization)

표준화는 데이터의 분포를 정규분포로 바꿈.

즉 데이터의 평균이 0이 되도록하고 표준편차가 1이 되도록 만들어줌.

# 일단 데이터의 평균을 0으로 만들어주면 데이터의 중심이 0에 맞춰지게(Zero-centered) 됩니다. 그리고 표준편차를 1로 만들어 주면 데이터가 예쁘게 정규화(Normalized) 되죠. 이렇게 표준화를 시키게 되면 일반적으로 학습 속도(최저점 수렴 속도)가 빠르고, Local minima에 빠질 가능성이 적습니다.
# 거의 99% 모델이 Normalized 을 사용.

2주차 숙제

연령, 혈압, 인슐린 수치 등을 통해 당뇨병을 진단해봅시다!

논리 회귀를 직접 구현해보자.

실습

import os
os.environ['KAGGLE_USERNAME'] = 'movvvv' # username
os.environ['KAGGLE_KEY'] = '5af4a2875c7c2abf94db7964afa4633b' # key

!kaggle datasets download -d kandij/diabetes-dataset
!unzip diabetes-dataset.zip

from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense
from tensorflow.keras.optimizers import Adam, SGD
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt 
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler # StandardScaler 전처리 과정

df = pd.read_csv('diabetes2.csv')

df.head(5)

x_data = df.drop(columns=['Outcome'], axis=1)
x_data = x_data.astype(np.float32)

y_data = df[['Outcome']]
y_data = y_data.astype(np.float32)

scaler = StandardScaler()
x_data_scaled = scaler.fit_transform(x_data)

x_train, x_val, y_train, y_val = train_test_split(x_data_scaled, y_data, test_size=0.2, random_state=2021)

model = Sequential([
  Dense(1, activation='sigmoid')
])

model.compile(loss='binary_crossentropy', optimizer=Adam(lr=0.01), metrics=['acc'])

model.fit(
    x_train,
    y_train,
    validation_data=(x_val, y_val), # 검증 데이터를 넣어주면 한 epoch이 끝날때마다 자동으로 검증
    epochs=20 # epochs 복수형으로 쓰기!
)

2) 당뇨병 예측 : 약 78%

https://colab.research.google.com/drive/1GrDwUsUOzVHmWevSFHkeduEItv4Qw11Z?usp=sharing

2주차 숙제

Colaboratory notebook

colab.research.google.com

3) 피드백

x_data = df.drop(columns=['Outcome'], axis=1)
x_data = x_data.astype(np.float32)

y_data = df[['Outcome']]
y_data = y_data.astype(np.float32)

scaler = StandardScaler()
x_data_scaled = scaler.fit_transform(x_data)

이 부분들에 대해서 제대로 이해하지 못했다..

꼭 메모해두어 질문 사항으로 원하는 답을 얻자.

출처 스파르타코딩클럽