의사결정나무: Decision Tree
·
AI Study/Machine Learning
[분류 문제]• 신규고객에게 신용카드를 발급하려고 하는데 어느 등급으로 해야 할까?• 어떤 부류의 고객이 신용등급이 높을까?• 어떤 구매자가 반품할 확률이 높을까?• 새로 관찰한 식물은 어느 종에 속할까? 디시전 트리 분석- 데이터를 여러 그룹으로 분류하여 변수간 나타나는 의사결정규칙을 트리구조로 분류하는 방법 디시전 트리를 만드는 알고리즘- 엔트로피와 정보획득이론을 기반으로 하는 머신러닝 분야의 ID3, C4.5, C5.0 알고리즘- 통계학에 기반으로 둔 CART와 CHAID C5.0- 엔트로피(entropy)와 정보이득(information gain) 개념에 기반을 둠- 초기 목표변수의 데이터들이 혼재되어 있으면 무질서도, 엔트로피가 큼.- 입력변수들의 데이터들을 분류하는 과정에서 목표변수의 데이터가..
SVM: Support Vector Machine
·
AI Study/Machine Learning
서포트 벡터 머신 - 지도학습, 분류 및 회귀분석에 유용 - 어느 그룹에 속하는지 판단하는 이진 분류와 다중 분류에 응용 - 선형 또는 비선형 회귀문제에 응용 SVM은 클래스를 구분 짓는 거리의 마진(margin)을 최대로 하는 초평면(hyperplane)을 찾고 새로운 개체를 분류하는 방법. 라그랑주 승수법* 초평면을 구하기 위한 수학 비선형 문제차원을 늘리면 해결됨. 저차원 To 고차원 매핑함수 φ가 여러개임. Linear, Polynomial 등. 이런식으로 non-linear 문제가 linear problem으로 바뀜.But φ를 실제로 모든 point에 적용해서 변환하면 메모리와 시간이 엄청나게 들어감. So, 커널함수를 사용. 우리는 고차원으로 변환한 데이터가 필요한 게..
K-최근접 이웃: KNN, K-nearest neighbors
·
AI Study/Machine Learning
분류문제: 새로운 개체와 특성이 가장 가까운 K개의 유사 개체들을 추출하여 빈도가 높은 특정 클래스로 분류.회귀문제: 유사 개체들의 정량적인 목표 값을 이용하여 하나의 수치적 값을 예측. [활용 예]▪ 분류문제 - 새로 가입한 고객은 어떤 그룹에 속할까? - 새롭게 가입한 회원에게 어떤 영화를 추천할까? - 저 음악 어떤 장르로 분류할 수 있을까? ▪ 회귀문제 - 고객들의 소득을 파악하면 우리 백화점의 구매금액을 추정할 수 있을까? - 방의 수와 범죄율을 알면 주택 가격을 추정할 수 있을까? 목표 변수가 범주 변수인 경우: 새로운데이터와 가장 가까운 거리(유사도)에 있는 K개개체들의 다수 분류에 따라 분류.목표 변수가 양적 변수인 경우: 가장 인접한 K개의 목표 변수의 평균 값..
연관분석: Apriori Algorithm
·
AI Study/Machine Learning
연관분석: 대용량 데이터베이스에서 빈도가 높은 아이템 간 연관규칙을 발견하는 기법머신러닝의 비지도학습 평가지표: 지지도, 신뢰도, 리프트지지도 신뢰도 리프트 연관분석 절차* 최종적으로 2항목 이상의 빈발 항목 집합에 대한신뢰도와 리프트를 구하여 연관규칙을 발견한다. 지지도 40% 이상만 필터링 - Confidence 70% 이상만 필터링 - Lift 100% 이상만 필터링.(이때 값은 탐색적 데이터 분석 후 결정) 실습1단계: 패키지 임포트from mlxtend.frequent_patterns import apriori, association_rulesfrom mlxtend.preprocessing import TransactionEncoderimport pandas as pdimport matpl..
군집화, K-Means Clustering
·
AI Study/Machine Learning
K-Means 군집화개체들 간 거리가 가까운 것끼리 K개의 그룹을 만드는 군집화의 한 방법 군집 수는(K) 데이터의 분포에 따라 달라진다.K를 정하는 방법: 군집의 수에 따라 TWSS의 기울기가 급격히 작아지는 지점(elbow point)의 K로 채택. WSS: within-cluster sum of squares각 군집 내에서 개체들과 군집 중심 간 유클리디안 거리의 합TWSS: total WSS군집화 절차 [간단한 데이터로 실습] 라이브러리 임포트from sklearn.cluster import KMeansfrom sklearn.preprocessing import StandardScalerimport pandas as pdimport numpy as npimport matplotlib.pyplot ..
주성분 분석, PCA: Principal Component Analysis
·
AI Study/Machine Learning
PCA: Principal Component Analysis - 주성분 분석*특성 추출의 대표적인 기법.입력 변수들을 선형 변환하는 비지도학습 방법분산이 큰 주성분부터 차례로 선택서로 직교하는 주성분의 방향과 분산은 기존 변수의 공분산행렬에 대한 고유벡터와 고유값으로 나타남. Cov X = λ X기존 변수는 Cov를 구하고 나서 이후에는 사용이 안 됨.X: 고유벡터λ: 고유값 주성분 분석 절차 [간단한 예시로 실습]라이브러리 임포트from sklearn.decomposition import PCAfrom sklearn.preprocessing import StandardScalerimport matplotlib.pyplot as pltimport pandas as pdimport numpy as npim..