DWD

> 머신 러닝의 지도 학습 (kNN, 선형회귀, 로지스틱 회귀, 나이브 제이즈, 의사결정 나무. 서포트 벡터 머신)> 이 머신 러닝의 알고리즘을 합체시키는 것이 앙상블 학습이 있다. > 합체 방법은 여러가지 (voting (투표), bagging(구걸), boosting(가속), stacking(쌓다))> 하나의 모형을 분류기, 여러 분류기를 모아서 성능 좋은 분류기 생성> 그래도 개별 분류기의 성능이 accuracy 기준 50%는 넘겨야 함 (동전 던지는 것보다 나아야) 권장은 60% > 투표해서 결과 판단. #Voting 구분from sklearn.linear_model import LogisticRegression from sklearn import svmfrom sklearn.naive_bayes..

Machine Learning 입문 2024. 12. 28. 09:06

8. 지도 학습

> 가장 가까운 K개 봐서 판단하는 모델 > 왜 K 근접 이웃 알고리즘 맨 처음에 배우는 이유는 쉽기 때문 > 빨간 점이 세모인지 네모인지 모를 때 > 가장 가까운 게 세모니깐 세모다 > 그래서 개수를 늘려가면서 판단하는 개념 > 거리 개념을 알아야 어떤 게 더 가까이 있는지 알 수 있다. > 거리 개념은 여러 가지가 있다 (유클리디안, 맨해튼 거리 등등) > 유클리디안 거리가 가까워도 맨하튼 거리가 길 수 도 있다. > ex) 길이가 짧아도 도달하는 시간이 더 길 수 도 있다 > 빨간 점 기준 거리를 구한다 > K 개수 늘려가면서 다수결로 판단한다 > 몇 개 뽑을지는 사용자가 정한다 > 모든 데이터의 거리를 구해야 되게 거리 데이터를 RAM에다가 올려놓음 > 연산이 빠른 장점이 있고 데이터 용..

Machine Learning 입문 2024. 12. 26. 09:26

7. 최적화 & 모형 평가

최적화 > 선분은 시작과 끝 지점이 존재 (무한, 유한 차이) > 선분의 어느 점을 표현할 때 w로 표현 > 직선의 범위는 무한, 직선을 포함하는 집합도 무한 이 집합을 아핀 셋이라고 한다. > n차원으로 확장한 것을 아핀 조합이라고 한다 > 아핀 셋은 무한, 컨벡스 셋은 유한 > 컨벡스 셋은 선분을 포함한 유한 집합 > 회색 영역이 컨벡스 셋인가? 선분을 포함해야 함 (유한이어도) > 찾는 solution의 범위가 컨벡스 셋이 아니면 거의 못 찾음 > 이차 함수 예제로 들었던 이유는 이차 함수가 컨벡스 셋이기 때문이다. > 주어진 점들을 포함하는 컨벡스 셋을 의미 > w.T @ x 는 내적이고 내적 했을 때 스칼라 b를 갖는 벡터 x의 집합을 초평면이라고 한다. > 원, 세모를 빨간 선을 기준..

Machine Learning 입문 2024. 12. 26. 09:25

6. 확률 분포 & 가설 검정

> 생각보다 실상에서 정규 분포가 많지 않음> 잘못 알려진 사실) 데이터 크기가 커지면 정규 분포를 따른다 (모수만큼 해로운 말) > 중심극한정리 잘못 이해해서 하는 말임. (잊어버리라고 함)> 이런 분포들이 많다. (감마 분포)> 이런 분포들은 평균보단 중앙값을 얘기해야한다. > 확률 변수가 확률 분포를 갖고 확률 분포는 함수다 (식이 있다). > 이산형은 셀 수 있는, 연속 확률은 셀 수 없는 > P(X=x)는 P는 확률, X는 확률 변수, x는 상수, 확률 변수 X가 특정 값 x가 될 확률 > 이산형은 확률 질량 함수, 연속형은 확률 밀도 함수 > 책마다 표현 fx 가 다름. > 질량은 덩어리로 있고 밀도는 특정 점에는 없음 그래서 확률 밀도 함수에서 특정 값이 될 확률은 0이다.> 확률 밀..

Machine Learning 입문 2024. 12. 26. 09:23

5. 데이터 전처리 처리 및 시각화

df1 = pd.read_csv('./data/sales1.csv', encoding = 'cp949')df2 = pd.read_csv('./data/sales2.csv', encoding = 'cp949')df3 = pd.read_csv('./data/sales3.csv', encoding = 'cp949')#처음엔 data를 확인해야한다, unique 부터 확인해서 이상한 data가 있는지 확인# info 함수로 data 형태를 보기는 편하지마 나오는게 적다 df1['ORDERID'].unique()df2['PRODUCT_TYPE'].unique()df1['ORDERID'].nunique() #unique의 개수df1['GENDER'].value_counts() #value의 개수 df3.isnull..

Machine Learning 입문 2024. 12. 26. 09:08

4. 기초 통계 & 시각화

> 확률적으로 값이 변하는 수 > 경험적 확률은 데이터를 보고 확률을 판단> 확률 변수와 상수를 구별할 수 있어야 한다. (어렵다)> 24년 11월 27일 오후 3시 32분 아이유의 키 161.74cm는 확률 변수임> 왜냐하면 키를 100번 재면 100개의 키가 나온다. 정확한 키를 측정하는 것이 불가하다. > 확률 변수와 상수가 다른 것은 확률 변수는 분포를 갖는다. > 오메가는 확률 공간, 나올 수 있는 모든 가짓수 > pandas에서 확률 공간을 의미하는 함수는 df.unique() 임. > 대문자 평문은 확률 변수, 상수는 스칼라> 두 사건이 동시에 발생할 확률이 각각의 확률의 곱셈이 같으면 독립이다. > 다르면 독립이 아니라 종속이다. > X가 발생했을 때 Y가 발생할 확률 > 베이지..

Machine Learning 입문 2024. 12. 26. 09:07

3. 선형 대수

> 행렬에서 스칼라는 크기 만으로 나타낼 수 있는 행렬에서의 가장 작 물리량 > Index Location으로 스칼라 값을 가져올 수 있다. df = pd.read_csv(".\data\house_prices.csv", encoding ="cp949")print(df.iloc[2,4])print(df.iloc[2,3] + df.iloc[4,5]) > 벡터는 스칼라를 모아서 표현. > 크기와 방향이 같으면 모두 동일한 벡터 > 리스트는 벡터다 > 열/행 벡터 구분 가능하고 그냥 벡터면 기본적으로 열 벡터를 의미한다. > 벡터 덧셈, 뺄셈을 하기 위해서는 길이 즉 차원이 같아야 한다. > 벡터의 덧셈, 뺄셈은 기하학적으로 나타낼 수 있다. > 스칼라가 모여서 벡터, 벡터가 모여서 행렬이 된다. > 소문자..

Machine Learning 입문 2024. 12. 24. 14:23

« 2025/10 »
일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

티스토리툴바