Neaty Tech28 Scikit-learn의 기초 - 분류(의사결정나무, 랜덤포레스트, xgboost) 1. 의사결정나무(DecisionTreeClassifier)란? 보기의 예시의 모델은 value에 [37, 34, 41]이 들어 있는 것으로 보아, 3가지 범주를 가지고 있고 RootNode에서 첫 번째에 해당하는 범주와 나머지 범주를 완벽히 분리해낸 것으로 보인다. 그리고 제일 밑 LeafNode에서 두 번재, 세 번째에 해당하는 범주 또한 거의 완벽히 분리된 것으로 나온다. 즉, 의사결정나무는 주어진 데이터 x값을 활용하여 스무고개 하듯, 계속 질문하는 과정을 통해 값들을 분류해나간다.(불순도가 낮아지는 방향을 향해 움직인다) 2. sklearn의 유방암 데이터를 이용한 의사결정나무 예시 1) x_train, y_train 학습데이터 생성, x_test, y_test 검증데이터 생성 import pa.. 2023. 11. 23. 지도 학습의 종류 - 분류와 회귀 1. 지도학습 vs 비지도학습 지도학습과 비지도학습의 가장 큰 차이는 Y값 즉, 답이 주어지는가의 차이이다. 주어진 데이터에 의해 도출되는 Y값이 주어져 있기 때문 이를 통해 학습한다. 반면 비지도학습은 도출되는 Y값이 없기 때문에 주어진 데이터들의 공통된 특성들을 찾아 군집화 시킨다. 2. 지도학습 - 분류 vs 회귀 분류와 회귀의 가장 큰 차이는 Y값의 타입 즉, 분류는 레이블이고 회귀는 숫자인 것이다. 즉, 분류는 말그대로 Category가 Y값으로 주어지지만, 회귀는 어떠한 숫자 Y값으로 주어진다. 예를 들면 모레 우동집의 매출이 오를 것인가를 예측하고자 한다면, 분류모델은 "그렇다" 또는 "아니다"라 답하겠지만, 회귀모델은 예상되는 매출 수치로 답해준다. 이렇게 봤을 때 회귀모델이 더 뛰어난 모.. 2023. 11. 23. SQL의 기초 - 엑셀로 이해하기(집계함수, Groupby) 1. 집계함수(sum, average, count 등) 엑셀에서 ProductID가 1인 것의 개수가 궁금하다면 필터를 써서 개수를 세어본다. SQL도 마찬가지이다. 필터 즉, where절을 이용하면 된다. ProductID가 1인 데이터의 개수를 알아보자. SELECT Count(*) FROM OrderDetails where ProductID = 1; ★ 잠깐, *는 모두를 뜻한다고 했는데, 왜 38X4인 152개 아닌, 38개인가? 이는 SQL문은 일반적으로 각 컬럼 간의 연산이 중요치 않고 하나의 줄을 하나의 데이터로 인식하는 경향이 있는 듯하다.. 실제로, Count와 달리 SUM이나, AVERAGE처럼 각 칼럼별 수치가 달라질 때는 구체적인 컬럼명을 넣어주지 않으면 오류가 일어난다. ★ Syn.. 2023. 11. 22. SQL의 기초 - 엑셀로 이해하기(SELECT / WHERE / ORDERBY) SQL문 사용할 사이트 : MySQL Tryit Editor v1.0 (w3schools.com) MySQL Tryit Editor v1.0 WebSQL stores a Database locally, on the user's computer. Each user gets their own Database object. WebSQL is supported in Chrome, Safari, and Opera. If you use another browser you will still be able to use our Try SQL Editor, but a different version, usin www.w3schools.com 1. 테이블 보기 및 선택(select문) 1) select * from [TA.. 2023. 11. 22. 이전 1 2 3 4 5 6 7 다음