Neaty Tech28 Scikit-learn의 기초 - 지도학습 데이터 split(학습, 검증용), 교차 검증 ★ 학습 및 검증용 데이터 구분하기 위한 데이터 샘플(사이킷런 라이브러리 포함 자료_당뇨) import pandas as pd from sklearn.datasets import load_diabetes dataset = load_diabetes() df = pd.DataFrame(data=dataset.data, columns=dataset.feature_names) df['target'] = dataset.target 1. 지도학습 데이터 split from sklearn.model_selection import train_test_split X_train, X_test, y_train, y_test = train_test_split(df.drop('target', axis=1), df['target.. 2023. 11. 22. Scikit-learn의 기초 - 데이터 전처리(레이블, 스케일링, 차원축소) ★ 사교육비 관련 5개년 데이터 출처(Kosis)를 이용하여 공부해보겠습니다. import pandas as pd df = pd.read_csv('https://raw.githubusercontent.com/NeatyNut/csv/main/%ED%95%99%EA%B5%90%EA%B8%89%EB%B3%84_%EC%82%AC%EA%B5%90%EC%9C%A1%EB%B9%84_%EC%B4%9D%EC%95%A1_20231122115229.csv', encoding='cp949') ★ 링크는 개인 깃허브이므로 연결이 안될 수도 있습니다 1. 레이블 데이터 전처리 ★ Why? "머신러닝 모델은 문자 데이터를 인식하지 못하기 때문" ★ ★ 문자 데이터를 가진 컬럼 뽑기 (pandas에선 'object'인 컬럼들을 뽑는.. 2023. 11. 22. Pandas의 기초 - 데이터 가공(정렬, 그룹핑) 1. 정렬(Index 또는 특정 col의 값 기준으로) 1) 인덱스 기준(sort_index()) data.sort_index(ascending=True) # 오름차순(ascending 생략가능) data.sort_index(ascending=False) # 내림차순 2) 특정 col의 값 기준(sort_values()) # "회사"컬럼만을 기준으로 정렬할때 data.sort_values("회사", ascending=True) # ascending은 생략가능 # "회사", "메뉴"순으로 정렬할때 data.sort_values(by=["가격","회사"], ascending=[True, False]) 2. 그룹별 집계(Groupby()) data.groupby("가격").count() #.count()는 s.. 2023. 11. 21. Pandas의 기초 - 데이터 가공(데이터프레임 복사 / 데이터 삭제, 결측치 다루기) ★ 복사의 두 종류 - 얕은 복사(shallow copy) ~ data = df [data가공 시 원본 데이터인 df까지 변경될 수 있다.] - 깊은 복사(deep copy) ~ data = df.copy() [서로 개별적으로 인식되어 가공하여도 df가 변경되지 않는다.] 1. 데이터 깊은 복사 : df.copy() # 결측치 존재하는 데이터 df = pd.read_csv("https://raw.githubusercontent.com/NeatyNut/csv/main/sample2_csv.csv") data = df.copy() 2. 데이터 삭제 : [행 삭제] df.drop(인덱스번호, axis=0) [컬럼 삭제] df.drop("컬럼명", axis=1) 1) 행 삭제 data = data.drop(5,.. 2023. 11. 21. 이전 1 2 3 4 5 6 7 다음