본문 바로가기

Python/Pandas6

Pandas의 기초 - 데이터 가공(정렬, 그룹핑) 1. 정렬(Index 또는 특정 col의 값 기준으로) 1) 인덱스 기준(sort_index()) data.sort_index(ascending=True) # 오름차순(ascending 생략가능) data.sort_index(ascending=False) # 내림차순 2) 특정 col의 값 기준(sort_values()) # "회사"컬럼만을 기준으로 정렬할때 data.sort_values("회사", ascending=True) # ascending은 생략가능 # "회사", "메뉴"순으로 정렬할때 data.sort_values(by=["가격","회사"], ascending=[True, False]) 2. 그룹별 집계(Groupby()) data.groupby("가격").count() #.count()는 s.. 2023. 11. 21.
Pandas의 기초 - 데이터 가공(데이터프레임 복사 / 데이터 삭제, 결측치 다루기) ★ 복사의 두 종류 - 얕은 복사(shallow copy) ~ data = df [data가공 시 원본 데이터인 df까지 변경될 수 있다.] - 깊은 복사(deep copy) ~ data = df.copy() [서로 개별적으로 인식되어 가공하여도 df가 변경되지 않는다.] 1. 데이터 깊은 복사 : df.copy() # 결측치 존재하는 데이터 df = pd.read_csv("https://raw.githubusercontent.com/NeatyNut/csv/main/sample2_csv.csv") data = df.copy() 2. 데이터 삭제 : [행 삭제] df.drop(인덱스번호, axis=0) [컬럼 삭제] df.drop("컬럼명", axis=1) 1) 행 삭제 data = data.drop(5,.. 2023. 11. 21.
Pandas의 기초 - 데이터 선택 1. 특정 컬럼 조회 : df["컬럼"], df[["컬럼1", "컬럼2"]] df["메뉴"] # 1개(시리즈로 반환) df[["메뉴", "가격"]] # 2개 이상 시(데이터 프레임으로 반환) 2. 조건에 맞는 행 조회 : df[T/F로 이루어진 시리즈] cond1 = df["메뉴"] == "짜장면" # True, False 시리즈들을 반환 df[cond1] ★ 다중조건 조회 방법 - 조건 생성 condi_price = df["가격"] >= 7500 # 충족하는 것은 "짬뽕", "볶음밥" condi_name = df["메뉴"].isin(["짜장면", "짬뽕"]) # 충족하는 것은 "짜장면", "짬뽕" - And(True + False = False) 와 Or(True + False = True) 을 실행한.. 2023. 11. 20.
Pandas의 기초 - 데이터 확인 1. 위 아래 데이터 확인 df.head(1) # 위쪽에서 {1}번째 줄까지 보고 싶을 때(생략 시 5줄 까지) df.tail(1) # 아래쪽에서 {1}번째 줄까지 보고 싶을 때(생략 시 5줄 까지) 2. 컬럼 데이터 정보 확인 df.info() df.describe() # 컬럼별 기술 통계값(숫자형 데이터 컬럼만) 3. 행과 컬럼 개수 조회 df.shape # (행 개수, 열 개수) 반환 4. 컬럼의 값 조회(중복제거) df["메뉴"].unique() # 다수 컬럼 동시 진행 불가 2023. 11. 20.