[Python] DataFrame 카테고리컬 데이터 처리 함수 unique(), nunique(), count(), groupby()

# 중복된 데이터를 가지고 있는 컬럼들이 있다.

ex) 성별,나이 와 같은 데이터를 카테고리컬 데이터라고 한다.

변수[컬럼].nunique()

-> 해당 컬럼 데이터 중 유니크한(중복이 아닌) 데이터의 개수

변수[컬럼].count()

-> 해당 컬럼 데이터의 전체 개수

변수[컬럼].unique()

-> 해당 컬럼 데이터 중 중복 제거한 데이터의 값

변수[컬럼].value_counts()

-> 해당 컬럼 데이터 중 유니크한 데이터가 각각 몇개씩 있는지 알려준다.

# 카테고리컬 데이터들을 각 데이터별로 묶어서 처리하는 법

변수.groupby()[].함수()

-> () 에는 구분/이용 할 컬럼, []에는 구할 컬럼이 들어간다.

-> 확실하진 않지만, 이용할 함수가 여러개인 경우 agg()를 쓰는 거 같다

인자에는 np(numpy).함수 , 리스트형식으로 해야 한다.

저작자표시 (새창열림)

[Python] DataFrame 문자열 데이터를 숫자 데이터로 바꾸는 법 pd.to_numeric() , astype() (1)	2023.11.18
[Python] DataFrame 웹에 있는 데이터 이용하는 법 (1)	2023.11.18
[Python] DataFrame 기본적인 통계 데이터들을 보여주는 함수들 describe(), head(), tail(), info(), mean(), min(), max() (1)	2023.11.18
[Python] DataFrame csv파일에서 데이터 읽어오는 법 pd.read_csv() (1)	2023.11.18
[Python] DataFrame 값이 NaN인 데이터 처리 방법 isna(), dropna(), fillna() (0)	2023.11.18

코딩 기록