본문 바로가기
Python/Pandas

[Python] DataFrame 카테고리컬 데이터 처리 함수 unique(), nunique(), count(), groupby()

by dong_su 2023. 11. 18.

# 중복된 데이터를 가지고 있는 컬럼들이 있다.

   ex) 성별,나이 와 같은 데이터를 카테고리컬 데이터라고 한다.

 

데이터

 

변수[컬럼].nunique()

-> 해당 컬럼 데이터 중 유니크한(중복이 아닌) 데이터의 개수

 

변수[컬럼].count()

-> 해당 컬럼 데이터의 전체 개수

 

변수[컬럼].unique()

-> 해당 컬럼 데이터 중 중복 제거한 데이터의 값 

 

변수[컬럼].value_counts()

-> 해당 컬럼 데이터 중 유니크한 데이터가 각각 몇개씩 있는지 알려준다.


# 카테고리컬 데이터들을 각 데이터별로 묶어서 처리하는 법

위와 동일한 데이터

변수.groupby()[].함수()

-> () 에는 구분/이용 할 컬럼, []에는 구할 컬럼이 들어간다. 

 

agg() 함수

-> 확실하진 않지만, 이용할 함수가 여러개인 경우 agg()를 쓰는 거 같다

인자에는 np(numpy).함수 , 리스트형식으로 해야 한다.