# 중복된 데이터를 가지고 있는 컬럼들이 있다.
ex) 성별,나이 와 같은 데이터를 카테고리컬 데이터라고 한다.
변수[컬럼].nunique()
-> 해당 컬럼 데이터 중 유니크한(중복이 아닌) 데이터의 개수
변수[컬럼].count()
-> 해당 컬럼 데이터의 전체 개수
변수[컬럼].unique()
-> 해당 컬럼 데이터 중 중복 제거한 데이터의 값
변수[컬럼].value_counts()
-> 해당 컬럼 데이터 중 유니크한 데이터가 각각 몇개씩 있는지 알려준다.
# 카테고리컬 데이터들을 각 데이터별로 묶어서 처리하는 법
변수.groupby()[].함수()
-> () 에는 구분/이용 할 컬럼, []에는 구할 컬럼이 들어간다.
-> 확실하진 않지만, 이용할 함수가 여러개인 경우 agg()를 쓰는 거 같다
인자에는 np(numpy).함수 , 리스트형식으로 해야 한다.
'Python > Pandas' 카테고리의 다른 글
[Python] DataFrame 문자열 데이터를 숫자 데이터로 바꾸는 법 pd.to_numeric() , astype() (1) | 2023.11.18 |
---|---|
[Python] DataFrame 웹에 있는 데이터 이용하는 법 (1) | 2023.11.18 |
[Python] DataFrame 기본적인 통계 데이터들을 보여주는 함수들 describe(), head(), tail(), info(), mean(), min(), max() (1) | 2023.11.18 |
[Python] DataFrame csv파일에서 데이터 읽어오는 법 pd.read_csv() (1) | 2023.11.18 |
[Python] DataFrame 값이 NaN인 데이터 처리 방법 isna(), dropna(), fillna() (0) | 2023.11.18 |