[Python] DataFrame 기본적인 통계 데이터들을 보여주는 함수들 describe(), head(), tail(), info(), mean(), min(), max()
describe() -> 데이터프레임 전체에 하면 수치(숫자) 데이터만 보여준다. -> count = NaN이 아닌 데이터의 개수, mean = 평균값, std = 표준 편차, 25%, 50%, 75% = 각 퍼센트에 해당하는 값(백분위) head() -> 맨 위부터 5개(기본값) tail() -> 아래부터 5개(기본값) info() -> 컬럼 이름, 데이터가 non-null인 갯수, 데이터타입(Dtype) 정보 나온다. -> Pandas에서 Dtype(데이터타입) object == 문자열이란 뜻이다. mean() , min() , max() -> 평균값 , 최소값, 최대값
2023. 11. 18.
[Python] DataFrame 값이 NaN인 데이터 처리 방법 isna(), dropna(), fillna()
-> isna()은 NaN인 요소는 True, 아닌 요소는 False로 나온다 -> sum()은 더한다는 함수인데, True는 1, False는 0이기 때문에 True(NaN)인 개수를 알 수 있다. sum()을 한번 했을때는 각 컬럼의 NaN의 개수가 나오고, 한번 더 하면 모든 컬럼의 NaN의 개수를 알려준다. -> notna()는 isna()과는 반대로, NaN인 요소는 False, 아닌 요소는 True로 나온다. 방법 1 : 삭제(NaN이 있는 행) -> 변수.dropna() 방법 2 : 특정 값으로 채움 -> 변수.fillna(채울 값) 채우는 방법 중, 각 컬럼별 평균값, 최소값, 최대값으로 채우기 -> 평균 = mean(), 최소값 = min(), 최대값 = max()
2023. 11. 18.