본문 바로가기

Python/Pandas28

[Python] DataFrame 오름차순, 내림차순 하는 법 sort_values(), ascending 오름차순 df[컬럼].sort_values() -> 해당 컬럼 데이터들을 오름차순 한게 나온다. sort_values(컬럼) -> 해당 컬럼을 기준으로 오름차순한 전체 데이터가 나온다. 내림차순 sort_values(ascending = False) -> 키워드 인자인 ascending에 False를 넣으면 내림차순이 된다. 2023. 11. 18.
[Python] DataFrame 데이터 엑세스 시 부등식 조합하는 방법 & , | -> 그리고 = & , ~이거나 = | 를 사용하고 양 옆 코드들을 () 로 묶어줘야 한다. 2023. 11. 18.
[Python] DataFrame 조건이 있을 때, 함수를 이용하는 법 apply() -> 함수를 쓸 때엔 apply()를 사용한다. 2023. 11. 18.
[Python] DataFrame 문자 갯수 세는 함수 str.len() df[컬럼].str.len() -> 해당 컬럼의 모든 데이터의 글자 개수가 나온다. 2023. 11. 18.
[Python] DataFrame 문자 값을 바꾸고 싶을 때 str.replace() ex) DataFrame인 변수 df의 city 컬럼의 데이터 값(문자열)을 바꾸고 싶다. -> df["city"].str.replace("기존 값" , "바꿀 값") 두개 이상일 땐, -> str.replace().str.replace() ... 로 하면 된다 2023. 11. 18.
[Python] DataFrame 문자열 데이터를 숫자 데이터로 바꾸는 법 pd.to_numeric() , astype() 방법 1 : pd.to_numeric() 함수 사용 -> pd.to_numeric(문자데이터) 방법 2 : astype() 함수 사용 -> 문자데이터.astype( int 또는 float ) 2023. 11. 18.
[Python] DataFrame 웹에 있는 데이터 이용하는 법 -> 그대로 출력하면 리스트 형식으로 나오기 때문에 Pandas의 2차원 데이터인 dataframe으로 만들어줘야 한다. -> 8번째 행과 같이 불필요한 데이터가 딸려올 경우, drop()을 이용해 지워준다. 2023. 11. 18.
[Python] DataFrame 카테고리컬 데이터 처리 함수 unique(), nunique(), count(), groupby() # 중복된 데이터를 가지고 있는 컬럼들이 있다. ex) 성별,나이 와 같은 데이터를 카테고리컬 데이터라고 한다. 변수[컬럼].nunique() -> 해당 컬럼 데이터 중 유니크한(중복이 아닌) 데이터의 개수 변수[컬럼].count() -> 해당 컬럼 데이터의 전체 개수 변수[컬럼].unique() -> 해당 컬럼 데이터 중 중복 제거한 데이터의 값 변수[컬럼].value_counts() -> 해당 컬럼 데이터 중 유니크한 데이터가 각각 몇개씩 있는지 알려준다. # 카테고리컬 데이터들을 각 데이터별로 묶어서 처리하는 법 변수.groupby()[].함수() -> () 에는 구분/이용 할 컬럼, []에는 구할 컬럼이 들어간다. -> 확실하진 않지만, 이용할 함수가 여러개인 경우 agg()를 쓰는 거 같다 인자.. 2023. 11. 18.
[Python] DataFrame 기본적인 통계 데이터들을 보여주는 함수들 describe(), head(), tail(), info(), mean(), min(), max() describe() -> 데이터프레임 전체에 하면 수치(숫자) 데이터만 보여준다. -> count = NaN이 아닌 데이터의 개수, mean = 평균값, std = 표준 편차, 25%, 50%, 75% = 각 퍼센트에 해당하는 값(백분위) head() -> 맨 위부터 5개(기본값) tail() -> 아래부터 5개(기본값) info() -> 컬럼 이름, 데이터가 non-null인 갯수, 데이터타입(Dtype) 정보 나온다. -> Pandas에서 Dtype(데이터타입) object == 문자열이란 뜻이다. mean() , min() , max() -> 평균값 , 최소값, 최대값 2023. 11. 18.
[Python] DataFrame csv파일에서 데이터 읽어오는 법 pd.read_csv() -> 변수 = pd.read_csv(파일 경로(문자열)) -> 데이터를 받아온 후엔 가장 먼저 shape과 NaN 개수를 확인한다. 2023. 11. 18.