본문 바로가기

분류 전체보기277

[Python] DataFrame 데이터 엑세스 시 부등식 조합하는 방법 & , | -> 그리고 = & , ~이거나 = | 를 사용하고 양 옆 코드들을 () 로 묶어줘야 한다. 2023. 11. 18.
[Python] DataFrame 조건이 있을 때, 함수를 이용하는 법 apply() -> 함수를 쓸 때엔 apply()를 사용한다. 2023. 11. 18.
[Python] DataFrame 문자 갯수 세는 함수 str.len() df[컬럼].str.len() -> 해당 컬럼의 모든 데이터의 글자 개수가 나온다. 2023. 11. 18.
[Python] DataFrame 문자 값을 바꾸고 싶을 때 str.replace() ex) DataFrame인 변수 df의 city 컬럼의 데이터 값(문자열)을 바꾸고 싶다. -> df["city"].str.replace("기존 값" , "바꿀 값") 두개 이상일 땐, -> str.replace().str.replace() ... 로 하면 된다 2023. 11. 18.
[Python] DataFrame 문자열 데이터를 숫자 데이터로 바꾸는 법 pd.to_numeric() , astype() 방법 1 : pd.to_numeric() 함수 사용 -> pd.to_numeric(문자데이터) 방법 2 : astype() 함수 사용 -> 문자데이터.astype( int 또는 float ) 2023. 11. 18.
[Python] DataFrame 웹에 있는 데이터 이용하는 법 -> 그대로 출력하면 리스트 형식으로 나오기 때문에 Pandas의 2차원 데이터인 dataframe으로 만들어줘야 한다. -> 8번째 행과 같이 불필요한 데이터가 딸려올 경우, drop()을 이용해 지워준다. 2023. 11. 18.
[Python] DataFrame 카테고리컬 데이터 처리 함수 unique(), nunique(), count(), groupby() # 중복된 데이터를 가지고 있는 컬럼들이 있다. ex) 성별,나이 와 같은 데이터를 카테고리컬 데이터라고 한다. 변수[컬럼].nunique() -> 해당 컬럼 데이터 중 유니크한(중복이 아닌) 데이터의 개수 변수[컬럼].count() -> 해당 컬럼 데이터의 전체 개수 변수[컬럼].unique() -> 해당 컬럼 데이터 중 중복 제거한 데이터의 값 변수[컬럼].value_counts() -> 해당 컬럼 데이터 중 유니크한 데이터가 각각 몇개씩 있는지 알려준다. # 카테고리컬 데이터들을 각 데이터별로 묶어서 처리하는 법 변수.groupby()[].함수() -> () 에는 구분/이용 할 컬럼, []에는 구할 컬럼이 들어간다. -> 확실하진 않지만, 이용할 함수가 여러개인 경우 agg()를 쓰는 거 같다 인자.. 2023. 11. 18.
[Python] DataFrame 기본적인 통계 데이터들을 보여주는 함수들 describe(), head(), tail(), info(), mean(), min(), max() describe() -> 데이터프레임 전체에 하면 수치(숫자) 데이터만 보여준다. -> count = NaN이 아닌 데이터의 개수, mean = 평균값, std = 표준 편차, 25%, 50%, 75% = 각 퍼센트에 해당하는 값(백분위) head() -> 맨 위부터 5개(기본값) tail() -> 아래부터 5개(기본값) info() -> 컬럼 이름, 데이터가 non-null인 갯수, 데이터타입(Dtype) 정보 나온다. -> Pandas에서 Dtype(데이터타입) object == 문자열이란 뜻이다. mean() , min() , max() -> 평균값 , 최소값, 최대값 2023. 11. 18.
[Python] DataFrame csv파일에서 데이터 읽어오는 법 pd.read_csv() -> 변수 = pd.read_csv(파일 경로(문자열)) -> 데이터를 받아온 후엔 가장 먼저 shape과 NaN 개수를 확인한다. 2023. 11. 18.
[Python] DataFrame 값이 NaN인 데이터 처리 방법 isna(), dropna(), fillna() -> isna()은 NaN인 요소는 True, 아닌 요소는 False로 나온다 -> sum()은 더한다는 함수인데, True는 1, False는 0이기 때문에 True(NaN)인 개수를 알 수 있다. sum()을 한번 했을때는 각 컬럼의 NaN의 개수가 나오고, 한번 더 하면 모든 컬럼의 NaN의 개수를 알려준다. -> notna()는 isna()과는 반대로, NaN인 요소는 False, 아닌 요소는 True로 나온다. 방법 1 : 삭제(NaN이 있는 행) -> 변수.dropna() 방법 2 : 특정 값으로 채움 -> 변수.fillna(채울 값) 채우는 방법 중, 각 컬럼별 평균값, 최소값, 최대값으로 채우기 -> 평균 = mean(), 최소값 = min(), 최대값 = max() 2023. 11. 18.