본문 바로가기

Python/Pandas28

[Python] Series 데이터를 DataFrame, list로 만드는 법 to_frame(), to_list() -> to_frame()을 이용하면 DataFrame으로 된다. -> to_list()를 이용하면 list 타입으로 된다. 2023. 11. 19.
[Python] DataFrame 단어 개수가 N개 이상인 데이터 가져올 때 str.split() 방법 1 : 함수를 만든다. def aa(text): a = text.split() return len(a) df.loc[df["item_name"].apply(aa) >= 5] -> 함수를 정의하고 apply() 함수 사용 방법 2 : str.split() 함수 사용 df.loc[df["item_name"].str.split().str.len() >= 5] -> str.split() 으로 자른 후 str.len()로 사용 split()으로 자르면 list 타입으로 되기 때문에 len() 사용. 2023. 11. 19.
[Python] DataFrame 값이 ~로 시작하는 데이터 추출 방법 str.startswith() df.loc[df["item_name"].str.startswith('N')] -> str.startswith() 를 사용하면 된다. 2023. 11. 19.
[Python] DataFrame 불리언 인덱싱(Boolean indexing)연산자 "~" 사용법 Pandas에서 "~" 연산자는 불리언 인덱싱(Boolean indexing)에서 사용 된다. 이 연산자를 통해 특정 조건을 만족하지 않는 데이터를 선택할 수 있다. 예를 들어, DataFrame에서 특정 열(columns)에 대한 조건을 걸어 그 조건을 만족하지 않는 행(row)를 선택할 때 사용될 수 있다. ex) df[~df["choice_description"].str.contains("Vegetables", case=False)] -> 값이 True, False로 나올 때 True는 False로, False는 True 값으로 바꾸고 싶을 때 "~" 연산자를 사용한다. 2023. 11. 19.
[Python] DataFrame 주어진 값이 특정 컬럼에 포함돼 있는지 여부 확인하는 법 isin() reviews.loc[(reviews["points"] >= 95) & (reviews["country"].isin(["Australia","New Zealand"]))] -> isin() 함수 사용 -> 이 함수는 주어진 값이 특정 열(columns)에 포함 되어 있는지 확인하고, 불리언(Boolean) 값을 반환한다. 2023. 11. 19.
[Python] DataFrame 원하는 문자가 포함된 데이터 찾는 법 str.contains() ex) 데이터프레임 객체 reviews의 description 컬럼에서 "tropical"이 포함된 개수를 세어라. -> reviews["description"].str.contains("tropical", case=False).sum() -> str.contains() 이용, case = False 하면 대소문자 상관 없이 포함된 걸 가져온다. -> True, False로 가져오기 때문에 sum()을 하면 True(포함된) 개수가 나온다. 2023. 11. 18.
[Python] DataFrame 중간값 찾는 법 median() 중간값이란 -> 데이터를 크기 순서대로 정렬했을 때 중앙에 위치한 값으로, 데이터의 50%가 이 값보다 작거나 같고 나머지 50%가 이 값보다 크거나 같도록 정렬된 위치에 있다. 행의 개수가 홀수면 중앙에 위치한 값, 짝수면 두 데이터의 평균 값이 나온다. -> [컬럼].median() 함수를 쓰면 된다. 2023. 11. 18.
[Python] DataFrame 원하는 컬럼에서만 NaN 값 삭제하는 법 subset dropna() 함수의 () 안에 아무것도 안넣으면, NaN이 하나라도 있으면 그 행을 삭제시킨다. 원하는 컬럼에서만 NaN 값을 가진 행만 삭제하고 싶다면 -> dropna(subset=[해당컬럼명])을 하면 된다. 2023. 11. 18.
[Python] DataFrame csv파일 읽어온 데이터에 Unnamed가 있을 때 index_col 읽어온 데이터 좌측 상단에 Unnamed가 있을 때 = 원본 파일의 index 부분을 컬럼으로 넣어와서 생긴 오류 -> pd.read_csv(파일 경로 , index_col = 0)을 넣어준다 2023. 11. 18.
[Python] DateFrame 들을 합치는 방법 concat(), merge() 여러 데이터 프레임의 컬럼명이 같다면 하나의 데이터 프레임으로 합칠 수 있다. -> pd.concat([ 데이터 프레임 1 , 데이터 프레임 2, ... , ]) 공통되는 컬럼을 기준으로 합치는 방법 -> pd.merge(데이터 프레임 1, 데이터 프레임 2, on=공통 컬럼, how=left or right) on = 공통되는 컬럼명 how = 데이터 프레임 1과 데이터 프레임 2가 행의 개수가 다를 경우, 첫번째 인자에 오는 데이터프레임(left)과 두번째 인자에 오는 데이터프레임(right) 중 어떤 데이터프레임의 행 개수를 기준으로 할건지 ex) pd.merge(행 개수 10개, 행 개수 9개, on=공통 컬럼, how = left) -> how가 left기 때문에 행 개수 10개의 datafra.. 2023. 11. 18.