[파이썬, Python] Pandas 모듈 - 3️⃣ 데이터 찾기 isin(), 결측값 알아보기 isna(), 결측값 제거하기 dropna()

728x90

SMALL

이전 글에서 사용하던 csv 파일 예제로 데이터프레임을 다뤄보자.

[파이썬, Python] Pandas 모듈 - 1️⃣ 판다스 모듈이란?, DataFrame&Series, CSV파일 다루기, 엑셀파일 읽어

1. 판다스(Pandas) '웨스 맥키니'가 개발한 라이브러리 데이터 작업을 쉽고 직관적으로 설계된 빠르고 유연한 자료구조(데이터프레임)를 제공하는 모듈 1-1. 판다스 라이브러리 설치하기 !pip install p

coding-yesung.tistory.com

1. isin()

company =['플레디스', 'SM']
df[df['company'].isin(company)] # df에서 company열에 ['플레디스','SM']이 있는 데이터들을 뽑아옴

df['company'].isin(company)

df.loc[df['company'].isin(company)]

df.info()

df.isna()  # 결과가 True, False로 나옴

df.isnull()

df[df['group'].isna()]['name']  # group이 NaN인 사람의 데이터

# 결측값이 아닌지에 대한 여부 (데이터가 있는) 
df.notnull()

df[df['group'].notnull()]

# 그룹이 있는 연예인의 이름, 키, 혈액형을 loc를 사용하여 출력['name', 'height', 'blood']
df.loc[df['group'].notnull()][['name', 'height', 'blood']]

df['height']

# fillna(): 결측값을 채워주는 함수
df['height'].fillna(0)  # NaN인 값을 0으로 채움

df['height'].fillna(0, inplace=True)   # 자동저장 옵션, height가 NaN인 값을 0으로 채워서 저장함
df

# 망가진 데이터를 다시 재저장함 
df

df2 = df.copy()
df2

# 키 컬럼의 평균값으로 NaN채우기
height = df2['키'].mean()

df2['키'] = df['키'].fillna(height)
df2['키']

# 키 컬럼의 중앙값(50%에 해당하는 존재하는 값)으로 NaN채우기
height = df2['키'].median()

df2['키'] = df['키'].fillna(height)
df2['키']

# 결측값이 있는 행을 제거
# 결측값 한개라도 있는 경우 행을 제거
df.dropna()

df

# 결측값이 있는 열을 제거(거의 하지 않음!!)
df.dropna(axis=1)

728x90

LIST

[파이썬, Python] Pandas 모듈 - 5️⃣ 데이터프레임 집계함수, 그룹으로 묶기 groupby(), 중복값 제거하기 drop_duplicates() (0)	2023.06.12
[파이썬, Python] Pandas 모듈 - 4️⃣ 데이터프레임 복사하기, 행/열 추가 및 삭제하기 (0)	2023.06.12
[파이썬, Python] Pandas 모듈 - 2️⃣ 데이터프레임(DataFrame) 정보와 데이터프레임 다루기 (0)	2023.06.08
[파이썬, Python] Pandas 모듈 - 1️⃣ 판다스 모듈이란?, DataFrame&Series, CSV파일 다루기, 엑셀파일 읽어오기 (0)	2023.06.08
[파이썬, Python] Numpy 모듈 - 2️⃣ 행렬 연산자, arange, sort, 숫자 단일 연산 (0)	2023.06.08