본문 바로가기
728x90
반응형
SMALL

전체 글 보기262

[파이썬, Python] Matplotlib - 시각화 라이브러리 1. Matplotlib 파이썬 기반 시각화 라이브러리 한글에 대한 지원이 완벽하지 않음 pandas와 연동이 용이함 공식 홈페이지 https://matplotlib.org Matplotlib — Visualization with Python seaborn seaborn is a high level interface for drawing statistical graphics with Matplotlib. It aims to make visualization a central part of exploring and understanding complex datasets. statistical data visualization Cartopy Cartopy is a Python package des matpl.. 2023. 6. 13.
[파이썬, Python] Pandas 모듈 - 🔟 원 핫 인코딩(One Hot Encoding) 1. 원 핫 인코딩(One Hot Encoding) 범주형 데이터를 처리하기 위한 인코딩 방법 더미변수를 생성 원 핫 인코딩은 한 개의 요소는 1, 나머지 요소는 0 으로 만들어 카테고리형을 표현하는 방법 예) df['혈액형_code']를 머신러닝/딥러닝 알고리즘에 넣어 데이터를 예측하려고 지시를 하면 컴퓨터는 값들간의 관계를 스스로 형성하게 됨 만약 B형은 1, O형은 2라는 값을 가지고 있을 때 컴퓨터는 'B형 + B형 = O형'이라는 이상한 관계를 맺을 수 있게 됨 별도의 column들을 형성해주고 1개의 column에는 1, 나머지는 0으로 넣어줌으로 'A, B, O, AB형의 관계는 서로 독립적이다'라는 카테고리로 표현해주는 방식을 사용 blood_map = {'A':0, 'B':1,'O':2,.. 2023. 6. 13.
[파이썬, Python] Pandas 모듈 - 9️⃣ 데이터프레임에서 특정 데이터타입을 가진 열(column) 가져오기 select_dtypes 1. select_dtypes 특정 데이터 타입을 가진 열(column)을 선택하는 메서드 df = pd.read_csv('http://bit.ly/ds-korean-idol') df.select_dtypes(include='object') #dtype이 문자열인 컬럼만 가져오기 df.select_dtypes(exclude='object') #dtype이 문자열인 컬럼만 빼고 컬럼을 가져오기 # 문자열을 가지고 있는 컬럼의 이름만 저장 str_cols = df.select_dtypes(include='object').columns str_cols >>> Index(['이름', '그룹', '소속사', '성별', '생년월일', '혈액형'], dtype='object') df[str_cols] # df.sel.. 2023. 6. 13.
[파이썬, Python] Pandas 모듈 - 8️⃣ 데이터프레임의 산술 연산 1. 데이터프레임의 산술 연산 df = pd.DataFrame({ '파이썬': [60, 40, 60, 58, 99], '데이터분석': [40, 60, 20, 80, 55], '머신러닝딥러닝':[90, 60, 30, 66, 100] }) df type(df['파이썬']) # Series >>> pandas.core.series.Series ✅ 각 과목별로 점수를 합하여 '총점'이라는 파생변수 만들기 df['총점'] = df['파이썬'] + df['데이터분석'] + df['머신러닝딥러닝'] df ✅ 과목의 평균 점수를 '평균'이라는 파생변수로 만들기 df['평균'] = df['총점'] / 3 df ✅ '파이썬' 열의 총합 구하기 df['파이썬'].sum() #df['파이썬'].sum(axis=0) >>> 3.. 2023. 6. 13.
[파이썬, Python] Pandas 모듈 - 7️⃣ 데이터프레임 함수 적용 하기 apply, map 1. apply Series나 DataFrame에 구체적인 로직을 적용하고 싶을 때 사용 apply를 적용하기 위해서는 별도의 함수가 먼저 정의되어야 함 먼저 작성된 함수를 apply에 매개변수로 전달함 df = pd.read_csv('/content/drive/MyDrive/KDT/Python/2. 데이터분석/korean-idol.csv') df # 성별이 남자는 1, 여자는 0으로 변환(loc 사용) df.loc[df['성별'] == '남자', '성별'] =1 df.loc[df['성별'] == '여자', '성별'] =0 df ✅ 위의 코드를 함수로 작성하여 apply를 통해 적용시켜보자. # df 되돌리기 df = pd.read_csv('http://bit.ly/ds-korean-idol.. 2023. 6. 13.
[파이썬, Python] Pandas 모듈 - 6️⃣ 데이터프레임 합치기, 등수 매기기 rank(), 날짜 타입(datetime) 1. 데이터프레임 합치기 df1 = pd.read_csv('http://bit.ly/ds-korean-idol') df2 = pd.read_csv('https://bit.ly/ds-korean-idol-2') # 데이터프레임 확인 df1 df2 df_copy = df1.copy() # 행 방향으로 합치기 위해 copy해줌, 다른 메모리 주소 1-1. concat() 데이터프레임을 합침 sort=False 옵션으로 순서가 기존 순서로 유지되도록 함 기본적으로 axis=0이 생략되어있음(행으로 더해짐) df_concat = pd.concat([df1, df_copy], sort=False) df_concat ✅reset_index(): index를 새롭게 재정의하여 적용, drop=True 옵션으로 기존 i.. 2023. 6. 12.
[파이썬, Python] Pandas 모듈 - 5️⃣ 데이터프레임 집계함수, 그룹으로 묶기 groupby(), 중복값 제거하기 drop_duplicates() 1. describe() 숫자형 데이터의 집계함수 결과를 데이터프레임 형태로 나타냄 df.describe() # sum():해당 열에 대한 모든 데이터를 더하여 반환 df['키'].sum() >>> 2445.3 # count(): 해당 데이터의 개수를 반환 df['이름'].count() >>> 16 df['키'].count() >>> 14 # count는 NaN을 포함하지 않고 계산 # mean(): 해당 열에 대한 평균값을 계산하여 반환 df['키'].mean() >>> 14 # max(): 해당 열에 대하여 최대값을 반환 df['키'].max() >>> 183.0 # min(): 해당 열에 대하여 최소값을 반환 df['키'].min() >>> 160.0 # var(): 분산, 데이터가 평균으로부터 얼.. 2023. 6. 12.
[파이썬, Python] Pandas 모듈 - 4️⃣ 데이터프레임 복사하기, 행/열 추가 및 삭제하기 1. 데이터프레임 복사하기 df = pd.read_csv('http://bit.ly/ds-korean-idol') df new_df = df # 같은 메모리 주소를 가리킴 new_df new_df['이름'] = '김사과' # new_df의 '이름' 컬럼이 모두 '김사과'로 바뀜! df # 🤯 똑같이 바뀜!, 같은 메모리 주소를 가리키고 있기 때문에 ✅ new_df와 df의 메모리주소를 알아보자. # 16진수 형태(hex)의 메모리 주소를 가리키는 id를 반환 print(hex(id(new_df))) print(hex(id(df))) >>> 0x7f2aa6861330 0x7f2aa6861330 copy_df = df.copy() # df를 카피하여 다른 메모리 주소를 가리키는 copy_df 변수에 저장 p.. 2023. 6. 12.
728x90
반응형
LIST