[파이썬, Python] Pandas 모듈 - 🔟 원 핫 인코딩(One Hot Encoding)
1. 원 핫 인코딩(One Hot Encoding) 범주형 데이터를 처리하기 위한 인코딩 방법 더미변수를 생성 원 핫 인코딩은 한 개의 요소는 1, 나머지 요소는 0 으로 만들어 카테고리형을 표현하는 방법 예) df['혈액형_code']를 머신러닝/딥러닝 알고리즘에 넣어 데이터를 예측하려고 지시를 하면 컴퓨터는 값들간의 관계를 스스로 형성하게 됨 만약 B형은 1, O형은 2라는 값을 가지고 있을 때 컴퓨터는 'B형 + B형 = O형'이라는 이상한 관계를 맺을 수 있게 됨 별도의 column들을 형성해주고 1개의 column에는 1, 나머지는 0으로 넣어줌으로 'A, B, O, AB형의 관계는 서로 독립적이다'라는 카테고리로 표현해주는 방식을 사용 blood_map = {'A':0, 'B':1,'O':2,..
2023. 6. 13.
[파이썬, Python] Pandas 모듈 - 8️⃣ 데이터프레임의 산술 연산
1. 데이터프레임의 산술 연산 df = pd.DataFrame({ '파이썬': [60, 40, 60, 58, 99], '데이터분석': [40, 60, 20, 80, 55], '머신러닝딥러닝':[90, 60, 30, 66, 100] }) df type(df['파이썬']) # Series >>> pandas.core.series.Series ✅ 각 과목별로 점수를 합하여 '총점'이라는 파생변수 만들기 df['총점'] = df['파이썬'] + df['데이터분석'] + df['머신러닝딥러닝'] df ✅ 과목의 평균 점수를 '평균'이라는 파생변수로 만들기 df['평균'] = df['총점'] / 3 df ✅ '파이썬' 열의 총합 구하기 df['파이썬'].sum() #df['파이썬'].sum(axis=0) >>> 3..
2023. 6. 13.