본문 바로가기
728x90
반응형
SMALL

Python/Data Analysis16

[파이썬, Python] Pandas 모듈 - 6️⃣ 데이터프레임 합치기, 등수 매기기 rank(), 날짜 타입(datetime) 1. 데이터프레임 합치기 df1 = pd.read_csv('http://bit.ly/ds-korean-idol') df2 = pd.read_csv('https://bit.ly/ds-korean-idol-2') # 데이터프레임 확인 df1 df2 df_copy = df1.copy() # 행 방향으로 합치기 위해 copy해줌, 다른 메모리 주소 1-1. concat() 데이터프레임을 합침 sort=False 옵션으로 순서가 기존 순서로 유지되도록 함 기본적으로 axis=0이 생략되어있음(행으로 더해짐) df_concat = pd.concat([df1, df_copy], sort=False) df_concat ✅reset_index(): index를 새롭게 재정의하여 적용, drop=True 옵션으로 기존 i.. 2023. 6. 12.
[파이썬, Python] Pandas 모듈 - 5️⃣ 데이터프레임 집계함수, 그룹으로 묶기 groupby(), 중복값 제거하기 drop_duplicates() 1. describe() 숫자형 데이터의 집계함수 결과를 데이터프레임 형태로 나타냄 df.describe() # sum():해당 열에 대한 모든 데이터를 더하여 반환 df['키'].sum() >>> 2445.3 # count(): 해당 데이터의 개수를 반환 df['이름'].count() >>> 16 df['키'].count() >>> 14 # count는 NaN을 포함하지 않고 계산 # mean(): 해당 열에 대한 평균값을 계산하여 반환 df['키'].mean() >>> 14 # max(): 해당 열에 대하여 최대값을 반환 df['키'].max() >>> 183.0 # min(): 해당 열에 대하여 최소값을 반환 df['키'].min() >>> 160.0 # var(): 분산, 데이터가 평균으로부터 얼.. 2023. 6. 12.
[파이썬, Python] Pandas 모듈 - 4️⃣ 데이터프레임 복사하기, 행/열 추가 및 삭제하기 1. 데이터프레임 복사하기 df = pd.read_csv('http://bit.ly/ds-korean-idol') df new_df = df # 같은 메모리 주소를 가리킴 new_df new_df['이름'] = '김사과' # new_df의 '이름' 컬럼이 모두 '김사과'로 바뀜! df # 🤯 똑같이 바뀜!, 같은 메모리 주소를 가리키고 있기 때문에 ✅ new_df와 df의 메모리주소를 알아보자. # 16진수 형태(hex)의 메모리 주소를 가리키는 id를 반환 print(hex(id(new_df))) print(hex(id(df))) >>> 0x7f2aa6861330 0x7f2aa6861330 copy_df = df.copy() # df를 카피하여 다른 메모리 주소를 가리키는 copy_df 변수에 저장 p.. 2023. 6. 12.
[파이썬, Python] Pandas 모듈 - 3️⃣ 데이터 찾기 isin(), 결측값 알아보기 isna(), 결측값 제거하기 dropna() 이전 글에서 사용하던 csv 파일 예제로 데이터프레임을 다뤄보자. 더보기 https://coding-yesung.tistory.com/189 [파이썬, Python] Pandas 모듈 - 1️⃣ 판다스 모듈이란?, DataFrame&Series, CSV파일 다루기, 엑셀파일 읽어 1. 판다스(Pandas) '웨스 맥키니'가 개발한 라이브러리 데이터 작업을 쉽고 직관적으로 설계된 빠르고 유연한 자료구조(데이터프레임)를 제공하는 모듈 1-1. 판다스 라이브러리 설치하기 !pip install p coding-yesung.tistory.com 1. isin() 정의한 list에 있는 데이터를 색인하려는 경우 사용하는 함수 주어진 시리즈(Series)나 데이터프레임(DataFrame) 객체에서 각 요소가 주어진.. 2023. 6. 9.
[파이썬, Python] Pandas 모듈 - 2️⃣ 데이터프레임(DataFrame) 정보와 데이터프레임 다루기 이전 글에서 사용하던 csv 파일 예제로 데이터프레임을 다뤄보자. 더보기 https://coding-yesung.tistory.com/189 [Python] Pandas 모듈 - 1️⃣ 판다스 모듈이란?, DataFrame&Series, CSV파일 다루기, 엑셀파일 읽어오기 1. 판다스(Pandas) '웨스 맥키니'가 개발한 라이브러리 데이터 작업을 쉽고 직관적으로 설계된 빠르고 유연한 자료구조(데이터프레임)를 제공하는 모듈 1-1. 판다스 라이브러리 설치하기 !pip install p coding-yesung.tistory.com 1. 데이터프레임 기본 정보 알아보기 df = pd.read_csv('/content/drive/MyDrive/KDT/Python/2. 데이터분석/korean-i.. 2023. 6. 8.
[파이썬, Python] Pandas 모듈 - 1️⃣ 판다스 모듈이란?, DataFrame&Series, CSV파일 다루기, 엑셀파일 읽어오기 1. 판다스(Pandas) '웨스 맥키니'가 개발한 라이브러리 데이터 작업을 쉽고 직관적으로 설계된 빠르고 유연한 자료구조(데이터프레임)를 제공하는 모듈 1-1. 판다스 라이브러리 설치하기 !pip install pandas # 설치 import pandas as pd # 임포트 1-2. Series와 DataFrame 2차원 표 데이터를 데이터프레임이라고 한다면, 1차원 표 데이터는 시리즈임 표의 데이터 부분을 values라고 부름 표의 행 이름을 index라고 부름 표의 열 이름을 columns라고 부름 시리즈는 values와 index로 이루어져 있고, 데이터프레임은 values, index, columns로 이루어져 있음 데이터프레임과 시리즈의 values는 넘파이의 ndarray 기반 ✅ Dat.. 2023. 6. 8.
[파이썬, Python] Numpy 모듈 - 2️⃣ 행렬 연산자, arange, sort, 숫자 단일 연산 1. 행렬 연산자 덧셈, 뺄셈, 곱셈, 나눗셈은 shape가 같아야 함(행렬의 크기가 같아야함) 같은 position끼리 연산됨 - 인덱스 번호가 같은 데이터 끼리 연산이 됨 내적 연산(dot product) 맞닿는 shape가 같아야 함 내적은 떨어져 있는 shape가 결과 행렬이 됨 a = np.array([[1,2,3], [2,3,4] ]) b = np.array([[3,4,5], [1,2,3] ]) print(a.shape) print(b.shape) >>> (2, 3) (2, 3) # 덧셈 연산 a + b >>> array([[4, 6, 8], [3, 5, 7]]) # 뺄셈 연산 a - b >>> array([[-2, -2, -2], [ 1, 1, 1]]) # 곱셈 연산 a * b >>> arr.. 2023. 6. 8.
[파이썬, Python] Numpy 모듈 - 1️⃣ 넘파이 모듈, ndarray 다루기(인덱싱, 슬라이싱) 1. 넘파이(Numpy) 수학, 과학 계산용 패키지 성능 : 파이썬의 리스트보다 빠름 메모리 사이즈: 파이썬의 리스트보다 적은 메모리를 사용 빌트인 함수: 선형대수, 통계관련 여러 함수들을 내장 1-1. Numpy 설치하기 !pip install numpy 1-2. Numpy import하기 import numpy import numpy as np # 별칭 사용 1-3. 설치 디렉토리 확인하기 설치되어있는 위치 코랩에서 깔았기 때문에 현재는 마음대로 지울 수 없지만 자기 컴퓨터에서 라이브러리, 모듈을 설치 후 삭제해야할 경우가 있기 때문에 디렉토리를 확인해야함 numpy >>> 2. ndarray(n dimension array) 다차원 배열 ndarray는 생성될 때 크기가 결정 데이터를 메모리 내에서.. 2023. 5. 18.
728x90
반응형
LIST