본문 바로가기
728x90
반응형
SMALL
[파이썬, Python] 머신러닝 - 3️⃣ 로지스틱 회귀(Logistic Regression) 📄 예제에 사용한 파일 1. hr 데이터셋 살펴보기 import numpy as np import pandas as pd import seaborn as sns import matplotlib.pyplot as plt from google.colab import drive hr_df = pd.read_csv('/content/drive/MyDrive/KDT/Python/4.머신러닝 딥러닝/hr.csv') hr_df.head() ✅ 데이터셋 정보 알아보기 hr_df.info() ✅ 데이터셋의 수치형 데이터 정보 알아보기 hr_df.describe() ✅ 작년의 고과점수와 승진 확률에 대해 시각화하여 알아보기 sns.barplot(x='previous_year_rating', y='is_.. 2023. 6. 15.
[파이썬, Python] 머신러닝 - 2️⃣ 의사결정나무(Decision Tree) 📄 예제에 사용한 파일 1. bike 데이터셋 살펴보기 import numpy as np import pandas as pd import seaborn as sns import matplotlib.pyplot as plt bike_df = pd.read_csv('/content/drive/MyDrive/KDT/Python/4.머신러닝 딥러닝/bike.csv') bike_df bike_df.info() ✅ bike_df의 컬럼 정보 알아보기 ✅ 수치형 데이터의 정보 알아보기 bike_df.describe() ✅ bike_df의 대여개수(Count)의 데이터 수를 시각화하여 알아보기 sns.displot(x=bike_df['count']) 📍 대여수가 0 쪽으로 데이터가 몰려있음 ✅ bo.. 2023. 6. 14.
[파이썬, Python] 머신러닝 - 1️⃣ 선형 회귀(Linear Regression) 📄 예제로 사용할 파일 1. Rent 데이터셋 살펴보기 import numpy as np import pandas as pd import seaborn as sns rent_df = pd.read_csv('/content/drive/MyDrive/KDT/Python/4.머신러닝 딥러닝/rent.csv') rent_df rent_df.info() ✅ 각 컬럼에 대한 설명 ✅ 데이터셋의 수치형 데이터 정보 알아보기 rent_df.describe() ✅ float형 데이터를 반올림하여 보기 round(rent_df.describe(),2) # 소수점 둘째자리까지 표현하여 나타냄 ✅ 'BHK' 열의 데이터 별 개수를 시각화하여 알아보기 sns.displot(rent_df['BHK']) # B.. 2023. 6. 14.
[파이썬, Python] 머신러닝을 위한 데이터 전처리 연습하기! 1. 타이타닉 데이터셋 살펴보기 📄 타이타닉 데이터셋(csv) import numpy as np import pandas as pd df = pd.read_csv('https://bit.ly/fc-ml-titanic') df.head() ✅ 각 피쳐들의 뜻 알아보기 ✅ 데이터셋 정보 한눈에 보기 df.info() 2. 데이터 전처리 넓은 범위의 데이터 정제 작업을 뜻함 필요 없는 데이터를 삭제하고, 필요한 데이터만 취하는 것, null 값이 있는 행을 삭제하는 것, 정규화, 표준화 등의 많은 작업들을 포함하고 있음 머신러닝, 딥러닝 실무에서도 전처리가 50% 이상의 중요도를 차지함 2-1. 독립변수와 종속변수 나누기 # 독립변수: 성별, 가격, 나이, 좌석등급 # 종속변수: Survived(생존여부) f.. 2023. 6. 14.
[파이썬, Python] 머신러닝(Machine Learning)과 사이킷런(Scikit-learn) 모듈 1. 머신러닝 컴퓨터 시스템이 데이터를 기반으로 학습하고 패턴을 발견하여 작업을 자동화하는 분야 머신 러닝은 인공 지능(Artificial Intelligence)의 한 분야로서, 컴퓨터가 명시적인 프로그래밍 없이 데이터에서 학습하고 지식을 습득할 수 있는 능력을 갖게 하는 기술과 방법을 연구하고 개발 인공지능: 인공(Artificial) + 지능(Intelligence) 개발자에 의한 인공지능 & 데이터에 의한 인공지능 머신러닝: 데이터를 기반으로 한 학습(learning)하는 기계(machine) 딥러닝: 깊은(deep) 신경망 구조의 머신러닝 1-1. 머신러닝의 배경 과거 컴퓨터로 데이터를 읽어들이고, 데이터 안에서 특징을 학습하여 패턴을 찾아내는 작업 ➡ 패턴인식 데이터를 대량으로 수집 처리할 수.. 2023. 6. 14.
[파이썬, Python] folium 라이브러리 - 지도에 위치 표시하기! 1. folium leaflet.js 기반으로 만들어진 라이브러리 지도위에 데이터를 표현해주는 대표적인 파이썬 지도 시각화 라이브러리 foliunm문서(https://python-visualization.github.io/folium) Folium — Folium 0.14.0 documentation folium builds on the data wrangling strengths of the Python ecosystem and the mapping strengths of the leaflet.js library. Manipulate your data in Python, then visualize it in on a Leaflet map via folium. Concepts folium makes it.. 2023. 6. 13.
[파이썬, Python] 워드클라우드(WordCloud) - 핵심 단어 시각화 하기! 1. 워드 클라우드(Word Cloud) 핵심 단어를 시각화하는 기법 문서의 키워드, 개념 등을 직관적으로 파악할 수 있게 핵심 단어를 시각적으로 돋보이게 하는 기법 1-1. wordcloud 라이브러리 설치 및 임포트 !pip install wordcloud from wordcloud import WordCloud 📄 예제에 사용할 alice.txt # alice.txt 파일 읽어오기 text = open('/content/drive/MyDrive/KDT/Python/2. 데이터분석/alice.txt').read() text 1-2. generate() 단어별 출현 빈도수를 비율로 반환하는 객체를 생성 wordcloud = WordCloud().generate(text) wordcloud .. 2023. 6. 13.
[파이썬, Python] 형태소 분석 - KoNLPy 1. 자연어란 ❓ 일상에서 사용하는 언어 컴퓨터는 자연어를 직접적으로 이해할 수 없음 ➡ 컴퓨터가 자연어의 의미를 분석해 처리할 수 있도록 하는 일을 "자연어 처리(Natural Language Processing)" 2. 토크나이징 문장을 의미가 있는 가장 작은 단어들로 나움 나눠진 단어들을 이용해 의미를 분석 가장 기본이 되는 단어들을 '토큰'이라고 부름 문장 형태의 데이터를 처리하기 위해 제일 처음 수행해야 하는 기본적인 작업 토크나이징을 어떻게 하느냐에 따라 성능의 차이가 날 수 있음 3. 형태소 분석 자연어의 문장을 형태소라는 최소 단위로 분할하고 품사를 판별하는 작업 영어 형태소 분석은 형태소마다 띄어쓰기를 해서 문장을 구성하는 것이 기본(분석이 쉬운편) 아시아 계열의 언어분석은 복잡하고 많은.. 2023. 6. 13.
[파이썬, Python] Matplotlib - 시각화 라이브러리 1. Matplotlib 파이썬 기반 시각화 라이브러리 한글에 대한 지원이 완벽하지 않음 pandas와 연동이 용이함 공식 홈페이지 https://matplotlib.org Matplotlib — Visualization with Python seaborn seaborn is a high level interface for drawing statistical graphics with Matplotlib. It aims to make visualization a central part of exploring and understanding complex datasets. statistical data visualization Cartopy Cartopy is a Python package des matpl.. 2023. 6. 13.
[파이썬, Python] Pandas 모듈 - 🔟 원 핫 인코딩(One Hot Encoding) 1. 원 핫 인코딩(One Hot Encoding) 범주형 데이터를 처리하기 위한 인코딩 방법 더미변수를 생성 원 핫 인코딩은 한 개의 요소는 1, 나머지 요소는 0 으로 만들어 카테고리형을 표현하는 방법 예) df['혈액형_code']를 머신러닝/딥러닝 알고리즘에 넣어 데이터를 예측하려고 지시를 하면 컴퓨터는 값들간의 관계를 스스로 형성하게 됨 만약 B형은 1, O형은 2라는 값을 가지고 있을 때 컴퓨터는 'B형 + B형 = O형'이라는 이상한 관계를 맺을 수 있게 됨 별도의 column들을 형성해주고 1개의 column에는 1, 나머지는 0으로 넣어줌으로 'A, B, O, AB형의 관계는 서로 독립적이다'라는 카테고리로 표현해주는 방식을 사용 blood_map = {'A':0, 'B':1,'O':2,.. 2023. 6. 13.
[파이썬, Python] Pandas 모듈 - 9️⃣ 데이터프레임에서 특정 데이터타입을 가진 열(column) 가져오기 select_dtypes 1. select_dtypes 특정 데이터 타입을 가진 열(column)을 선택하는 메서드 df = pd.read_csv('http://bit.ly/ds-korean-idol') df.select_dtypes(include='object') #dtype이 문자열인 컬럼만 가져오기 df.select_dtypes(exclude='object') #dtype이 문자열인 컬럼만 빼고 컬럼을 가져오기 # 문자열을 가지고 있는 컬럼의 이름만 저장 str_cols = df.select_dtypes(include='object').columns str_cols >>> Index(['이름', '그룹', '소속사', '성별', '생년월일', '혈액형'], dtype='object') df[str_cols] # df.sel.. 2023. 6. 13.
[파이썬, Python] Pandas 모듈 - 8️⃣ 데이터프레임의 산술 연산 1. 데이터프레임의 산술 연산 df = pd.DataFrame({ '파이썬': [60, 40, 60, 58, 99], '데이터분석': [40, 60, 20, 80, 55], '머신러닝딥러닝':[90, 60, 30, 66, 100] }) df type(df['파이썬']) # Series >>> pandas.core.series.Series ✅ 각 과목별로 점수를 합하여 '총점'이라는 파생변수 만들기 df['총점'] = df['파이썬'] + df['데이터분석'] + df['머신러닝딥러닝'] df ✅ 과목의 평균 점수를 '평균'이라는 파생변수로 만들기 df['평균'] = df['총점'] / 3 df ✅ '파이썬' 열의 총합 구하기 df['파이썬'].sum() #df['파이썬'].sum(axis=0) >>> 3.. 2023. 6. 13.
728x90
반응형
LIST