본문 바로가기
728x90
반응형
SMALL

Python/Data Analysis16

[파이썬, Python] folium 라이브러리 - 지도에 위치 표시하기! 1. folium leaflet.js 기반으로 만들어진 라이브러리 지도위에 데이터를 표현해주는 대표적인 파이썬 지도 시각화 라이브러리 foliunm문서(https://python-visualization.github.io/folium) Folium — Folium 0.14.0 documentation folium builds on the data wrangling strengths of the Python ecosystem and the mapping strengths of the leaflet.js library. Manipulate your data in Python, then visualize it in on a Leaflet map via folium. Concepts folium makes it.. 2023. 6. 13.
[파이썬, Python] 워드클라우드(WordCloud) - 핵심 단어 시각화 하기! 1. 워드 클라우드(Word Cloud) 핵심 단어를 시각화하는 기법 문서의 키워드, 개념 등을 직관적으로 파악할 수 있게 핵심 단어를 시각적으로 돋보이게 하는 기법 1-1. wordcloud 라이브러리 설치 및 임포트 !pip install wordcloud from wordcloud import WordCloud 📄 예제에 사용할 alice.txt # alice.txt 파일 읽어오기 text = open('/content/drive/MyDrive/KDT/Python/2. 데이터분석/alice.txt').read() text 1-2. generate() 단어별 출현 빈도수를 비율로 반환하는 객체를 생성 wordcloud = WordCloud().generate(text) wordcloud .. 2023. 6. 13.
[파이썬, Python] 형태소 분석 - KoNLPy 1. 자연어란 ❓ 일상에서 사용하는 언어 컴퓨터는 자연어를 직접적으로 이해할 수 없음 ➡ 컴퓨터가 자연어의 의미를 분석해 처리할 수 있도록 하는 일을 "자연어 처리(Natural Language Processing)" 2. 토크나이징 문장을 의미가 있는 가장 작은 단어들로 나움 나눠진 단어들을 이용해 의미를 분석 가장 기본이 되는 단어들을 '토큰'이라고 부름 문장 형태의 데이터를 처리하기 위해 제일 처음 수행해야 하는 기본적인 작업 토크나이징을 어떻게 하느냐에 따라 성능의 차이가 날 수 있음 3. 형태소 분석 자연어의 문장을 형태소라는 최소 단위로 분할하고 품사를 판별하는 작업 영어 형태소 분석은 형태소마다 띄어쓰기를 해서 문장을 구성하는 것이 기본(분석이 쉬운편) 아시아 계열의 언어분석은 복잡하고 많은.. 2023. 6. 13.
[파이썬, Python] Matplotlib - 시각화 라이브러리 1. Matplotlib 파이썬 기반 시각화 라이브러리 한글에 대한 지원이 완벽하지 않음 pandas와 연동이 용이함 공식 홈페이지 https://matplotlib.org Matplotlib — Visualization with Python seaborn seaborn is a high level interface for drawing statistical graphics with Matplotlib. It aims to make visualization a central part of exploring and understanding complex datasets. statistical data visualization Cartopy Cartopy is a Python package des matpl.. 2023. 6. 13.
[파이썬, Python] Pandas 모듈 - 🔟 원 핫 인코딩(One Hot Encoding) 1. 원 핫 인코딩(One Hot Encoding) 범주형 데이터를 처리하기 위한 인코딩 방법 더미변수를 생성 원 핫 인코딩은 한 개의 요소는 1, 나머지 요소는 0 으로 만들어 카테고리형을 표현하는 방법 예) df['혈액형_code']를 머신러닝/딥러닝 알고리즘에 넣어 데이터를 예측하려고 지시를 하면 컴퓨터는 값들간의 관계를 스스로 형성하게 됨 만약 B형은 1, O형은 2라는 값을 가지고 있을 때 컴퓨터는 'B형 + B형 = O형'이라는 이상한 관계를 맺을 수 있게 됨 별도의 column들을 형성해주고 1개의 column에는 1, 나머지는 0으로 넣어줌으로 'A, B, O, AB형의 관계는 서로 독립적이다'라는 카테고리로 표현해주는 방식을 사용 blood_map = {'A':0, 'B':1,'O':2,.. 2023. 6. 13.
[파이썬, Python] Pandas 모듈 - 9️⃣ 데이터프레임에서 특정 데이터타입을 가진 열(column) 가져오기 select_dtypes 1. select_dtypes 특정 데이터 타입을 가진 열(column)을 선택하는 메서드 df = pd.read_csv('http://bit.ly/ds-korean-idol') df.select_dtypes(include='object') #dtype이 문자열인 컬럼만 가져오기 df.select_dtypes(exclude='object') #dtype이 문자열인 컬럼만 빼고 컬럼을 가져오기 # 문자열을 가지고 있는 컬럼의 이름만 저장 str_cols = df.select_dtypes(include='object').columns str_cols >>> Index(['이름', '그룹', '소속사', '성별', '생년월일', '혈액형'], dtype='object') df[str_cols] # df.sel.. 2023. 6. 13.
[파이썬, Python] Pandas 모듈 - 8️⃣ 데이터프레임의 산술 연산 1. 데이터프레임의 산술 연산 df = pd.DataFrame({ '파이썬': [60, 40, 60, 58, 99], '데이터분석': [40, 60, 20, 80, 55], '머신러닝딥러닝':[90, 60, 30, 66, 100] }) df type(df['파이썬']) # Series >>> pandas.core.series.Series ✅ 각 과목별로 점수를 합하여 '총점'이라는 파생변수 만들기 df['총점'] = df['파이썬'] + df['데이터분석'] + df['머신러닝딥러닝'] df ✅ 과목의 평균 점수를 '평균'이라는 파생변수로 만들기 df['평균'] = df['총점'] / 3 df ✅ '파이썬' 열의 총합 구하기 df['파이썬'].sum() #df['파이썬'].sum(axis=0) >>> 3.. 2023. 6. 13.
[파이썬, Python] Pandas 모듈 - 7️⃣ 데이터프레임 함수 적용 하기 apply, map 1. apply Series나 DataFrame에 구체적인 로직을 적용하고 싶을 때 사용 apply를 적용하기 위해서는 별도의 함수가 먼저 정의되어야 함 먼저 작성된 함수를 apply에 매개변수로 전달함 df = pd.read_csv('/content/drive/MyDrive/KDT/Python/2. 데이터분석/korean-idol.csv') df # 성별이 남자는 1, 여자는 0으로 변환(loc 사용) df.loc[df['성별'] == '남자', '성별'] =1 df.loc[df['성별'] == '여자', '성별'] =0 df ✅ 위의 코드를 함수로 작성하여 apply를 통해 적용시켜보자. # df 되돌리기 df = pd.read_csv('http://bit.ly/ds-korean-idol.. 2023. 6. 13.
728x90
반응형
LIST