본문 바로가기
728x90
반응형
SMALL

Python106

[파이썬, Python] 자연어처리 - 자연어 데이터 전처리 이론 1. 코퍼스(Corpus) 사전적인 의미는 '말뭉치', '대량의 텍스트 데이터'를 말함 자연어처리 연구나 애플리케이션 활용을 염두에 두고 수집된 텍스트 데이터셋을 의미 2. 토큰화(Tokenization) 전처리 과정에는 토큰화, 정제, 정규화 작업 등이 있음 토큰화는 원시 데이터를 가져와서 유용한 데이터 문자열로 변환하는 간단한 프로세스 사이버 보안, NFT 생성에 사용되는 것으로 유명, 자연어 프로세스의 중요한 부분을 차지함 토큰의 단위는 자연어 내에서 의미를 가지는 최소 단위로 정의 단락과 문장을 보다 쉽게 의미를 할당할 수 있는 더 작은 단위로 분할하는데 사용 토큰화 작업은 주어진 코퍼스 내 자연어 문장들을 토큰이라 불리는 최소 단위로 나누는 작업 2-1. 토큰화 과정의 필요성 언어 모델의 자연어.. 2023. 7. 5.
[파이썬, Python] 자연어처리(Natural Language Processing) 개요, 허깅페이스 모델로 토큰화하기! 1. 자연어(Natural Language) 프로그래밍 언어와 같이 인공적으로 만든 기계 언어와 대비되는 단어로, 우리가 일상에서 주로 사용하는 언어 1-1. 자연어처리(Natural Language Processing, NLP) 컴퓨터가 한국어나 영어와 같은 인간의 자연어를 읽고 이해할 수 있도록 돕는 인공지능의 한 분야 자연어에서 의미 있는 정보를 추출하여 활용 기계가 자연어의 의미를 이해하게 함 기계가 사람의 언어로 소통할 수 있게함 1-2. 자연어처리의 활용 문서 분류, 스팸 처리와 같은 분류 문제부터 검색어 추천과 같은 추천 기능, 음성 인식, 질의 응답, 번역 등의 다양한 분야에서 사용되고 있음 반복 업무 자동화 검색 효율 향상 및 검색 엔진 최적화 대규모 문서 분석 및 정리 소셜 미디어 분석.. 2023. 7. 5.
[파이썬, Python] 딥러닝 - 3️⃣ 다중 분류 신경망 모델 구현하기! 📄 포켓몬 149종 분류 데이터셋 Train: https://www.kaggle.com/datasets/thedagger/pokemon-generation-one Validation: https://www.kaggle.com/datasets/hlrhegemony/pokemon-image-dataset (디렉토리 비교 후 Train 데이터에 있는 클래스만 전처리함) Complete Pokemon Image Dataset 2,500+ clean labeled images, all official art, for Generations 1 through 8. www.kaggle.com Pokemon Generation One Gotta train 'em all! www.kaggle.com 1. 포켓몬 149종 .. 2023. 7. 2.
[파이썬, Python] 딥러닝 - 2️⃣ 전이학습(Transfer Learning), 이진분류 신경망 모델 구현하기! 📄예제에 사용할 데이터셋 https://www.kaggle.com/datasets/pmigdal/alien-vs-predator-images Alien vs. Predator images Small image classification - for transfer learning www.kaggle.com 📍 캐글에서 데이터셋 다운로드하여 사용하는법 캐글 로그인 ➡️ 본인 계정 클릭 ➡️ Your Porfile ➡️ Account ➡️ API 항목의 Create New Token ➡️ json 다운로드 1. 에일리언 vs 프레데터 데이터셋 import os # 캐글에서 데이터셋을 받을때 토큰값을 보내 접근 가능하게 함 os.environ['KAGGLE_USERNAME'] = '****' # username.. 2023. 7. 1.
[파이썬, Python] 딥러닝 - 1️⃣ CNN(Convolutional Neural Network 1. CNN(Convolutional Neural Network) 합성곱 인공 신경망 전통적인 뉴럴 네트워크에 컨볼루셔널 레이어를 붙인 형태 컨볼루셔널 레이어를 통해 입력 받은 이미지에 대한 특징(Featuer)을 추출하게 되고 추출한 특징을 기반으로 기존의 뉴럴 네트워크에 이용하여 분류 [CNN체험] https://adamharley.com/nn_vis/ An Interactive Node-Link Visualization of Convolutional Neural Networks An Interactive Node-Link Visualization of Convolutional Neural Networks Adam W. Harley Abstract Convolutional neural networks.. 2023. 7. 1.
[파이썬, Python] 활성화 함수(Activation Function) 종류에 대해 알아보자! 1. 비선형 활성화 함수(Activation Function) 인공 신경망(Artificial Neural Network) 모델에서 입력 신호의 가중합을 변환하여 출력 신호를 생성하는 함수 신경망의 성능을 향상시키기 위해 사용 선형으로 풀지 못하는 문제를 비선형으로 바꾸어 성능을 향상시킴(곡선으로 차원을 바꿈) 선형 함수는 입력값과 가중치를 곱한 결과를 그대로 출력하기 때문에 신경망에서 여러 개의 선형 활성화 함수를 사용한다면 최종 출력값은 입력값과 가중치의 선형 조합으로 표현되므로 이는 입력 데이터의 비선형 관계를 표현할 수 없음(선형함수를 여러개 곱해봐야 선형함수임) 신경망이 입력 데이터의 비선형 관계를 잘 학습할 수 있도록 하기 위해서 비선형 활성화 함수를 사용 1-1. 시그모이드(Sigmoid) .. 2023. 6. 29.
[파이썬, Python] 딥러닝(DeepLearning) - 퍼셉트론과 역전파 1. 퍼셉트론(Perceptron) 1-1. 생물학적 뉴런 인간의 뇌는 수십억 개의 뉴런을 가지고 있음 뉴런은 화학적, 전기적 신호를 처리하고 전달하는 연결된 뇌신경 세포 1-2. 인공 뉴런(Perceptron) 1943년에 워렌 맥컬록, 월터 피츠 단순화된 뇌세포 개념을 발표 신경 세포를 이진 출력을 가진 단순한 논리 게이트라고 설명 생물학적 뉴런의 모델에 기초한 수학적 기능으로, 각 뉴런이 입력을 받아 개별적으로 가중치를 곱하여 나온 합계를 비선형 함수를 전달하여 출력을 생성 1-3. 논리 회귀(단층 퍼셉트론)로 OR 문제 풀기 import torch import torch.nn as nn import torch.optim as optim X = torch.FloatTensor([[0, 0], [0,.. 2023. 6. 29.
[파이썬, Python] 데이터로더(DataLoader) - 배치 단위로 학습시키기! 📄사용할 예제 - sklearn의 손글시 데이터셋 [데이터셋 정보] https://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_digits.html sklearn.datasets.load_digits Examples using sklearn.datasets.load_digits: Recognizing hand-written digits Recognizing hand-written digits A demo of K-Means clustering on the handwritten digits data A demo of K-Means clustering... scikit-learn.org 1. 손글씨 인식 모델 만들기 import torch.. 2023. 6. 29.
728x90
반응형
LIST