본문 바로가기
728x90
반응형
SMALL

전체 글 보기262

[PyCharm] 파이참 라이브러리 설치하기! 1. 라이브러리 설치하기 1-1. 파이참 하단 'Terminal' 에서 명령어로 설치하기 1-2. Setting 에서 설치 파이참 상단 File ➡ Settings ➡ Project ➡ Python Interpreter ➡ '+' 클릭 설치하고자 하는 패키지명 검색 2023. 7. 20.
[PyCharm] 파이참 설치 및 프로젝트 가상 환경 사용하기! 1. 파이참 설치 더보기 https://www.jetbrains.com/ko-kr/pycharm/download/?section=windows PyCharm 다운로드: JetBrains가 만든 전문 개발자용 Python IDE www.jetbrains.com ✅ exe 파일 다운로드 후 Next 버튼을 통해 설치 2. 프로젝트 생성하기 파이참 상단 File ➡ New Project 프로젝트 생성할 경로 설정 및 파이썬 인터프리터 버전 확인/선택 파이썬 파일 생성하기 3. 파이참을 사용하는 이유 프로젝트에서 여러 파일을 효율적으로 관리할 수 있음 프로젝트마다 독립적인 개발 환경을 구축 3-1. 가상환경 사용 이유 다양한 라이브러리의 버전 설정 관리를 위해 예를들어 파이썬 3.10을 사용하고 있는데 pip로.. 2023. 7. 20.
[파이썬, Python] 자연어처리 - 유사도 측정 실습 ✅ 예시 문장 sen_1 = '오늘 점심에 배가 너무 고파서 밥을 너무 많이 먹었다.' sen_2 = '오늘 점심에 배가 고파서 밥을 많이 먹었다.' sen_3 = '오늘 배가 너무 고파서 점심에 밥을 너무 많이 먹었다.' sen_4 = '오늘 점심에 배가 고파서 비행기를 많이 먹었다.' sen_5 = '어제 저녁에 밥을 너무 많이 먹었더니 배가 부르다.' sen_6 = '이따 오후 9시에 출발하는 비행기가 3시간 연착 되었다고 하네요.' sen_1, sen_2: 의미가 유사한 문장 간 유사도 계산(조사를 생략) sen_1, sen_3: 의미가 유사한 문장 간 유사도 계산(순서 변경) sen_2, sen_4: 문장 내 단어를 임의의 단어로 치환한 문장과 원본 문장간의 유사도 계산 sen_1, sen_5:.. 2023. 7. 7.
[파이썬, Python] 임베딩(Embedding) - 임베딩 이론 1. 자연어의 특성 자연어를 기계가 처리하도록 하기 위해서는 먼저 자연어를 기계가 이해할 수 있는 언어로 바꾸는 방법을 알아야 함 토큰화 작업의 결과인 단어 사전을 기계가 이해할 수 있는 언어로 표현하는 과정이고 단어 사전 내 단어 하나를 어떻게 표현할까의 문제로 볼 수 있음 1-1. 단어의 유사성과 모호성 대부분의 언어에서 단어의 의미는 유사성과 모호성을 가지고 있는데 단어는 겉으로 보이는 형태인 표제어안에 여러가지 의미를 담고 있음 대부분 사람은 주변 정보에 따라 숨겨진 의미를 파악하고 이해할 수 있으나 기계는 학습의 부재 또는 잘못된 데이터로 의미를 파악하지 못하는 경우가 있음 한 가지 형태의 단어에 여러 의미가 포함되어 생기는 중의성 문제는 자연어 처리에서 매우 중요함 동형어와 다의어 동형어(동음.. 2023. 7. 7.
[파이썬, Python] 자연어처리 - 데이터 전처리 실습하기! 1. 데이터 전처리 실습 # 뉴스 기사 크롤링 라이브러리 !pip install newspaper3k # 불러오기 import newspaper # 라이브러리 지원 언어들 보기 newspaper.languages() # 웹 기사의 내용, 제목, 작성자, 날짜 등과 같은 다양한 정보를 추출 from newspaper import Article ✅ 기사의 URL을 가져와 읽어들이기 URL = 'https://v.daum.net/v/20230623105401779' article = Article(URL, language='ko') ✅ 기사 다운로드하고 파싱하기 - 제목과 내용 article.download() article.parse() # 제목과 내용을 파싱하여 가져옴 print('title:', arti.. 2023. 7. 6.
[파이썬, Python] 자연어처리 - 자연어 데이터 전처리 이론 1. 코퍼스(Corpus) 사전적인 의미는 '말뭉치', '대량의 텍스트 데이터'를 말함 자연어처리 연구나 애플리케이션 활용을 염두에 두고 수집된 텍스트 데이터셋을 의미 2. 토큰화(Tokenization) 전처리 과정에는 토큰화, 정제, 정규화 작업 등이 있음 토큰화는 원시 데이터를 가져와서 유용한 데이터 문자열로 변환하는 간단한 프로세스 사이버 보안, NFT 생성에 사용되는 것으로 유명, 자연어 프로세스의 중요한 부분을 차지함 토큰의 단위는 자연어 내에서 의미를 가지는 최소 단위로 정의 단락과 문장을 보다 쉽게 의미를 할당할 수 있는 더 작은 단위로 분할하는데 사용 토큰화 작업은 주어진 코퍼스 내 자연어 문장들을 토큰이라 불리는 최소 단위로 나누는 작업 2-1. 토큰화 과정의 필요성 언어 모델의 자연어.. 2023. 7. 5.
[파이썬, Python] 자연어처리(Natural Language Processing) 개요, 허깅페이스 모델로 토큰화하기! 1. 자연어(Natural Language) 프로그래밍 언어와 같이 인공적으로 만든 기계 언어와 대비되는 단어로, 우리가 일상에서 주로 사용하는 언어 1-1. 자연어처리(Natural Language Processing, NLP) 컴퓨터가 한국어나 영어와 같은 인간의 자연어를 읽고 이해할 수 있도록 돕는 인공지능의 한 분야 자연어에서 의미 있는 정보를 추출하여 활용 기계가 자연어의 의미를 이해하게 함 기계가 사람의 언어로 소통할 수 있게함 1-2. 자연어처리의 활용 문서 분류, 스팸 처리와 같은 분류 문제부터 검색어 추천과 같은 추천 기능, 음성 인식, 질의 응답, 번역 등의 다양한 분야에서 사용되고 있음 반복 업무 자동화 검색 효율 향상 및 검색 엔진 최적화 대규모 문서 분석 및 정리 소셜 미디어 분석.. 2023. 7. 5.
[파이썬, Python] 딥러닝 - 3️⃣ 다중 분류 신경망 모델 구현하기! 📄 포켓몬 149종 분류 데이터셋 Train: https://www.kaggle.com/datasets/thedagger/pokemon-generation-one Validation: https://www.kaggle.com/datasets/hlrhegemony/pokemon-image-dataset (디렉토리 비교 후 Train 데이터에 있는 클래스만 전처리함) Complete Pokemon Image Dataset 2,500+ clean labeled images, all official art, for Generations 1 through 8. www.kaggle.com Pokemon Generation One Gotta train 'em all! www.kaggle.com 1. 포켓몬 149종 .. 2023. 7. 2.
728x90
반응형
LIST