본문 바로가기

LG 헬로비전 DX DATA SCHOOL/Python21

자연어 처리(Natural Language Processing) 1. 자연어 처리 1.1) 종류 규칙 기반 처리 : 미리 정해놓은 규칙을 가지고 if, else를 수행해서 모델링 확률 기반 처리 자연어 이해 : 입력에 적합한 답변이나 0 또는 1을 출력 자연어 생성 : 이전 문장의 맥락을 파악해서 다음 단어나 문장을 생성 1.2) 실제 가장 많이 사용되는 모델 BERT(Bidirectional Encoder Representations from Transformer) - 자연어 이해(분류, 군집 등)에 주로 사용되는데 입력 문장의 좌우 문맥을 모두 고려해서 단어의 임베딩 벡터를 생성 Fine Tuning(미세 조정) 단계에서 해당 과제의 데이터로 추가 학습하여 성능을 개선 GPT(Generative Pre-trained Transformer) - 단방향 언어 모델로 .. 2023. 9. 22.
Tensorflow를 이용한 회귀 와 분류 2023-09-15 1.Keras의 Dense =>Dense: 완전 연결 층을 만들기 위한 클래스 =>생성할 때 파라미터 unit: 뉴런의 개수 - 많을 수록 학습을 잘함 activation: 활성화 함수 - sigmoid, softmax, tanh, relu 등 input_shape: 입력 데이터의 차원을 설정 2.선형 회귀 구현 =>하나 이상의 독립 변수들이 종속 변수에 미치는 영향을 추정하는 통계 기법 1)Keras의 모델 생성 방법 =>Sequential API: 순서대로 층을 쌓는 구조 =>Functional API: 함수에 대입하는 것 =>SubClassing: 기반 클래스로부터 상속을 받아서 사용 Inheritance -> Is A(기능 구형, 구체화, 구현) -> SubClassing(기능.. 2023. 9. 15.
TensorFlow **TensorFlow 1.개요 =>구글이 만든 딥 러닝에 초점을 맞춘 라이브러리 =>2015년 11월 오픈 소스로 전환했고 현재 가장 인기있는 딥 러닝 라이브러리 =>GPU를 지원하고 분산 컴퓨팅도 지원 =>일정의 JIT(Just-In-Time) 컴파일러를 사용해서 속도를 높이고 메모리 사용량을 줄여서 수행 사용하지 않는 노드를 가지치기를 해서 사용량을 최적화 =>Tensorflow를 이용해서 훈련 한 모델을 다른 환경에서 실행 할 수 있음 웹 브라우저 나 안드로이드에서 PC에서 훈련한 모델을 가져와서 사용이 가능 Tensorflow Lite 버전을 이용하면 안드로이드 기기 내에서도 훈련이 가능하지만 안드로이드 기기는 일반적으로 컴퓨팅 파워가 부족하기 때문에 대부분 훈련은 PC에서 수행하고 그 모델을 .. 2023. 9. 15.
Association_Analysis (연관 분석) 2023/0907 ** 연관 분석 1. word2vec 1.1) CBOW(Continuous Bag of Words) 여러 개의 단어를 나열한 뒤 이와 관련된 단어를 추정하는 문제 문자에서 나오는 n개의 단어 열로부터 다음 단어를 예측하는 것 the quick brown fox jumped over the lazy dog 이라는 문장을 훈련 the quick brown을 제시하면 fox를 추천하는 형태 1.2) Skip-Gram 특정한 단어로부터 문맥을 구성할 수 있는 단어를 예측하는 방식으로 window size라는 매개변수를 이용해서 단어를 예측 위의 문장에서 window size를 1로 설정 quick를 배치하면 the 와 brown을 가져옵니다. window size를 2로 늘리면 brown fo.. 2023. 9. 7.
NLP(Natural Language Processing) 자연어 처리 1. 자연어 처리 1.1) NLP 1.2) 텍스트 분석의 기술 영역 텍스트 분류 : 텍스트를 보고 어떤 카테고리에 속하는지 분류 감성 분석 텍스트 요약 : 대표적인 기법이 토픽 모델링 텍스트 군집화와 유사도 측정 텍스트 전처리 ML 모델 수립 및 학습/예측/평가 : 초창기에는 일반 머신러닝 모델을 가지고 많이 작업을 했는데 최근에는 딥러닝의 RNN, Transformer 같은 생성 모델이나 미리 학습된 모델 등을 많이 이용 1.3) 자연어 처리를 위한 패키지 NLTK : 가장 많이 사용되던 자연어 처리 패키지 이나, 수행 속도가 느려 요즘같은 대량의 텍스트 기반 자연어 처리에는 부적합 Gensim : 토픽 모델링에서 많이 사용되는 패키지, Word2Vec 같은 알고리즘이 구현되어 있음. SpaCy Kon.. 2023. 9. 5.
차원 축소 (DimensionalityReduction) 1. 차원 축소 1.1) 개요 Machine Learning 문제들은 많은 특성을 소유 특성이 많으면 훈련을 느리게 할 뿐 아니라 좋은 솔루션을 찾기가 어려워 짐 - 차원의 저주 1.2) 종류 피처 선택 : 특정 피처에 종속성이 강한 불필요한 피처는 제거하고 데이터의 특성을 잘 나타내는 주요 피처만 선택 피처 추출 : 기존의 피처들을 저차원의 중요 피처로 압축해서 추출 기존 피처가 압축된 것이기 때문에 기존의 피처와는 다른 값 더 함축적인 요약 특성으로 추출 1.3) 주의 차원 축소를 수행하면 일부 정보가 유실되기 때문에 훈련 속도는 빨라지지만 시스템의 성능이 조금 나빠 질 수 있으며 파이프라인이 복잡해짐 이미지나 텍스트에서 차원 축소를 통해 잠재적인 의미를 찾을 수 있음. 매우 많은 픽셀로 이루어진 이.. 2023. 9. 4.