본문 바로가기

자연어처리2

자연어 처리(Natural Language Processing) 1. 자연어 처리 1.1) 종류 규칙 기반 처리 : 미리 정해놓은 규칙을 가지고 if, else를 수행해서 모델링 확률 기반 처리 자연어 이해 : 입력에 적합한 답변이나 0 또는 1을 출력 자연어 생성 : 이전 문장의 맥락을 파악해서 다음 단어나 문장을 생성 1.2) 실제 가장 많이 사용되는 모델 BERT(Bidirectional Encoder Representations from Transformer) - 자연어 이해(분류, 군집 등)에 주로 사용되는데 입력 문장의 좌우 문맥을 모두 고려해서 단어의 임베딩 벡터를 생성 Fine Tuning(미세 조정) 단계에서 해당 과제의 데이터로 추가 학습하여 성능을 개선 GPT(Generative Pre-trained Transformer) - 단방향 언어 모델로 .. 2023. 9. 22.
NLP(Natural Language Processing) 자연어 처리 1. 자연어 처리 1.1) NLP 1.2) 텍스트 분석의 기술 영역 텍스트 분류 : 텍스트를 보고 어떤 카테고리에 속하는지 분류 감성 분석 텍스트 요약 : 대표적인 기법이 토픽 모델링 텍스트 군집화와 유사도 측정 텍스트 전처리 ML 모델 수립 및 학습/예측/평가 : 초창기에는 일반 머신러닝 모델을 가지고 많이 작업을 했는데 최근에는 딥러닝의 RNN, Transformer 같은 생성 모델이나 미리 학습된 모델 등을 많이 이용 1.3) 자연어 처리를 위한 패키지 NLTK : 가장 많이 사용되던 자연어 처리 패키지 이나, 수행 속도가 느려 요즘같은 대량의 텍스트 기반 자연어 처리에는 부적합 Gensim : 토픽 모델링에서 많이 사용되는 패키지, Word2Vec 같은 알고리즘이 구현되어 있음. SpaCy Kon.. 2023. 9. 5.