본문 바로가기

Upstage AI Lab 3기

NLP(Natural Language Processing)

1. 자연어 처리(NLP)란 무엇인가?

  • 자연어 처리(Natural Language Processing, NLP)는 인간의 언어를 컴퓨터가 이해하고 처리할 수 있게 하는 기술
  • NLP의 궁극적인 목표는 컴퓨터가 자연어를 인간처럼 이해하고 생산할 수 있게 하는 것

2. NLP가 어려운 이유

학습을 통해 자연어 처리는 매우 복잡하는 사실을 알게됨

  • 모호성(Ambiguity): 단어나 문장이 여러 의미로 해석될 수 있음
  • 문맥의 중요성: 동일한 단어가 문맥에 따라 다르게 해석될 수 있음
  • 구조적 차이: 각 언어는 고유한 문법, 어휘, 표현 방식을 가지고 있음
  • 데이터 부족: 특히 소수 언어의 경우, 대규모 데이터셋이 부족할 수 있음

3. 한국어 자연어 처리의 어려움

한국어는 영어와 달리 어순이 유연하고 교착어 특성 때문에 자연어 처리에 독특한 어려움이 있음을 다시금 알게됨

  • 교착어: 조사나 어미 변형이 자유로워 형태소 분석이 매우 중요
  • 어순: 영어와 달리 한국어는 주어-목적어-동사(SOV) 구조를 가지며, 어순이 유연해 문맥적 해석이 중요
  • 띄어쓰기: 한국어는 띄어쓰기 규칙이 엄격하지 않아 텍스트 전처리가 복잡함

4. 언어학과 전산언어학

언어학과 전산언어학에 대해 간단하게 배웠는데 위에 언급했던 것처럼 자연어처리가 복잡하다는게 이런 학문이 기본적으로 함양되어 있어야한다는게 컸었음

  • 언어학(Linguistics): NLP에서 언어의 문법 구조, 의미론, 구문론 등을 이해하는 데 필수적인 학문
  • 전산언어학(Computational Linguistics): 언어학적 이론을 바탕으로 컴퓨터 과학적 기술을 적용해 자연어를 처리하고 분석하는 학문

5. 텍스트 전처리

NLP에서 텍스트 데이터를 처리하기 전에 필수적인 단계 로 다음과 같은 과정이 포함됨

  • 토큰화(Tokenization): 텍스트를 단어 또는 문장 단위로 분리
  • 형태소 분석: 한국어에서 매우 중요한 단계로, 어근, 접사, 조사 등을 분석하여 기본 단위를 추출
  • 정규화(Normalization): 대소문자 변환, 불필요한 기호 제거 등을 통해 텍스트를 정리

6. Attention과 Transformer 기반 자연어 처리

최근 NLP 발전에서 가장 주목할 기술 중 하나는 Transformer로 이 모델은 Attention 메커니즘을 통해 문장의 모든 단어가 상호작용하여 문맥을 이해함

  • Attention Mechanism: 주어진 문장에서 중요한 단어에 더 많은 가중치를 부여하여 문맥을 이해
  • Transformer: RNN, LSTM과 같은 기존 순차적 모델을 대체하며, 병렬 처리가 가능하고 대규모 데이터에서 효율적으로 학습됨

NLP는 학습한 내용이 방대해서 위에 작성한 내용뿐만 아니라 모델등 작성해야하는 부분이 더 많이 있는데 이는 추후에 더 보충할 생각임. 

'Upstage AI Lab 3기' 카테고리의 다른 글

현직자 취업특강 회고  (2) 2024.11.07
Data-Centric AI  (0) 2024.09.30
Computer Vision Basic, Advanced, Generation  (0) 2024.08.20
Image Classification 경진대회 최종 4등  (0) 2024.08.12
Regression 경진대회 최종 2등  (0) 2024.07.22