[Prompt] 생성 AI와 자연어 처리
● 생성 AI와 자연어 처리의 관계
생성 AI는 텍스트, 이미지, 코드 등을 생성하는 AI로서 사람의 언어를 입력으로 받아들여 이해하고 적절한
결과물 산출 핵심 역할을 하는 것이 바로 자연어 처리 기술
● 자연어 처리의 개념과 역할
- 자연어 처리(NLP : Natural Language
Processing)는 말 그대로 ‘자연어’(사람이
쓰는 언어)를 컴퓨터가 다룰 수 있도록 하는 기술
- 특히 언어는 맥락(Context)에 따라 의미가 달라지고 구조가 유동적이므로
자연어 처리는 이런 복잡한 언어를 수학적 모델이나 알고리즘을 통해 기계적으로 처리하는 과정
● 자연어 처리 기술의 발전
1) 어텐션 메커니즘 (Attention)
- 어텐션은 문장 내에서 중요한 단어에 ‘집중’해서 처리하는 방식
- 문장의 각 단어간 얼마나 유사성이 있는지 평가하고 유사성이 있거나 중요한 단어에
우선순위를 설정
2) 트랜스포머 (Transformer)
- 어텐션을 기반으로 한 트랜스포머 구조는 병렬 처리가 가능하고 긴 문맥도 잘 이해할 수 있으며,
- 현재 거의 모든 대형 언어 모델(예: GPT,
BERT)의 핵심 기술
● 자연어의 분석 기법
자연어는 무조건적으로 규칙적이지 않기
때문에 분석 기술은 프롬프트 설계나 텍스트 요약, 질의응답 반드시 필요한 기초
단계 |
설명 |
예시 |
토크나이징 (Tokenization) |
문장을 단위(주로 단어)로 분리하는
과정 |
“AI는 똑똑하다” → [“AI”, “는”,
“똑똑하다”] |
품사 분석 (POS Tagging) |
각 단어의 문법적 역할(품사)을
식별 |
“책을 읽었다” → 책/명사, 을/조사, 읽었다/동사 |
구문 분석 (Syntactic Parsing) |
단어 간의 문장 구조 및 관계를 이해 |
예시) 주어·목적어 구조 파악
등 |
개체명 인식 (NER) |
문장에서 고유 명사(사람, 장소, 조직 등)를 식별·분류 |
“엘론 머스크는 테슬라 CEO다.” → 엘론
머스크/사람, 테슬라/조직 |
● 대표적인 NLP 기법
1) N-그램(N-gram) : 단어를 연속적으로
묶어 문장 구조를 파악하는 통계적 방법
2) 워드 클라우드(Word Cloud): 문서
안에서 자주 등장하는 단어를 시각화하여, 중요한 키워드를 빠르게 파악
● 임베딩(Embedding)
모델이 단어를 이해할 수 있도록 언어를
숫자로 바꾸고 수치적으로 계산하는 기법
1) 통계 기반 임베딩
단어의 등장 빈도나 위치 관계를 기반으로 수치화하는 가장 기초적인 임베딩 방식
기법 |
설명 |
장점 |
한계점 |
One-hot Encoding |
단어를
고정 길이 벡터로 표현 (1개만 1, 나머지는 0) |
단순하고
구현이 쉬움 |
의미
정보 없음, 벡터 차원 수 폭증 |
TDM (Term-Document Matrix) |
문서별
단어의 등장 횟수를 행렬로 표현 |
TF-IDF 계산의 기반으로 활용 가능 |
희소
행렬로, 데이터 효율 낮음 |
TF-IDF |
단어의
중요도를 빈도와 역문서빈도로 계산해 가중치 부여 |
불용어
제거, 의미 중심화 가능 |
문맥·순서 정보 부족 |
2) 단어 수준 임베딩
- 통계적 특징을 넘어서, 단어 간
의미 관계까지 벡터에 반영하는 기법
- 단어 간 유사도, 관계, 의미 연산이 가능해지는 시점
기법 |
설명 |
장점 |
한계점 |
Word2Vec |
주변
단어를 이용해 중심 단어의 의미를 학습 (CBOW/Skip-gram) |
의미
벡터 생성, 벡터 연산 가능 |
문장
수준 정보 반영 어려움 |
GloVe |
전체
말뭉치에서 단어쌍 통계를 활용하여 전역적 의미를 반영한 벡터화 |
의미
반영에 강점, 학습 안정적 |
희귀
단어 처리에 다소 취약 |
3) 문장 수준 임베딩
전체 문장을 고정 길이의 실수 벡터로
변환해 문장의 의미나 맥락을 담아내는 기술
기법 |
설명 |
장점 |
한계점 |
Universal Sentence Encoder (USE) |
구글
개발, 트랜스포머 기반 문장 임베딩 모델 |
문장
의미 보존 우수, 다양한 태스크에 활용 가능 |
다국어
대응은 다소 제한적 |
Sentence-BERT (SBERT) |
BERT에 Siamese 구조 적용 → 문장
간 의미 유사도 계산에 최적화 |
의미
유사도 검색, 문장 분류, 군집화 등에
매우 우수 |
기본 BERT보다 느리지만 성능은 더 뛰어남 |
OpenAI Embeddings |
GPT 계열 모델로 생성된 문장/문서 벡터 |
대규모
문맥 정보 포함, 검색·분류·추천에 뛰어난 성능 |
사전
학습 데이터 및 버전 의존성 있음 |