[Prompt] 생성 AI와 자연어 처리

● 생성 AI와 자연어 처리의 관계

생성 AI는 텍스트, 이미지, 코드 등을 생성하는 AI로서 사람의 언어를 입력으로 받아들여 이해하고 적절한 결과물 산출 핵심 역할을 하는 것이 바로 자연어 처리 기술

● 자연어 처리의 개념과 역할

- 자연어 처리(NLP : Natural Language Processing)는 말 그대로 ‘자연어’(사람이 쓰는 언어)를 컴퓨터가 다룰 수 있도록 하는 기술

- 특히 언어는 맥락(Context)에 따라 의미가 달라지고 구조가 유동적이므로 자연어 처리는 이런 복잡한 언어를 수학적 모델이나 알고리즘을 통해 기계적으로 처리하는 과정

● 자연어 처리 기술의 발전

1) 어텐션 메커니즘 (Attention)

- 어텐션은 문장 내에서 중요한 단어에 ‘집중’해서 처리하는 방식

- 문장의 각 단어간 얼마나 유사성이 있는지 평가하고 유사성이 있거나 중요한 단어에 우선순위를 설정

2) 트랜스포머 (Transformer)

- 어텐션을 기반으로 한 트랜스포머 구조는 병렬 처리가 가능하고 긴 문맥도 잘 이해할 수 있으며,

- 현재 거의 모든 대형 언어 모델(예: GPT, BERT)의 핵심 기술

● 자연어의 분석 기법

자연어는 무조건적으로 규칙적이지 않기 때문에 분석 기술은 프롬프트 설계나 텍스트 요약, 질의응답 반드시 필요한 기초

단계	설명	예시
토크나이징 (Tokenization)	문장을 단위(주로 단어)로 분리하는 과정	“AI는 똑똑하다” → [“AI”, “는”, “똑똑하다”]
품사 분석 (POS Tagging)	각 단어의 문법적 역할(품사)을 식별	“책을 읽었다” → 책/명사, 을/조사, 읽었다/동사
구문 분석 (Syntactic Parsing)	단어 간의 문장 구조 및 관계를 이해	예시) 주어·목적어 구조 파악 등
개체명 인식 (NER)	문장에서 고유 명사(사람, 장소, 조직 등)를 식별·분류	“엘론 머스크는 테슬라 CEO다.” → 엘론 머스크/사람, 테슬라/조직

※ GPT는 문장을 ‘단어’가 아니라 '토큰'이라는 단위로 나누어 처리

(1 토큰은 보통 3~4글자 또는 짧은 단어)

● 대표적인 NLP 기법

1) N-그램(N-gram) : 단어를 연속적으로 묶어 문장 구조를 파악하는 통계적 방법

2) 워드 클라우드(Word Cloud): 문서 안에서 자주 등장하는 단어를 시각화하여, 중요한 키워드를 빠르게 파악

● 임베딩(Embedding)

모델이 단어를 이해할 수 있도록 언어를 숫자로 바꾸고 수치적으로 계산하는 기법

1) 통계 기반 임베딩

단어의 등장 빈도나 위치 관계를 기반으로 수치화하는 가장 기초적인 임베딩 방식

2) 단어 수준 임베딩

- 통계적 특징을 넘어서, 단어 간 의미 관계까지 벡터에 반영하는 기법

- 단어 간 유사도, 관계, 의미 연산이 가능해지는 시점

기법	설명	장점	한계점
Word2Vec	주변 단어를 이용해 중심 단어의 의미를 학습 (CBOW/Skip-gram)	의미 벡터 생성, 벡터 연산 가능	문장 수준 정보 반영 어려움
GloVe	전체 말뭉치에서 단어쌍 통계를 활용하여 전역적 의미를 반영한 벡터화	의미 반영에 강점, 학습 안정적	희귀 단어 처리에 다소 취약

3) 문장 수준 임베딩

전체 문장을 고정 길이의 실수 벡터로 변환해 문장의 의미나 맥락을 담아내는 기술

기법	설명	장점	한계점
Universal Sentence Encoder (USE)	구글 개발, 트랜스포머 기반 문장 임베딩 모델	문장 의미 보존 우수, 다양한 태스크에 활용 가능	다국어 대응은 다소 제한적
Sentence-BERT (SBERT)	BERT에 Siamese 구조 적용 → 문장 간 의미 유사도 계산에 최적화	의미 유사도 검색, 문장 분류, 군집화 등에 매우 우수	기본 BERT보다 느리지만 성능은 더 뛰어남
OpenAI Embeddings	GPT 계열 모델로 생성된 문장/문서 벡터	대규모 문맥 정보 포함, 검색·분류·추천에 뛰어난 성능	사전 학습 데이터 및 버전 의존성 있음

i-loom