[Prompt] 생성 AI와 자연어 처리


생성 AI와 자연어 처리의 관계

    생성 AI는 텍스트이미지코드 등을 생성하는 AI로서 사람의 언어를 입력으로 받아들여 이해하고 적절한 결과물 산출 핵심 역할을 하는 것이 바로 자연어 처리 기술


자연어 처리의 개념과 역할

    - 자연어 처리(NLP : Natural Language Processing)는 말 그대로 ‘자연어’(사람이 쓰는 언어)를 컴퓨터가 다룰 수 있도록 하는 기술

    - 특히 언어는 맥락(Context)에 따라 의미가 달라지고 구조가 유동적이므로 자연어 처리는 이런 복잡한 언어를 수학적 모델이나 알고리즘을 통해 기계적으로 처리하는 과정


자연어 처리 기술의 발전

1) 어텐션 메커니즘 (Attention)

    - 어텐션은 문장 내에서 중요한 단어에 ‘집중’해서 처리하는 방식

    - 문장의 각 단어간 얼마나 유사성이 있는지 평가하고 유사성이 있거나 중요한 단어에 우선순위를 설정

2) 트랜스포머 (Transformer)

    - 어텐션을 기반으로 한 트랜스포머 구조는 병렬 처리가 가능하고 긴 문맥도 잘 이해할 수 있으며,

    - 현재 거의 모든 대형 언어 모델(: GPT, BERT)의 핵심 기술



● 자연어의 분석 기법

    자연어는 무조건적으로 규칙적이지 않기 때문에 분석 기술은 프롬프트 설계나 텍스트 요약질의응답 반드시 필요한 기초

단계

설명

예시

토크나이징 (Tokenization)

문장을 단위(주로 단어)로 분리하는 과정

“AI는 똑똑하다” → [“AI”, “”, “똑똑하다”]

품사 분석 (POS Tagging)

각 단어의 문법적 역할(품사)을 식별

책을 읽었다” → /명사, /조사, 읽었다/동사

구문 분석 (Syntactic Parsing)

단어 간의 문장 구조 및 관계를 이해

예시) 주어·목적어 구조 파악 등

개체명 인식 (NER)

문장에서 고유 명사(사람, 장소, 조직 등)를 식별·분류

엘론 머스크는 테슬라 CEO.” → 엘론 머스크/사람, 테슬라/조직

 ※ GPT는 문장을 ‘단어’가 아니라 '토큰'이라는 단위로 나누어 처리

     (1 토큰은 보통 3~4글자 또는 짧은 단어)

 

대표적인 NLP 기법

1) N-그램(N-gram) : 단어를 연속적으로 묶어 문장 구조를 파악하는 통계적 방법


2) 워드 클라우드(Word Cloud): 문서 안에서 자주 등장하는 단어를 시각화하여, 중요한 키워드를 빠르게 파악

 


 

임베딩(Embedding)

    모델이 단어를 이해할 수 있도록 언어를 숫자로 바꾸고 수치적으로 계산하는 기법

 

1) 통계 기반 임베딩

단어의 등장 빈도나 위치 관계를 기반으로 수치화하는 가장 기초적인 임베딩 방식

기법

설명

장점

한계점

One-hot Encoding

단어를 고정 길이 벡터로 표현 (1개만 1, 나머지는 0)

단순하고 구현이 쉬움

의미 정보 없음벡터 차원 수 폭증

TDM (Term-Document Matrix)

문서별 단어의 등장 횟수를 행렬로 표현

TF-IDF 계산의 기반으로 활용 가능

희소 행렬로데이터 효율 낮음

TF-IDF

단어의 중요도를 빈도와 역문서빈도로 계산해 가중치 부여

불용어 제거의미 중심화 가능

문맥·순서 정보 부족

 

2) 단어 수준 임베딩

- 통계적 특징을 넘어서단어 간 의미 관계까지 벡터에 반영하는 기법

- 단어 간 유사도관계의미 연산이 가능해지는 시점

기법

설명

장점

한계점

Word2Vec

주변 단어를 이용해 중심 단어의 의미를 학습 (CBOW/Skip-gram)

의미 벡터 생성벡터 연산 가능

문장 수준 정보 반영 어려움

GloVe

전체 말뭉치에서 단어쌍 통계를 활용하여 전역적 의미를 반영한 벡터화

의미 반영에 강점학습 안정적

희귀 단어 처리에 다소 취약

 

3) 문장 수준 임베딩

전체 문장을 고정 길이의 실수 벡터로 변환해 문장의 의미나 맥락을 담아내는 기술

기법

설명

장점

한계점

Universal Sentence Encoder (USE)

구글 개발트랜스포머 기반 문장 임베딩 모델

문장 의미 보존 우수다양한 태스크에 활용 가능

다국어 대응은 다소 제한적

Sentence-BERT (SBERT)

BERT Siamese 구조 적용 → 문장 간 의미 유사도 계산에 최적화

의미 유사도 검색문장 분류군집화 등에 매우 우수

기본 BERT보다 느리지만 성능은 더 뛰어남

OpenAI Embeddings

GPT 계열 모델로 생성된 문장/문서 벡터

대규모 문맥 정보 포함검색·분류·추천에 뛰어난 성능

사전 학습 데이터 및 버전 의존성 있음