🧠 Week 6 · LLM

LLM 블랙박스 열기 — AI가 어떻게 생각하는지 알아야 제대로 쓸 수 있다

📅 2026년 5월 6일 ⏱️ 30-40분 소요 🎯 중급

📅 이 자료는 2026년 5월 6일 기준으로 작성되었습니다. AI 모델은 수개월 단위로 새 버전이 출시되므로, 모델별 컨텍스트 창 크기·가격·성능 수치는 최신 공식 문서에서 재확인하세요. 원리와 선택 기준은 유효하지만, 구체적인 스펙은 달라질 수 있어요.

📋 목차

💡 쉬운 비유: 예언하는 자동완성
⚙️ 토큰화 (Tokenization) — AI의 언어 단위
🧠 학습과 추론 — 훈련은 한 번, 사용은 매번
👁️ VLM — 눈을 얻은 LLM
🎲 왜 환각(Hallucination)이 생기나?
🌡️ Temperature — 창의성과 정확성 사이
🏆 2026년 주요 모델 완전 비교
📏 Context Window — AI의 작업 기억
🔄 Week 1-5와의 연결: 이제 다시 보이는 것들
❓ 자주 하는 질문 (FAQ)
🎓 핵심 요약

💡 쉬운 비유: 예언하는 자동완성

Week 1부터 Week 5까지 AI 도구들을 열심히 써왔죠. 그런데 문득 이런 의문이 생기지 않았나요?

💭 "도대체 AI가 어떻게 이렇게 자연스럽게 글을 쓰는 걸까? 안을 들여다보면 뭐가 있을까?"

오늘은 그 블랙박스를 열어봅니다. 어려운 수식은 없어요. 비유로 시작합니다.

📱 스마트폰 자동완성을 떠올려보세요

카카오톡을 치다가 "오늘 날씨가 많이" 라고 입력하면 키보드 위에 뭐가 뜨죠? "춥네요", "더워요", "맑아요" 같은 추천 단어가 뜹니다. 이게 바로 자동완성이에요.

스마트폰 자동완성은 "지금까지 입력한 단어 다음에 올 가능성이 가장 높은 단어"를 예측하는 거예요. 수백만 명의 채팅 패턴을 학습해서요.

LLM(Large Language Model)은 이 자동완성을 엄청나게 고도화한 버전입니다.

  스마트폰 자동완성:   "오늘 날씨가 많이" → [춥네요] [더워요] [맑아요]
                                              확률 40%   35%     25%

  LLM (GPT·Claude):  "오늘 날씨가 많이 춥네요. 그래서" → 수천 가지 다음 단어 예측
                      ↑ 단어 하나가 아니라 문장, 단락, 에세이까지 연속으로 예측

핵심 비유는 이거예요:

🔮 LLM = 예언하는 자동완성
AI는 "정답을 아는" 것이 아니에요. "다음에 올 가장 그럴듯한 단어"를 확률로 계속 예측하면서 문장을 완성해나가는 거예요. 수조 개의 텍스트에서 패턴을 학습한 덕분에, 마치 "정답을 아는 것처럼" 보이는 거죠.

🤖 그래서 LLM이 "Large Language Model"인 이유

Language: 언어(텍스트)를 처리해요
Model: 패턴을 학습한 수학적 모델이에요
Large: 그 모델이 어마어마하게 크다는 뜻이에요 (수천억 개의 파라미터)

GPT, Claude, Gemini, Llama — 이름은 달라도 모두 같은 원리로 작동합니다. 예언하는 자동완성, 그것도 엄청나게 잘 하는 버전이요.

⚙️ 토큰화 (Tokenization) — AI의 언어 단위

AI는 글을 우리처럼 "단어" 단위로 읽지 않아요. "토큰(Token)"이라는 더 작은 단위로 쪼개서 처리해요.

🔤 토큰이 뭔가요?

토큰은 단어보다 작을 수도 있고, 여러 단어가 하나의 토큰이 될 수도 있어요. 모델마다 조금씩 다르지만, 일반적으로:

  영어 예시:
  "Hello, World!"  →  ["Hello", ",", " World", "!"]    ← 4 토큰
  "artificial"     →  ["art", "ific", "ial"]            ← 3 토큰 (쪼개질 수 있음)
  "AI"             →  ["AI"]                            ← 1 토큰

  한국어 예시 (영어보다 토큰 소비 多):
  "안녕하세요"     →  ["안", "녕", "하", "세", "요"]    ← 5 토큰 (약 4-5배 소비)
  "인공지능"       →  ["인공", "지능"]                  ← 2 토큰
  "학습"           →  ["학습"]                          ← 1 토큰

⚠️ 한국어 비용이 더 비싼 이유: 영어는 "intelligence" 같은 긴 단어도 2-3 토큰이지만, 한국어는 음절 단위로 쪼개져서 같은 내용을 표현하는 데 3-5배 더 많은 토큰이 필요해요. AI API 요금이 토큰 수 기준이라 한국어 문서를 다루면 비용이 더 나올 수 있어요.

📏 Context Window = AI의 단기 기억 한계

AI는 대화할 때 한 번에 처리할 수 있는 토큰 수에 한계가 있어요. 이것을 Context Window(컨텍스트 창)라고 해요.

  Context Window 쉽게 이해하기:

  사람 단기 기억  ┌──────────────────────────┐
  (7±2 청크)     │  지금 대화에서 기억하는 것  │
                 └──────────────────────────┘

  AI Context     ┌──────────────────────────────────────────────────────┐
  Window         │     이 창 안에 있는 것만 "기억"하고 참고해서 답해요   │
                 │   창 밖의 내용은 존재하지 않는 것과 같아요 (건망증)   │
                 └──────────────────────────────────────────────────────┘
                  ← 짧은 창: 32K 토큰 (약 25,000 단어) ─────────────────→
                  ← 긴 창: 1,000K 토큰 (약 750,000 단어, 책 2.5권 분량) →

창이 짧으면: 긴 대화에서 앞 내용을 잊어버려요 ("아까 뭐 말했더라?" 상태)
창이 길면: 설문 응답 전체, 긴 보고서, 여러 문서를 한 번에 분석할 수 있어요
창이 클수록 비용도 높아요: 처리해야 할 토큰이 많으니까요

✅ 리서치 실무 팁: 설문 응답 50건(약 10,000 단어)을 한 번에 분석하려면 최소 30K 이상 컨텍스트 창이 필요해요. 대용량 정성 분석 시엔 컨텍스트 창 크기를 꼭 확인하세요.

🧠 학습과 추론 — 훈련은 한 번, 사용은 매번

LLM이 어떻게 "그 모든 걸 아는지" 궁금하셨죠? 세 단계로 나눠서 이해해봐요. 조각상 만드는 과정으로 비유할게요.

🪨 1단계: Pre-training (기초 조각 깎기)

인터넷, 책, 논문, 뉴스 — 수조 개의 텍스트에서 "언어의 패턴"을 학습해요. AI가 "다음 단어 맞추기" 게임을 수백억 번 반복하면서 언어의 구조, 사실, 개념들을 파라미터(가중치)에 압축해서 저장하는 과정이에요.

  Pre-training:
  인터넷 텍스트 5TB+  →  "다음 단어 맞추기" 수백억 회  →  파라미터 1,000억 개에 저장

  마치: 거대한 대리석 덩어리를 망치로 깎아서 조각상 형태를 만드는 과정
  비용: 수천억 원, 수개월 걸림 (OpenAI, Anthropic, Google 같은 대형 기업만 가능)

✨ 2단계: Fine-tuning & RLHF (광택 내기)

Pre-training만 하면 AI가 인터넷 글처럼 "그냥 다음 단어를 이어 쓰기"만 해요. 우리가 원하는 건 질문에 답하고, 도움이 되고, 안전한 AI죠. 이걸 위해 두 가지 작업을 해요:

Fine-tuning: 사람이 작성한 "좋은 답변 예시" 수만 개로 추가 학습
RLHF (인간 피드백 강화학습): 사람이 AI 답변에 점수를 매기고, AI가 높은 점수를 받는 방향으로 스스로를 조정

  마치: 조각상 형태가 잡힌 후 세밀한 조각칼로 표정을 다듬고, 광택을 내는 과정
  결과: "어떻게 대화해야 사람에게 도움이 되는가"를 학습한 AI

🎭 3단계: Inference (전시 및 사용)

학습이 끝난 AI 모델은 더 이상 스스로 학습하지 않아요. 이미 완성된 조각상을 전시해서 관람객이 질문하면 답하는 것과 같아요.

우리가 ChatGPT나 Claude에 질문할 때마다 → Inference(추론)이 일어나요
AI가 "새로 학습"하는 게 아니라 → 기존 파라미터로 답을 생성해요
그래서 모델의 지식 컷오프(학습 마감 날짜) 이후 정보는 모를 수 있어요

🧠 핵심 정리: LLM은 학습(Pre-training → Fine-tuning)과 사용(Inference)이 완전히 분리돼 있어요. 우리가 AI와 대화할 때 AI는 새로 배우는 게 아니에요. 이미 학습된 패턴을 꺼내 쓰는 거죠.

👁️ VLM — 눈을 얻은 LLM

LLM은 텍스트만 이해해요. 그런데 요즘 AI에게 이미지를 던져줘도 척척 설명하는 걸 보셨죠? 이게 바로 VLM (Vision Language Model)이에요.

🖼️ LLM에서 VLM으로: 개념 확장

LLM이 텍스트를 토큰 단위로 처리하듯, VLM은 이미지를 작은 패치(조각)로 나눠 토큰처럼 처리해요. 이 이미지 토큰과 텍스트 토큰을 함께 섞어서 이해하는 게 VLM의 핵심이에요.

  LLM (텍스트만):
  "이 설문 응답을 요약해줘"  →  텍스트 토큰  →  LLM  →  텍스트 출력

  VLM (텍스트 + 이미지):
  "이 제품 사진을 보고      →  이미지 패치 토큰  ┐
   소비자 반응을 분석해줘"  →  텍스트 토큰      ┘→  VLM  →  텍스트 출력
                                 (함께 처리)

📷 이미지를 어떻게 "읽나"?

VLM은 이미지를 사람처럼 전체를 보는 게 아니에요. 224×224 픽셀 이미지를 예로 들면, 이를 16×16 픽셀짜리 196개 패치로 나누고, 각 패치를 숫자 벡터로 변환한 뒤 언어 토큰처럼 순서대로 처리해요. AI에게 이미지는 결국 "숫자의 나열"이에요.

🏷️ 대표 VLM 모델 (2026-05-06 기준)

모델	개발사	유형	비전 강점	리서치 활용
GPT-5.5	OpenAI	클로즈드	이미지·오디오·텍스트 통합 처리, 세밀한 시각 분석, 복잡한 차트·다이어그램 해석	광고물 분석, 제품 이미지 평가, 경쟁사 자료 스크린샷 분석
Claude Opus 4.7	Anthropic	클로즈드	긴 PDF 전체(이미지+텍스트 혼합) 분석, 표·차트 해석 우수, 200K 컨텍스트로 대용량 문서 처리	리서치 보고서 PDF 전체 분석, 도표가 포함된 발표자료 요약
Gemini 2.x	Google	클로즈드	동영상·오디오까지 처리 가능한 네이티브 멀티모달, 1M 컨텍스트로 긴 영상도 통째로 분석	영상 인터뷰 분석, 광고 영상 평가, 유튜브 콘텐츠 분석
Qwen2.5-VL	Alibaba	오픈소스	자체 서버 배포 가능, 문서·차트·영수증 등 구조화된 이미지 이해 강점, 다국어 이미지 텍스트(OCR) 우수	내부 서버에서 이미지 분석 시, 아시아권 문서 이미지 처리
Gemma 4	Google	오픈소스 경량	온디바이스 구동 가능한 VLM, 인터넷 없이 로컬에서 이미지 분석	오프라인 환경 이미지 포함 설문 분류, 초민감 데이터 로컬 처리

🎯 리서치 업무에서 VLM이 유용한 순간

설문 첨부 이미지 분석: 응답자가 제품 사진을 첨부한 개방형 설문 → AI가 이미지와 텍스트를 동시에 분석
광고물·패키지 디자인 평가: "이 광고에서 가장 눈에 띄는 요소가 뭔가요?" 질문에 AI가 이미지를 보며 답변
발표자료·보고서 PDF 요약: 차트·그래프가 포함된 PPT를 VLM에 넣으면 시각 데이터까지 해석
제품 리뷰 이미지 분석: 소비자가 올린 제품 사용 후기 이미지에서 감성·품질 신호 추출

👁️ LLM vs VLM 한 줄 정리:
LLM = 글을 읽고 쓰는 AI | VLM = 글과 이미지를 함께 보는 AI
주요 클로즈드 모델(GPT-5.5, Claude Opus 4.7, Gemini 2.x)은 모두 VLM이에요. "LLM을 쓴다"고 할 때 사실 VLM을 쓰고 있는 경우가 많아요.

🎲 왜 환각(Hallucination)이 생기나?

LLM을 쓰다 보면 한 번쯤 이런 경험 하셨죠: "AI가 자신있게 틀린 답을 말했어." 이걸 환각(Hallucination)이라고 해요.

🔮 근본 원인: AI에게 "모른다"는 개념이 없다

기억하세요 — LLM은 "다음에 올 그럴듯한 단어를 확률로 예측"하는 기계예요. 사람처럼 "이건 잘 모르겠는데요"라고 멈추는 기능이 기본적으로 없어요.

  사람이 모르는 질문을 받았을 때:
  "존재하지 않는 책 제목이 뭐야?" → "글쎄요, 잘 모르겠어요 🤷"

  LLM이 같은 상황에서:
  "존재하지 않는 책 제목이 뭐야?" → "아, 그 책은 '그림자의 언어'이고
                                       2018년 김철수 저자가 썼는데..."
                                       ← 완전히 자신 있게 지어냄!

AI는 항상 "그럴듯한 다음 단어"를 생성하도록 훈련됐어요. 모른다고 해도 "모른다고 말하는 것"이 그럴듯한 답변이 되도록 추가로 훈련(RLHF)하지 않으면, 그냥 지어냅니다.

🎯 환각이 자주 생기는 3가지 상황

학습 데이터에 없는 정보: 최신 뉴스, 내부 문서, 특수 데이터 → AI는 학습한 것만 알아요
정보 컷오프 이후 사실: 모델 훈련 날짜 이후 세상이 바뀐 것들
낮은 확률의 정확한 정보: 특정 사람의 생일, 특정 법 조항 번호 등 학습 데이터에 드물게 등장한 정보

✅ 환각을 줄이는 3가지 전략

전략	방법	연계 주차
RAG 연결	AI가 답하기 전에 믿을 수 있는 문서에서 관련 내용을 검색해서 context에 넣어줌	Week 2 RAG
구체적 지시	"모르면 모른다고 해줘", "출처를 꼭 명시해줘" 같은 명확한 System Prompt 설정	명확한 제약 조건 설정 (예: "모르면 모른다고 답해줘")
검증 요청	중요한 사실은 AI 출력을 그대로 쓰지 말고 원본 문서에서 확인	리서치 기본 원칙

⚠️ 리서치 업무 주의: 수치(%) , 날짜, 사람 이름, 법조항 번호는 AI 환각 위험이 특히 높아요. 보고서에 AI 출력을 그대로 넣기 전에 반드시 원본 소스로 검증하세요.

🔬 학습 방법이 환각에 미치는 영향

환각의 발생 빈도는 모델마다 다른데, 그 이유가 바로 "어떻게 훈련했느냐"에 있어요. 단순히 많은 데이터를 학습한다고 환각이 줄어드는 게 아니에요.

학습 방법	원리	환각에 미치는 영향
데이터 품질 큐레이션	학습 데이터에서 오류·편향·허위 정보를 필터링	잘못된 패턴 자체를 줄임 → 근본적 환각 감소
RLHF (인간 피드백 강화학습)	사람이 AI 답변에 점수를 매기고, "모른다고 말하는 것"도 좋은 답변임을 학습	"그럴듯하게 지어내기"보다 "정직하게 모른다고 하기"를 선호하도록 유도
Constitutional AI (Anthropic 방식)	AI가 스스로 원칙 목록에 따라 자신의 출력을 검증·수정하며 학습	출력 전 내부 검증 단계 → Claude의 낮은 환각률에 기여
DPO (Direct Preference Optimization)	RLHF보다 효율적인 선호도 학습 — 좋은 답변 vs 나쁜 답변을 직접 비교	더 적은 비용으로 RLHF 효과를 내어 최신 오픈소스 모델에서 많이 사용
모델 파라미터 규모	파라미터가 많을수록 더 많은 정보를 저장·구분 가능	규모가 크면 일반적으로 환각↓ — 하지만 대형 모델도 환각에서 자유롭지 않음
검색 통합 학습 (RETRO, RAG-native)	생성 전 검색을 수행하도록 모델 자체를 설계	모를 때 검색 → 지식 컷오프와 환각을 동시에 완화

💡 핵심 인사이트: 같은 크기의 모델이라도 어떻게 훈련했느냐에 따라 환각 빈도가 크게 달라져요. Claude가 특히 "모른다"고 솔직히 말하는 경향이 강한 건 Constitutional AI 덕분이에요. GPT가 다양한 응용 상황에서 유연한 건 방대한 RLHF 데이터 덕분이에요. 모델 선택 시 단순 성능 지표뿐 아니라 "어떤 학습 철학으로 만들어졌는가"도 고려하세요.

🌡️ Temperature — 창의성과 정확성 사이

같은 질문을 AI에게 열 번 했을 때 매번 다른 답이 나오는 거 느껴보셨나요? 이걸 조절하는 파라미터가 Temperature(온도)예요.

🎰 Temperature의 원리

AI가 다음 단어를 고를 때, 여러 후보 단어에 각각 확률이 붙어있어요. Temperature는 이 확률 분포를 얼마나 "평탄하게" 만들지를 결정해요.

  다음 단어 후보:   "맑다"(40%)  "춥다"(35%)  "흐리다"(20%)  "뜨겁다"(5%)

  Temperature = 0  (완전 결정론적):
  → 항상 "맑다"(확률 최고값) 선택. 예측 가능하지만 단조로움.

  Temperature = 0.5 (중간):
  → "맑다"나 "춥다" 위주로 선택, 가끔 "흐리다"도 등장.

  Temperature = 1.0 (기본값):
  → 확률대로 선택. 다양하고 자연스러운 글.

  Temperature = 1.5+ (높음):
  → "뜨겁다"처럼 낮은 확률 단어도 자주 선택. 창의적이지만 엉뚱할 수 있음.

📊 업무 유형별 권장 Temperature

업무 유형	권장 Temperature	이유
정성 응답 분류·코딩	0.0 ~ 0.2	같은 기준으로 일관되게 분류해야 함
문서 요약·번역	0.2 ~ 0.4	원문에 충실하되 자연스럽게
보고서 초안 작성	0.5 ~ 0.7	구조는 잡되 표현은 다양하게
브레인스토밍·아이디어	0.8 ~ 1.0	다양하고 예상 밖의 아이디어 원함
창작·카피라이팅	1.0 ~ 1.3	독창적이고 개성 있는 표현

✅ 실용 팁: 대부분의 AI 도구(ChatGPT, Claude)는 기본값이 약 0.7~1.0이에요. API를 직접 쓸 때는 업무에 맞게 조절해보세요. 정성 코딩처럼 일관성이 중요한 작업은 0.1~0.2로 낮추는 게 좋아요.

🏆 2026년 주요 모델 완전 비교

도구를 잘 쓰려면 어떤 도구가 있는지 알아야 해요. 2026년 현재 주요 LLM 6가지를 리서치 업무 관점으로 깊게 비교해볼게요.

① GPT-5.5 클로즈드★★★★★

개발사: OpenAI (미국) | 컨텍스트: 최대 256K 토큰

💪 강점

추론·코딩 능력 업계 최고 수준 — 복잡한 논리 분석에서 탁월
세계 최대 사용자 생태계 — 플러그인, 연동 도구, 커뮤니티 자료가 가장 풍부
Function Calling(구조화 출력)이 안정적 — 자동화 파이프라인에 연결하기 좋음
다국어 처리 수준이 높음 — 영어, 한국어, 일본어 등 전반적으로 우수

⚠️ 약점

비용이 가장 높음 — 대용량 처리 시 비용 계획 필수
학습 데이터 활용 이슈 — API 호출 데이터가 재학습에 사용될 수 있음 (기업 설정 확인 필요)
미국 서버 기반 — 데이터가 OpenAI 서버를 거침

🎯 리서치 업무 추천 사용

경쟁사 리포트 자동 요약 · 대용량 설문 정성 코딩 · 다국어 응답 분석 · 복잡한 Cross-tab 인사이트 도출

② Azure OpenAI 엔터프라이즈★★★★★

개발사: Microsoft (GPT-5.5 등 OpenAI 모델을 Azure로 제공) | 컨텍스트: GPT-5.5와 동일

💪 강점

엔터프라이즈 보안: 데이터가 Microsoft Azure 환경 안에서만 처리됨 — OpenAI 서버로 나가지 않음
컴플라이언스: SOC 2, HIPAA, ISO 27001, GDPR 등 국제 인증 보유 — 고객사 감사 대응 가능
Private Networking: 회사 내부 네트워크에서만 접근 가능하도록 격리
Microsoft 365 연동: Outlook, Teams, SharePoint와 통합 자동화
데이터 잔류 위치 지정: "데이터를 한국 리전에만 저장" 같은 설정 가능

⚠️ 약점

설정 복잡도 높음 — IT 팀과 협업 필요
Azure 인프라 비용 추가 — OpenAI 직접 API보다 약간 더 비쌈
신기능 출시가 OpenAI 대비 2-4주 늦음

🎯 리서치 업무 추천 사용

고객 PII 포함 원자료를 LLM으로 분석할 때 · 기업 IT 정책이 외부 SaaS를 차단할 때 · 컴플라이언스 감사를 통과해야 하는 프로젝트 · 글로벌 기업 클라이언트가 데이터 처리 계약을 요구할 때

⚠️ 언제 Azure OpenAI를 선택해야 하나? "고객이 제공한 개인 식별 가능 설문 응답을 AI로 분석해야 한다"면 반드시 Azure OpenAI 또는 자체 호스팅(Qwen·Gemma) 검토. 일반 OpenAI API는 데이터 처리 경로가 OpenAI 서버를 거쳐요.

③ Claude Opus 4.7 클로즈드★★★★★

개발사: Anthropic (미국) | 컨텍스트: 최대 200K 토큰

💪 강점

긴 문서 분석 최강: 200K 토큰 = FGI 녹취록 수십 개, 설문 전체, 논문 묶음을 한 번에 처리
지시 준수율 최고: "반드시 이 형식으로만 답해줘" 같은 복잡한 조건을 잘 지킴
헌법 AI(Constitutional AI): 안전성 설계가 내재화돼 있어 편향 위험 낮음
한국어 품질: 한국어 생성 품질이 GPT와 대등하거나 일부 높은 평가
긴 Chain-of-Thought: 복잡한 분류 체계를 단계별로 논리적으로 처리

⚠️ 약점

비용이 높음 — 200K 전체 사용 시 특히
코딩·수학 벤치마크에서 GPT-5.5 대비 약간 열세

🎯 리서치 업무 추천 사용

FGI·심층 인터뷰 녹취록 전문 분석 · 복잡한 정성 코딩 체계 (여러 카테고리, 서브카테고리) · 리서치 보고서 긴 초안 작성 · 방대한 이전 조사 자료를 한 번에 참조해야 할 때

④ Gemini 2.x 클로즈드★★★★

개발사: Google (미국) | 컨텍스트: 최대 1,000K 토큰 (업계 최대)

💪 강점

컨텍스트 창 압도적: 100만 토큰 = 책 2.5권 분량을 한 번에 처리
멀티모달: 이미지, PDF, 동영상, 오디오까지 처리 — 설문 첨부 이미지 분석 가능
Google Workspace 네이티브: Docs, Sheets, Drive, Gmail과 직접 통합 — 추가 연결 없이 바로 사용
검색 통합: Google Search 결과를 실시간으로 참조해 환각 감소

⚠️ 약점

지시 일관성이 GPT·Claude보다 낮다는 평가 — 복잡한 분류 체계에서 오류율 주의
출력 형식이 예측하기 어려울 때 있음 — 자동화 파이프라인 연결 시 주의

🎯 리서치 업무 추천 사용

100페이지+ 조사 보고서 전체 Q&A · Google Sheets 결과 자동 정리 · 설문 PDF 첨부 분석 · Google Slides 발표 자료 요약

⑤ Qwen 3.6 오픈소스★★★

개발사: Alibaba Cloud (중국) | 컨텍스트: 최대 128K 토큰

💪 강점

아시아 다국어 최강: 중국어, 일본어, 한국어 등 아시아권 언어 특화
자체 서버 배포 가능: 회사 서버에 직접 설치해 데이터가 외부로 나가지 않음
무료 사용 가능: 오픈소스라 모델 자체 비용 없음 (서버 운영비만)
Thinking Mode: 단계별 추론 기능 내장으로 복잡한 분석 가능

⚠️ 약점

한국어 특화 수준은 GPT·Claude 대비 아직 낮음
서버 운영을 위한 IT 인력 필요
커뮤니티 문서가 주로 중국어 — 영어·한국어 자료 부족

🎯 리서치 업무 추천 사용

중국·동남아 응답자 포함 다국어 설문 분석 · 데이터 주권이 중요한 아시아 클라이언트 프로젝트 · 외부 서버로 데이터를 보낼 수 없는 내부 시스템 구축

⑥ Gemma 4 오픈소스 경량★★★

개발사: Google (미국) | 컨텍스트: 최대 128K 토큰 | 파라미터: 1B ~ 27B 선택

💪 강점

온디바이스 구동: 노트북, 태블릿에서도 실행 가능 — 인터넷 불필요
완전 로컬 처리: 데이터가 장치 밖으로 절대 나가지 않음 — 최고 수준의 데이터 보안
무료: Google이 오픈소스로 공개, 상업적 활용 허용
VLM 지원: Gemma 4는 이미지 이해 기능(멀티모달) 내장 — 이전 세대 대비 큰 도약
경량 버전 다양: 1B, 4B, 12B, 27B 등 용도에 맞게 선택 가능

⚠️ 약점

대형 클로즈드 모델 대비 추론 품질 낮음 — 복잡한 정성 분석보다는 단순 분류에 적합
로컬 GPU 메모리 한계 — 27B 모델은 고성능 GPU 필요

🎯 리서치 업무 추천 사용

오프라인 환경 설문 단순 분류 · 내부 PoC(개념 검증) 테스트 · 초민감 원자료를 인터넷 없이 처리해야 할 때 · 이미지 포함 설문 로컬 분석(VLM 기능)

⑦ NVIDIA Nemotron 3 엔터프라이즈 오픈소스★★★★

개발사: NVIDIA (미국) | 컨텍스트: 최대 4K~32K 토큰 (모델 사이즈에 따라 다름) | 파라미터: 8B, 43B

💪 강점

NVIDIA GPU 최적화: H100, H200, A100 GPU에서 타 모델 대비 월등한 처리 속도 — 이미 NVIDIA 인프라를 보유한 기업에 최적
엔터프라이즈 오픈소스: 소스가 공개돼 있어 자체 서버 배포 가능하면서도 엔터프라이즈 라이선스 제공
NVIDIA AI Foundation 통합: NVIDIA의 NIM(NVIDIA Inference Microservice)을 통해 기업 인프라에 빠르게 통합 가능
Instruct 특화: 지시 따르기(Instruction Following)와 대화 형식 응답에 최적화
합성 데이터 생성: 고품질 훈련 데이터 생성 특화 — 다른 모델 파인튜닝에 활용 가능

⚠️ 약점

컨텍스트 창이 클로즈드 최상위 모델 대비 짧음 — 긴 문서 분석에 제한
NVIDIA GPU가 없는 환경에서는 장점이 희석됨
한국어 품질이 다국어 특화 모델 대비 아직 낮음
커뮤니티 자료가 Llama·Gemma 대비 적음

🆚 Gemma 4와 비교

비교 항목	Gemma 4	Nemotron 3
온디바이스 구동	✅ 가능 (1B~4B)	❌ 어려움 (8B 이상)
VLM (이미지 이해)	✅ 내장	❌ 텍스트 전용
NVIDIA GPU 최적화	보통	✅ 최고 수준
기업 인프라 통합	보통	✅ NIM 지원
한국어 품질	보통	낮음
라이선스 유연성	✅ 상업적 자유	엔터프라이즈 계약 필요

🎯 리서치 업무 추천 사용

NVIDIA GPU 인프라를 보유한 대기업 IT 환경 · 대용량 배치 분류 작업(GPU 속도 극대화) · 다른 모델 파인튜닝용 합성 훈련 데이터 생성 · NIM 기반 엔터프라이즈 AI 서비스 구축

📊 선택 기준 한눈에 보기

상황	권장 모델	이유
대용량 정성 분석 (수천 건 응답)	GPT-5.5 또는 Claude Opus 4.7	처리량·품질 모두 최상
100p+ 긴 문서 전체 Q&A	Gemini 2.x	1M 컨텍스트로 전체 처리
PII 포함 데이터, 기업 보안 최우선	Azure OpenAI	데이터 격리 + 컴플라이언스
완전 로컬 처리, 인터넷 불가 환경	Gemma 4	온디바이스 구동
아시아 다국어 / 내부 서버 배포	Qwen 3.6	다국어 + 자체 호스팅
Google Sheets·Docs 자동화	Gemini 2.x	Workspace 네이티브 통합
복잡한 정성 코딩 체계 (서브 카테고리 다수)	Claude Opus 4.7	지시 준수율 최고
이미지 포함 설문·광고물 분석 (로컬)	Gemma 4	VLM 내장 + 오프라인 구동
NVIDIA GPU 인프라 대용량 배치 처리	NVIDIA Nemotron 3	H100/H200 GPU에서 최고 속도

🏆 리서치 회사 황금 조합 제안:
일반 분석 → Claude Opus 4.7 | 대용량 처리 → GPT-5.5 | 보안 최우선 → Azure OpenAI | Google Workspace 연동 → Gemini 2.x

📏 Context Window — AI의 작업 기억

앞서 토큰화 섹션에서 잠깐 언급한 Context Window를 좀 더 깊게 살펴볼게요. 실제 업무에서 가장 자주 부딪히는 한계이거든요.

🧠 인간의 단기 기억 vs AI의 Context Window

사람도 한 번에 기억할 수 있는 것에 한계가 있어요. 전화번호 7자리는 외워도 20자리는 힘들죠. AI도 마찬가지예요.

  Context Window 크기별 비교:

  32K 토큰    ≈ 논문 1편 (25,000 단어)
  100K 토큰   ≈ 단행본 1/3 (75,000 단어)
  200K 토큰   ≈ 단행본 2/3 (150,000 단어) ← Claude Opus 4.7
  256K 토큰   ≈ 단행본 + 논문 여러 편   ← GPT-5.5
  1,000K 토큰 ≈ 단행본 2.5권 (750,000 단어) ← Gemini 2.x

  리서치 실무 환산:
  · 설문 응답 1건 ≈ 200 토큰 (한국어 기준)
  · 100건 처리: 최소 20K 토큰 → 32K 이상 모델 필요
  · 1,000건 처리: 200K 토큰 → Claude 또는 Gemini 필요
  · 5,000건 처리: 1,000K 토큰 → Gemini 2.x 또는 배치 처리 필요

🔄 Context Window를 넘으면 어떻게 되나?

두 가지 동작 방식이 있어요:

오래된 내용 자르기(Truncation): 창 초반 내용이 잘려나가 AI가 "건망증" 상태가 됨
오류 발생: 일부 API는 창 한계 초과 시 에러 반환

그래서 긴 대화를 이어갈수록 AI가 "아까 뭐 말했지?"를 잊어버리는 게 이 이유예요.

💡 Context Window 한계를 극복하는 방법

방법	원리	연계
RAG 사용	전체를 넣지 않고 필요한 부분만 검색해서 넣음	Week 2
배치 처리	100건씩 나눠서 여러 번 AI 호출 후 결과 합침	Week 5 Make.com
요약 후 재입력	긴 대화를 요약해서 새 대화의 System Prompt에 넣음	프롬프트 전략
큰 창 모델 선택	Gemini 2.x의 1M 창으로 통째로 처리	모델 선택

🔄 Week 1-5와의 연결: 이제 다시 보이는 것들

LLM 작동 원리를 알고 나면, 지난 5주 동안 배운 도구들이 새롭게 보여요. 왜 그 도구가 그런 방식으로 작동하는지 이제 이해할 수 있거든요.

주차	도구	Week 6 지식과의 연결
Week 1	AI Agent	Agent가 "스스로 판단"하는 건 LLM의 Inference 결과예요. Agent의 추론 능력 = LLM의 Temperature가 낮을 때 예측 가능한 판단을 하도록 설정한 것.
Week 2	RAG	RAG의 핵심 역할: LLM의 환각을 줄이고 Context Window 한계를 극복하는 것. 모델이 모르는 내용을 검색해서 Context에 넣어줌으로써 "알고 있는 것처럼" 만들어줘요.
Week 3	API	LLM API = 모델의 Inference를 외부에서 호출하는 인터페이스. API를 통해 Temperature, Context Window 크기 등 파라미터를 직접 조절할 수 있어요.
Week 4	NotebookLM	NotebookLM = Gemini + RAG의 완제품. "내 자료만 읽는다"는 건 해당 자료가 Context에 들어간다는 뜻. Context Window가 클수록 더 많은 자료를 한 번에 참조 가능.
Week 5	Make.com / n8n	자동화 파이프라인의 LLM 모듈 = API 호출 + Temperature 설정 + Prompt 전달. 배치 처리로 Context Window 한계를 넘는 대용량 분석도 가능.

🔗 연결의 깨달음: Week 1-5는 각각 독립된 도구가 아니에요. 모두 LLM이라는 하나의 엔진 위에서, 그 한계(환각, Context Window, 최신 정보 부재)를 극복하거나 활용하는 다양한 방법들이었어요.

❓ 자주 하는 질문 (FAQ)

Q1. GPT와 Claude 중에 뭐가 더 좋아요?

"더 좋은 것"은 없어요. 용도에 따라 달라요. 복잡한 추론·코딩은 GPT-5.5가 강하고, 긴 문서 분석·지시 준수는 Claude Opus 4.7이 강해요. 리서치 업무라면 두 가지를 병행하는 게 현실적이에요. 중요한 건 "어떤 모델이 좋냐"보다 "이 업무에 어떤 모델이 맞냐"를 판단하는 능력이에요.

Q2. 한국어로 질문하면 왜 영어보다 답변이 짧거나 이상할 때가 있나요?

두 가지 이유예요. 첫째, 토큰 소비량: 한국어는 영어보다 토큰을 3-5배 더 쓰기 때문에 같은 컨텍스트 창에 담을 수 있는 정보량이 적어요. 둘째, 학습 데이터 비율: 인터넷의 한국어 텍스트 비율이 영어보다 훨씬 적어서 한국어 패턴 학습이 덜 됐어요. 해결책: 영어로 질문하고 한국어 번역을 요청하거나, 한국어에 강한 모델(Claude, Gemini)을 선택하세요.

Q3. AI가 제 정보를 학습하나요? 회사 자료를 넣어도 되나요?

모델마다 달라요. ChatGPT 무료버전은 대화가 학습에 사용될 수 있어요. ChatGPT 유료(Team/Enterprise), Claude, Azure OpenAI는 기본적으로 학습에 사용하지 않아요. 회사 민감 자료 사용 전에 반드시 해당 서비스의 데이터 처리 정책을 확인하세요. 가장 안전한 건 Azure OpenAI 또는 자체 호스팅(Qwen·Gemma)이에요.

Q4. AI 답변이 매번 다른 이유가 뭔가요?

Temperature 때문이에요. 기본값(약 0.7~1.0)에서는 AI가 확률적으로 단어를 선택하기 때문에 같은 질문에도 매번 다른 답이 나와요. 일관된 답이 필요하다면 Temperature를 0에 가깝게 낮추거나, API를 쓸 때 seed 파라미터를 고정하면 돼요.

Q5. AI 모델의 지식 컷오프란 뭔가요? 최신 뉴스를 AI가 왜 모르나요?

LLM은 특정 날짜까지의 텍스트로 학습(Pre-training)하고 끝나요. 그 이후 세상이 어떻게 바뀌었는지 AI는 모르죠. 이걸 지식 컷오프(Knowledge Cutoff)라고 해요. 해결책: ① Gemini처럼 Google Search 실시간 검색을 연동한 모델 사용 ② RAG로 최신 뉴스 데이터를 Context에 직접 주입 ③ ChatGPT의 웹 검색 플러그인 활성화.

Q6. LLM은 계속 발전하나요? 지금 배운 게 금방 구식이 되지 않을까요?

원리는 구식이 되지 않아요. 토큰화, 확률 기반 예측, Context Window, 환각의 원인 — 이 개념들은 모델이 아무리 발전해도 여전히 적용돼요. 모델 이름과 성능 수치는 바뀌지만, "왜 이렇게 동작하는가"를 이해하면 새 모델이 나와도 빠르게 적응할 수 있어요. 원리 > 스펙 암기예요.

🎓 핵심 요약

🔮 LLM = 예언하는 자동완성
AI는 정답을 아는 게 아니라, 다음에 올 가장 그럴듯한 단어를 확률로 예측한다.

⚙️ 토큰이 AI의 기본 언어 단위. 한국어는 영어보다 3-5배 토큰 소비.
📏 Context Window가 AI의 작업 기억 한계. 창 밖은 존재하지 않는다.
🎲 환각은 AI에게 "모른다"는 개념이 없어서 생기는 본질적 특성. RAG와 검증으로 줄인다.
🌡️ Temperature로 창의성(높음) vs 일관성(낮음)을 조절한다.

🏆 모델 선택 원칙 (2026-05-06 기준):
정성 분석 → Claude Opus 4.7 | 보안 최우선 → Azure OpenAI
긴 문서 → Gemini 2.x | 로컬 처리 → Gemma 4
대용량 → GPT-5.5 | 다국어 자체 배포 → Qwen 3.6
NVIDIA GPU 배치 → Nemotron 3 | 이미지+로컬 → Gemma 4 (VLM)

🔗 연결 관점: Week 1-5의 모든 도구는 LLM의 한계(환각, Context Window, 지식 컷오프)를 극복하거나 장점을 활용하는 방법들이었다.