LLM 블랙박스 열기 — AI가 어떻게 생각하는지 알아야 제대로 쓸 수 있다
📅 이 자료는 2026년 5월 6일 기준으로 작성되었습니다. AI 모델은 수개월 단위로 새 버전이 출시되므로, 모델별 컨텍스트 창 크기·가격·성능 수치는 최신 공식 문서에서 재확인하세요. 원리와 선택 기준은 유효하지만, 구체적인 스펙은 달라질 수 있어요.
💡 쉬운 비유: 예언하는 자동완성
Week 1부터 Week 5까지 AI 도구들을 열심히 써왔죠. 그런데 문득 이런 의문이 생기지 않았나요?
💭 "도대체 AI가 어떻게 이렇게 자연스럽게 글을 쓰는 걸까? 안을 들여다보면 뭐가 있을까?"
오늘은 그 블랙박스를 열어봅니다. 어려운 수식은 없어요. 비유로 시작합니다.
📱 스마트폰 자동완성을 떠올려보세요
카카오톡을 치다가 "오늘 날씨가 많이" 라고 입력하면 키보드 위에 뭐가 뜨죠? "춥네요", "더워요", "맑아요" 같은 추천 단어가 뜹니다. 이게 바로 자동완성이에요.
스마트폰 자동완성은 "지금까지 입력한 단어 다음에 올 가능성이 가장 높은 단어"를 예측하는 거예요. 수백만 명의 채팅 패턴을 학습해서요.
LLM(Large Language Model)은 이 자동완성을 엄청나게 고도화한 버전입니다.
스마트폰 자동완성: "오늘 날씨가 많이" → [춥네요] [더워요] [맑아요]
확률 40% 35% 25%
LLM (GPT·Claude): "오늘 날씨가 많이 춥네요. 그래서" → 수천 가지 다음 단어 예측
↑ 단어 하나가 아니라 문장, 단락, 에세이까지 연속으로 예측
핵심 비유는 이거예요:
🔮 LLM = 예언하는 자동완성
AI는 "정답을 아는" 것이 아니에요. "다음에 올 가장 그럴듯한 단어"를 확률로 계속 예측하면서 문장을 완성해나가는 거예요. 수조 개의 텍스트에서 패턴을 학습한 덕분에, 마치 "정답을 아는 것처럼" 보이는 거죠.
🤖 그래서 LLM이 "Large Language Model"인 이유
- Language: 언어(텍스트)를 처리해요
- Model: 패턴을 학습한 수학적 모델이에요
- Large: 그 모델이 어마어마하게 크다는 뜻이에요 (수천억 개의 파라미터)
GPT, Claude, Gemini, Llama — 이름은 달라도 모두 같은 원리로 작동합니다. 예언하는 자동완성, 그것도 엄청나게 잘 하는 버전이요.
⚙️ 토큰화 (Tokenization) — AI의 언어 단위
AI는 글을 우리처럼 "단어" 단위로 읽지 않아요. "토큰(Token)"이라는 더 작은 단위로 쪼개서 처리해요.
🔤 토큰이 뭔가요?
토큰은 단어보다 작을 수도 있고, 여러 단어가 하나의 토큰이 될 수도 있어요. 모델마다 조금씩 다르지만, 일반적으로:
영어 예시:
"Hello, World!" → ["Hello", ",", " World", "!"] ← 4 토큰
"artificial" → ["art", "ific", "ial"] ← 3 토큰 (쪼개질 수 있음)
"AI" → ["AI"] ← 1 토큰
한국어 예시 (영어보다 토큰 소비 多):
"안녕하세요" → ["안", "녕", "하", "세", "요"] ← 5 토큰 (약 4-5배 소비)
"인공지능" → ["인공", "지능"] ← 2 토큰
"학습" → ["학습"] ← 1 토큰
⚠️ 한국어 비용이 더 비싼 이유: 영어는 "intelligence" 같은 긴 단어도 2-3 토큰이지만, 한국어는 음절 단위로 쪼개져서 같은 내용을 표현하는 데 3-5배 더 많은 토큰이 필요해요. AI API 요금이 토큰 수 기준이라 한국어 문서를 다루면 비용이 더 나올 수 있어요.
📏 Context Window = AI의 단기 기억 한계
AI는 대화할 때 한 번에 처리할 수 있는 토큰 수에 한계가 있어요. 이것을 Context Window(컨텍스트 창)라고 해요.
Context Window 쉽게 이해하기:
사람 단기 기억 ┌──────────────────────────┐
(7±2 청크) │ 지금 대화에서 기억하는 것 │
└──────────────────────────┘
AI Context ┌──────────────────────────────────────────────────────┐
Window │ 이 창 안에 있는 것만 "기억"하고 참고해서 답해요 │
│ 창 밖의 내용은 존재하지 않는 것과 같아요 (건망증) │
└──────────────────────────────────────────────────────┘
← 짧은 창: 32K 토큰 (약 25,000 단어) ─────────────────→
← 긴 창: 1,000K 토큰 (약 750,000 단어, 책 2.5권 분량) →
- 창이 짧으면: 긴 대화에서 앞 내용을 잊어버려요 ("아까 뭐 말했더라?" 상태)
- 창이 길면: 설문 응답 전체, 긴 보고서, 여러 문서를 한 번에 분석할 수 있어요
- 창이 클수록 비용도 높아요: 처리해야 할 토큰이 많으니까요
✅ 리서치 실무 팁: 설문 응답 50건(약 10,000 단어)을 한 번에 분석하려면 최소 30K 이상 컨텍스트 창이 필요해요. 대용량 정성 분석 시엔 컨텍스트 창 크기를 꼭 확인하세요.
🧠 학습과 추론 — 훈련은 한 번, 사용은 매번
LLM이 어떻게 "그 모든 걸 아는지" 궁금하셨죠? 세 단계로 나눠서 이해해봐요. 조각상 만드는 과정으로 비유할게요.
🪨 1단계: Pre-training (기초 조각 깎기)
인터넷, 책, 논문, 뉴스 — 수조 개의 텍스트에서 "언어의 패턴"을 학습해요. AI가 "다음 단어 맞추기" 게임을 수백억 번 반복하면서 언어의 구조, 사실, 개념들을 파라미터(가중치)에 압축해서 저장하는 과정이에요.
Pre-training:
인터넷 텍스트 5TB+ → "다음 단어 맞추기" 수백억 회 → 파라미터 1,000억 개에 저장
마치: 거대한 대리석 덩어리를 망치로 깎아서 조각상 형태를 만드는 과정
비용: 수천억 원, 수개월 걸림 (OpenAI, Anthropic, Google 같은 대형 기업만 가능)
✨ 2단계: Fine-tuning & RLHF (광택 내기)
Pre-training만 하면 AI가 인터넷 글처럼 "그냥 다음 단어를 이어 쓰기"만 해요. 우리가 원하는 건 질문에 답하고, 도움이 되고, 안전한 AI죠. 이걸 위해 두 가지 작업을 해요:
- Fine-tuning: 사람이 작성한 "좋은 답변 예시" 수만 개로 추가 학습
- RLHF (인간 피드백 강화학습): 사람이 AI 답변에 점수를 매기고, AI가 높은 점수를 받는 방향으로 스스로를 조정
마치: 조각상 형태가 잡힌 후 세밀한 조각칼로 표정을 다듬고, 광택을 내는 과정
결과: "어떻게 대화해야 사람에게 도움이 되는가"를 학습한 AI
🎭 3단계: Inference (전시 및 사용)
학습이 끝난 AI 모델은 더 이상 스스로 학습하지 않아요. 이미 완성된 조각상을 전시해서 관람객이 질문하면 답하는 것과 같아요.
- 우리가 ChatGPT나 Claude에 질문할 때마다 → Inference(추론)이 일어나요
- AI가 "새로 학습"하는 게 아니라 → 기존 파라미터로 답을 생성해요
- 그래서 모델의 지식 컷오프(학습 마감 날짜) 이후 정보는 모를 수 있어요
🧠 핵심 정리: LLM은 학습(Pre-training → Fine-tuning)과 사용(Inference)이 완전히 분리돼 있어요. 우리가 AI와 대화할 때 AI는 새로 배우는 게 아니에요. 이미 학습된 패턴을 꺼내 쓰는 거죠.
👁️ VLM — 눈을 얻은 LLM
LLM은 텍스트만 이해해요. 그런데 요즘 AI에게 이미지를 던져줘도 척척 설명하는 걸 보셨죠? 이게 바로 VLM (Vision Language Model)이에요.
🖼️ LLM에서 VLM으로: 개념 확장
LLM이 텍스트를 토큰 단위로 처리하듯, VLM은 이미지를 작은 패치(조각)로 나눠 토큰처럼 처리해요. 이 이미지 토큰과 텍스트 토큰을 함께 섞어서 이해하는 게 VLM의 핵심이에요.
LLM (텍스트만):
"이 설문 응답을 요약해줘" → 텍스트 토큰 → LLM → 텍스트 출력
VLM (텍스트 + 이미지):
"이 제품 사진을 보고 → 이미지 패치 토큰 ┐
소비자 반응을 분석해줘" → 텍스트 토큰 ┘→ VLM → 텍스트 출력
(함께 처리)
📷 이미지를 어떻게 "읽나"?
VLM은 이미지를 사람처럼 전체를 보는 게 아니에요. 224×224 픽셀 이미지를 예로 들면, 이를 16×16 픽셀짜리 196개 패치로 나누고, 각 패치를 숫자 벡터로 변환한 뒤 언어 토큰처럼 순서대로 처리해요. AI에게 이미지는 결국 "숫자의 나열"이에요.
🏷️ 대표 VLM 모델 (2026-05-06 기준)
| 모델 | 개발사 | 유형 | 비전 강점 | 리서치 활용 |
|---|---|---|---|---|
| GPT-5.5 | OpenAI | 클로즈드 | 이미지·오디오·텍스트 통합 처리, 세밀한 시각 분석, 복잡한 차트·다이어그램 해석 | 광고물 분석, 제품 이미지 평가, 경쟁사 자료 스크린샷 분석 |
| Claude Opus 4.7 | Anthropic | 클로즈드 | 긴 PDF 전체(이미지+텍스트 혼합) 분석, 표·차트 해석 우수, 200K 컨텍스트로 대용량 문서 처리 | 리서치 보고서 PDF 전체 분석, 도표가 포함된 발표자료 요약 |
| Gemini 2.x | 클로즈드 | 동영상·오디오까지 처리 가능한 네이티브 멀티모달, 1M 컨텍스트로 긴 영상도 통째로 분석 | 영상 인터뷰 분석, 광고 영상 평가, 유튜브 콘텐츠 분석 | |
| Qwen2.5-VL | Alibaba | 오픈소스 | 자체 서버 배포 가능, 문서·차트·영수증 등 구조화된 이미지 이해 강점, 다국어 이미지 텍스트(OCR) 우수 | 내부 서버에서 이미지 분석 시, 아시아권 문서 이미지 처리 |
| Gemma 4 | 오픈소스 경량 | 온디바이스 구동 가능한 VLM, 인터넷 없이 로컬에서 이미지 분석 | 오프라인 환경 이미지 포함 설문 분류, 초민감 데이터 로컬 처리 |
🎯 리서치 업무에서 VLM이 유용한 순간
- 설문 첨부 이미지 분석: 응답자가 제품 사진을 첨부한 개방형 설문 → AI가 이미지와 텍스트를 동시에 분석
- 광고물·패키지 디자인 평가: "이 광고에서 가장 눈에 띄는 요소가 뭔가요?" 질문에 AI가 이미지를 보며 답변
- 발표자료·보고서 PDF 요약: 차트·그래프가 포함된 PPT를 VLM에 넣으면 시각 데이터까지 해석
- 제품 리뷰 이미지 분석: 소비자가 올린 제품 사용 후기 이미지에서 감성·품질 신호 추출
👁️ LLM vs VLM 한 줄 정리:
LLM = 글을 읽고 쓰는 AI | VLM = 글과 이미지를 함께 보는 AI
주요 클로즈드 모델(GPT-5.5, Claude Opus 4.7, Gemini 2.x)은 모두 VLM이에요. "LLM을 쓴다"고 할 때 사실 VLM을 쓰고 있는 경우가 많아요.
🎲 왜 환각(Hallucination)이 생기나?
LLM을 쓰다 보면 한 번쯤 이런 경험 하셨죠: "AI가 자신있게 틀린 답을 말했어." 이걸 환각(Hallucination)이라고 해요.
🔮 근본 원인: AI에게 "모른다"는 개념이 없다
기억하세요 — LLM은 "다음에 올 그럴듯한 단어를 확률로 예측"하는 기계예요. 사람처럼 "이건 잘 모르겠는데요"라고 멈추는 기능이 기본적으로 없어요.
사람이 모르는 질문을 받았을 때:
"존재하지 않는 책 제목이 뭐야?" → "글쎄요, 잘 모르겠어요 🤷"
LLM이 같은 상황에서:
"존재하지 않는 책 제목이 뭐야?" → "아, 그 책은 '그림자의 언어'이고
2018년 김철수 저자가 썼는데..."
← 완전히 자신 있게 지어냄!
AI는 항상 "그럴듯한 다음 단어"를 생성하도록 훈련됐어요. 모른다고 해도 "모른다고 말하는 것"이 그럴듯한 답변이 되도록 추가로 훈련(RLHF)하지 않으면, 그냥 지어냅니다.
🎯 환각이 자주 생기는 3가지 상황
- 학습 데이터에 없는 정보: 최신 뉴스, 내부 문서, 특수 데이터 → AI는 학습한 것만 알아요
- 정보 컷오프 이후 사실: 모델 훈련 날짜 이후 세상이 바뀐 것들
- 낮은 확률의 정확한 정보: 특정 사람의 생일, 특정 법 조항 번호 등 학습 데이터에 드물게 등장한 정보
✅ 환각을 줄이는 3가지 전략
| 전략 | 방법 | 연계 주차 |
|---|---|---|
| RAG 연결 | AI가 답하기 전에 믿을 수 있는 문서에서 관련 내용을 검색해서 context에 넣어줌 | Week 2 RAG |
| 구체적 지시 | "모르면 모른다고 해줘", "출처를 꼭 명시해줘" 같은 명확한 System Prompt 설정 | 명확한 제약 조건 설정 (예: "모르면 모른다고 답해줘") |
| 검증 요청 | 중요한 사실은 AI 출력을 그대로 쓰지 말고 원본 문서에서 확인 | 리서치 기본 원칙 |
⚠️ 리서치 업무 주의: 수치(%) , 날짜, 사람 이름, 법조항 번호는 AI 환각 위험이 특히 높아요. 보고서에 AI 출력을 그대로 넣기 전에 반드시 원본 소스로 검증하세요.
🔬 학습 방법이 환각에 미치는 영향
환각의 발생 빈도는 모델마다 다른데, 그 이유가 바로 "어떻게 훈련했느냐"에 있어요. 단순히 많은 데이터를 학습한다고 환각이 줄어드는 게 아니에요.
| 학습 방법 | 원리 | 환각에 미치는 영향 |
|---|---|---|
| 데이터 품질 큐레이션 | 학습 데이터에서 오류·편향·허위 정보를 필터링 | 잘못된 패턴 자체를 줄임 → 근본적 환각 감소 |
| RLHF (인간 피드백 강화학습) |
사람이 AI 답변에 점수를 매기고, "모른다고 말하는 것"도 좋은 답변임을 학습 | "그럴듯하게 지어내기"보다 "정직하게 모른다고 하기"를 선호하도록 유도 |
| Constitutional AI (Anthropic 방식) |
AI가 스스로 원칙 목록에 따라 자신의 출력을 검증·수정하며 학습 | 출력 전 내부 검증 단계 → Claude의 낮은 환각률에 기여 |
| DPO (Direct Preference Optimization) |
RLHF보다 효율적인 선호도 학습 — 좋은 답변 vs 나쁜 답변을 직접 비교 | 더 적은 비용으로 RLHF 효과를 내어 최신 오픈소스 모델에서 많이 사용 |
| 모델 파라미터 규모 | 파라미터가 많을수록 더 많은 정보를 저장·구분 가능 | 규모가 크면 일반적으로 환각↓ — 하지만 대형 모델도 환각에서 자유롭지 않음 |
| 검색 통합 학습 (RETRO, RAG-native) |
생성 전 검색을 수행하도록 모델 자체를 설계 | 모를 때 검색 → 지식 컷오프와 환각을 동시에 완화 |
💡 핵심 인사이트: 같은 크기의 모델이라도 어떻게 훈련했느냐에 따라 환각 빈도가 크게 달라져요. Claude가 특히 "모른다"고 솔직히 말하는 경향이 강한 건 Constitutional AI 덕분이에요. GPT가 다양한 응용 상황에서 유연한 건 방대한 RLHF 데이터 덕분이에요. 모델 선택 시 단순 성능 지표뿐 아니라 "어떤 학습 철학으로 만들어졌는가"도 고려하세요.
🌡️ Temperature — 창의성과 정확성 사이
같은 질문을 AI에게 열 번 했을 때 매번 다른 답이 나오는 거 느껴보셨나요? 이걸 조절하는 파라미터가 Temperature(온도)예요.
🎰 Temperature의 원리
AI가 다음 단어를 고를 때, 여러 후보 단어에 각각 확률이 붙어있어요. Temperature는 이 확률 분포를 얼마나 "평탄하게" 만들지를 결정해요.
다음 단어 후보: "맑다"(40%) "춥다"(35%) "흐리다"(20%) "뜨겁다"(5%)
Temperature = 0 (완전 결정론적):
→ 항상 "맑다"(확률 최고값) 선택. 예측 가능하지만 단조로움.
Temperature = 0.5 (중간):
→ "맑다"나 "춥다" 위주로 선택, 가끔 "흐리다"도 등장.
Temperature = 1.0 (기본값):
→ 확률대로 선택. 다양하고 자연스러운 글.
Temperature = 1.5+ (높음):
→ "뜨겁다"처럼 낮은 확률 단어도 자주 선택. 창의적이지만 엉뚱할 수 있음.
📊 업무 유형별 권장 Temperature
| 업무 유형 | 권장 Temperature | 이유 |
|---|---|---|
| 정성 응답 분류·코딩 | 0.0 ~ 0.2 | 같은 기준으로 일관되게 분류해야 함 |
| 문서 요약·번역 | 0.2 ~ 0.4 | 원문에 충실하되 자연스럽게 |
| 보고서 초안 작성 | 0.5 ~ 0.7 | 구조는 잡되 표현은 다양하게 |
| 브레인스토밍·아이디어 | 0.8 ~ 1.0 | 다양하고 예상 밖의 아이디어 원함 |
| 창작·카피라이팅 | 1.0 ~ 1.3 | 독창적이고 개성 있는 표현 |
✅ 실용 팁: 대부분의 AI 도구(ChatGPT, Claude)는 기본값이 약 0.7~1.0이에요. API를 직접 쓸 때는 업무에 맞게 조절해보세요. 정성 코딩처럼 일관성이 중요한 작업은 0.1~0.2로 낮추는 게 좋아요.
🏆 2026년 주요 모델 완전 비교
도구를 잘 쓰려면 어떤 도구가 있는지 알아야 해요. 2026년 현재 주요 LLM 6가지를 리서치 업무 관점으로 깊게 비교해볼게요.
① GPT-5.5 클로즈드★★★★★
개발사: OpenAI (미국) | 컨텍스트: 최대 256K 토큰
💪 강점
- 추론·코딩 능력 업계 최고 수준 — 복잡한 논리 분석에서 탁월
- 세계 최대 사용자 생태계 — 플러그인, 연동 도구, 커뮤니티 자료가 가장 풍부
- Function Calling(구조화 출력)이 안정적 — 자동화 파이프라인에 연결하기 좋음
- 다국어 처리 수준이 높음 — 영어, 한국어, 일본어 등 전반적으로 우수
⚠️ 약점
- 비용이 가장 높음 — 대용량 처리 시 비용 계획 필수
- 학습 데이터 활용 이슈 — API 호출 데이터가 재학습에 사용될 수 있음 (기업 설정 확인 필요)
- 미국 서버 기반 — 데이터가 OpenAI 서버를 거침
🎯 리서치 업무 추천 사용
경쟁사 리포트 자동 요약 · 대용량 설문 정성 코딩 · 다국어 응답 분석 · 복잡한 Cross-tab 인사이트 도출
② Azure OpenAI 엔터프라이즈★★★★★
개발사: Microsoft (GPT-5.5 등 OpenAI 모델을 Azure로 제공) | 컨텍스트: GPT-5.5와 동일
💪 강점
- 엔터프라이즈 보안: 데이터가 Microsoft Azure 환경 안에서만 처리됨 — OpenAI 서버로 나가지 않음
- 컴플라이언스: SOC 2, HIPAA, ISO 27001, GDPR 등 국제 인증 보유 — 고객사 감사 대응 가능
- Private Networking: 회사 내부 네트워크에서만 접근 가능하도록 격리
- Microsoft 365 연동: Outlook, Teams, SharePoint와 통합 자동화
- 데이터 잔류 위치 지정: "데이터를 한국 리전에만 저장" 같은 설정 가능
⚠️ 약점
- 설정 복잡도 높음 — IT 팀과 협업 필요
- Azure 인프라 비용 추가 — OpenAI 직접 API보다 약간 더 비쌈
- 신기능 출시가 OpenAI 대비 2-4주 늦음
🎯 리서치 업무 추천 사용
고객 PII 포함 원자료를 LLM으로 분석할 때 · 기업 IT 정책이 외부 SaaS를 차단할 때 · 컴플라이언스 감사를 통과해야 하는 프로젝트 · 글로벌 기업 클라이언트가 데이터 처리 계약을 요구할 때
⚠️ 언제 Azure OpenAI를 선택해야 하나? "고객이 제공한 개인 식별 가능 설문 응답을 AI로 분석해야 한다"면 반드시 Azure OpenAI 또는 자체 호스팅(Qwen·Gemma) 검토. 일반 OpenAI API는 데이터 처리 경로가 OpenAI 서버를 거쳐요.
③ Claude Opus 4.7 클로즈드★★★★★
개발사: Anthropic (미국) | 컨텍스트: 최대 200K 토큰
💪 강점
- 긴 문서 분석 최강: 200K 토큰 = FGI 녹취록 수십 개, 설문 전체, 논문 묶음을 한 번에 처리
- 지시 준수율 최고: "반드시 이 형식으로만 답해줘" 같은 복잡한 조건을 잘 지킴
- 헌법 AI(Constitutional AI): 안전성 설계가 내재화돼 있어 편향 위험 낮음
- 한국어 품질: 한국어 생성 품질이 GPT와 대등하거나 일부 높은 평가
- 긴 Chain-of-Thought: 복잡한 분류 체계를 단계별로 논리적으로 처리
⚠️ 약점
- 비용이 높음 — 200K 전체 사용 시 특히
- 코딩·수학 벤치마크에서 GPT-5.5 대비 약간 열세
🎯 리서치 업무 추천 사용
FGI·심층 인터뷰 녹취록 전문 분석 · 복잡한 정성 코딩 체계 (여러 카테고리, 서브카테고리) · 리서치 보고서 긴 초안 작성 · 방대한 이전 조사 자료를 한 번에 참조해야 할 때
④ Gemini 2.x 클로즈드★★★★
개발사: Google (미국) | 컨텍스트: 최대 1,000K 토큰 (업계 최대)
💪 강점
- 컨텍스트 창 압도적: 100만 토큰 = 책 2.5권 분량을 한 번에 처리
- 멀티모달: 이미지, PDF, 동영상, 오디오까지 처리 — 설문 첨부 이미지 분석 가능
- Google Workspace 네이티브: Docs, Sheets, Drive, Gmail과 직접 통합 — 추가 연결 없이 바로 사용
- 검색 통합: Google Search 결과를 실시간으로 참조해 환각 감소
⚠️ 약점
- 지시 일관성이 GPT·Claude보다 낮다는 평가 — 복잡한 분류 체계에서 오류율 주의
- 출력 형식이 예측하기 어려울 때 있음 — 자동화 파이프라인 연결 시 주의
🎯 리서치 업무 추천 사용
100페이지+ 조사 보고서 전체 Q&A · Google Sheets 결과 자동 정리 · 설문 PDF 첨부 분석 · Google Slides 발표 자료 요약
⑤ Qwen 3.6 오픈소스★★★
개발사: Alibaba Cloud (중국) | 컨텍스트: 최대 128K 토큰
💪 강점
- 아시아 다국어 최강: 중국어, 일본어, 한국어 등 아시아권 언어 특화
- 자체 서버 배포 가능: 회사 서버에 직접 설치해 데이터가 외부로 나가지 않음
- 무료 사용 가능: 오픈소스라 모델 자체 비용 없음 (서버 운영비만)
- Thinking Mode: 단계별 추론 기능 내장으로 복잡한 분석 가능
⚠️ 약점
- 한국어 특화 수준은 GPT·Claude 대비 아직 낮음
- 서버 운영을 위한 IT 인력 필요
- 커뮤니티 문서가 주로 중국어 — 영어·한국어 자료 부족
🎯 리서치 업무 추천 사용
중국·동남아 응답자 포함 다국어 설문 분석 · 데이터 주권이 중요한 아시아 클라이언트 프로젝트 · 외부 서버로 데이터를 보낼 수 없는 내부 시스템 구축
⑥ Gemma 4 오픈소스 경량★★★
개발사: Google (미국) | 컨텍스트: 최대 128K 토큰 | 파라미터: 1B ~ 27B 선택
💪 강점
- 온디바이스 구동: 노트북, 태블릿에서도 실행 가능 — 인터넷 불필요
- 완전 로컬 처리: 데이터가 장치 밖으로 절대 나가지 않음 — 최고 수준의 데이터 보안
- 무료: Google이 오픈소스로 공개, 상업적 활용 허용
- VLM 지원: Gemma 4는 이미지 이해 기능(멀티모달) 내장 — 이전 세대 대비 큰 도약
- 경량 버전 다양: 1B, 4B, 12B, 27B 등 용도에 맞게 선택 가능
⚠️ 약점
- 대형 클로즈드 모델 대비 추론 품질 낮음 — 복잡한 정성 분석보다는 단순 분류에 적합
- 로컬 GPU 메모리 한계 — 27B 모델은 고성능 GPU 필요
🎯 리서치 업무 추천 사용
오프라인 환경 설문 단순 분류 · 내부 PoC(개념 검증) 테스트 · 초민감 원자료를 인터넷 없이 처리해야 할 때 · 이미지 포함 설문 로컬 분석(VLM 기능)
⑦ NVIDIA Nemotron 3 엔터프라이즈 오픈소스★★★★
개발사: NVIDIA (미국) | 컨텍스트: 최대 4K~32K 토큰 (모델 사이즈에 따라 다름) | 파라미터: 8B, 43B
💪 강점
- NVIDIA GPU 최적화: H100, H200, A100 GPU에서 타 모델 대비 월등한 처리 속도 — 이미 NVIDIA 인프라를 보유한 기업에 최적
- 엔터프라이즈 오픈소스: 소스가 공개돼 있어 자체 서버 배포 가능하면서도 엔터프라이즈 라이선스 제공
- NVIDIA AI Foundation 통합: NVIDIA의 NIM(NVIDIA Inference Microservice)을 통해 기업 인프라에 빠르게 통합 가능
- Instruct 특화: 지시 따르기(Instruction Following)와 대화 형식 응답에 최적화
- 합성 데이터 생성: 고품질 훈련 데이터 생성 특화 — 다른 모델 파인튜닝에 활용 가능
⚠️ 약점
- 컨텍스트 창이 클로즈드 최상위 모델 대비 짧음 — 긴 문서 분석에 제한
- NVIDIA GPU가 없는 환경에서는 장점이 희석됨
- 한국어 품질이 다국어 특화 모델 대비 아직 낮음
- 커뮤니티 자료가 Llama·Gemma 대비 적음
🆚 Gemma 4와 비교
| 비교 항목 | Gemma 4 | Nemotron 3 |
|---|---|---|
| 온디바이스 구동 | ✅ 가능 (1B~4B) | ❌ 어려움 (8B 이상) |
| VLM (이미지 이해) | ✅ 내장 | ❌ 텍스트 전용 |
| NVIDIA GPU 최적화 | 보통 | ✅ 최고 수준 |
| 기업 인프라 통합 | 보통 | ✅ NIM 지원 |
| 한국어 품질 | 보통 | 낮음 |
| 라이선스 유연성 | ✅ 상업적 자유 | 엔터프라이즈 계약 필요 |
🎯 리서치 업무 추천 사용
NVIDIA GPU 인프라를 보유한 대기업 IT 환경 · 대용량 배치 분류 작업(GPU 속도 극대화) · 다른 모델 파인튜닝용 합성 훈련 데이터 생성 · NIM 기반 엔터프라이즈 AI 서비스 구축
📊 선택 기준 한눈에 보기
| 상황 | 권장 모델 | 이유 |
|---|---|---|
| 대용량 정성 분석 (수천 건 응답) | GPT-5.5 또는 Claude Opus 4.7 | 처리량·품질 모두 최상 |
| 100p+ 긴 문서 전체 Q&A | Gemini 2.x | 1M 컨텍스트로 전체 처리 |
| PII 포함 데이터, 기업 보안 최우선 | Azure OpenAI | 데이터 격리 + 컴플라이언스 |
| 완전 로컬 처리, 인터넷 불가 환경 | Gemma 4 | 온디바이스 구동 |
| 아시아 다국어 / 내부 서버 배포 | Qwen 3.6 | 다국어 + 자체 호스팅 |
| Google Sheets·Docs 자동화 | Gemini 2.x | Workspace 네이티브 통합 |
| 복잡한 정성 코딩 체계 (서브 카테고리 다수) | Claude Opus 4.7 | 지시 준수율 최고 |
| 이미지 포함 설문·광고물 분석 (로컬) | Gemma 4 | VLM 내장 + 오프라인 구동 |
| NVIDIA GPU 인프라 대용량 배치 처리 | NVIDIA Nemotron 3 | H100/H200 GPU에서 최고 속도 |
🏆 리서치 회사 황금 조합 제안:
일반 분석 → Claude Opus 4.7 | 대용량 처리 → GPT-5.5 | 보안 최우선 → Azure OpenAI | Google Workspace 연동 → Gemini 2.x
📏 Context Window — AI의 작업 기억
앞서 토큰화 섹션에서 잠깐 언급한 Context Window를 좀 더 깊게 살펴볼게요. 실제 업무에서 가장 자주 부딪히는 한계이거든요.
🧠 인간의 단기 기억 vs AI의 Context Window
사람도 한 번에 기억할 수 있는 것에 한계가 있어요. 전화번호 7자리는 외워도 20자리는 힘들죠. AI도 마찬가지예요.
Context Window 크기별 비교:
32K 토큰 ≈ 논문 1편 (25,000 단어)
100K 토큰 ≈ 단행본 1/3 (75,000 단어)
200K 토큰 ≈ 단행본 2/3 (150,000 단어) ← Claude Opus 4.7
256K 토큰 ≈ 단행본 + 논문 여러 편 ← GPT-5.5
1,000K 토큰 ≈ 단행본 2.5권 (750,000 단어) ← Gemini 2.x
리서치 실무 환산:
· 설문 응답 1건 ≈ 200 토큰 (한국어 기준)
· 100건 처리: 최소 20K 토큰 → 32K 이상 모델 필요
· 1,000건 처리: 200K 토큰 → Claude 또는 Gemini 필요
· 5,000건 처리: 1,000K 토큰 → Gemini 2.x 또는 배치 처리 필요
🔄 Context Window를 넘으면 어떻게 되나?
두 가지 동작 방식이 있어요:
- 오래된 내용 자르기(Truncation): 창 초반 내용이 잘려나가 AI가 "건망증" 상태가 됨
- 오류 발생: 일부 API는 창 한계 초과 시 에러 반환
그래서 긴 대화를 이어갈수록 AI가 "아까 뭐 말했지?"를 잊어버리는 게 이 이유예요.
💡 Context Window 한계를 극복하는 방법
| 방법 | 원리 | 연계 |
|---|---|---|
| RAG 사용 | 전체를 넣지 않고 필요한 부분만 검색해서 넣음 | Week 2 |
| 배치 처리 | 100건씩 나눠서 여러 번 AI 호출 후 결과 합침 | Week 5 Make.com |
| 요약 후 재입력 | 긴 대화를 요약해서 새 대화의 System Prompt에 넣음 | 프롬프트 전략 |
| 큰 창 모델 선택 | Gemini 2.x의 1M 창으로 통째로 처리 | 모델 선택 |
🔄 Week 1-5와의 연결: 이제 다시 보이는 것들
LLM 작동 원리를 알고 나면, 지난 5주 동안 배운 도구들이 새롭게 보여요. 왜 그 도구가 그런 방식으로 작동하는지 이제 이해할 수 있거든요.
| 주차 | 도구 | Week 6 지식과의 연결 |
|---|---|---|
| Week 1 | AI Agent | Agent가 "스스로 판단"하는 건 LLM의 Inference 결과예요. Agent의 추론 능력 = LLM의 Temperature가 낮을 때 예측 가능한 판단을 하도록 설정한 것. |
| Week 2 | RAG | RAG의 핵심 역할: LLM의 환각을 줄이고 Context Window 한계를 극복하는 것. 모델이 모르는 내용을 검색해서 Context에 넣어줌으로써 "알고 있는 것처럼" 만들어줘요. |
| Week 3 | API | LLM API = 모델의 Inference를 외부에서 호출하는 인터페이스. API를 통해 Temperature, Context Window 크기 등 파라미터를 직접 조절할 수 있어요. |
| Week 4 | NotebookLM | NotebookLM = Gemini + RAG의 완제품. "내 자료만 읽는다"는 건 해당 자료가 Context에 들어간다는 뜻. Context Window가 클수록 더 많은 자료를 한 번에 참조 가능. |
| Week 5 | Make.com / n8n | 자동화 파이프라인의 LLM 모듈 = API 호출 + Temperature 설정 + Prompt 전달. 배치 처리로 Context Window 한계를 넘는 대용량 분석도 가능. |
🔗 연결의 깨달음: Week 1-5는 각각 독립된 도구가 아니에요. 모두 LLM이라는 하나의 엔진 위에서, 그 한계(환각, Context Window, 최신 정보 부재)를 극복하거나 활용하는 다양한 방법들이었어요.
❓ 자주 하는 질문 (FAQ)
Q1. GPT와 Claude 중에 뭐가 더 좋아요?
"더 좋은 것"은 없어요. 용도에 따라 달라요. 복잡한 추론·코딩은 GPT-5.5가 강하고, 긴 문서 분석·지시 준수는 Claude Opus 4.7이 강해요. 리서치 업무라면 두 가지를 병행하는 게 현실적이에요. 중요한 건 "어떤 모델이 좋냐"보다 "이 업무에 어떤 모델이 맞냐"를 판단하는 능력이에요.
Q2. 한국어로 질문하면 왜 영어보다 답변이 짧거나 이상할 때가 있나요?
두 가지 이유예요. 첫째, 토큰 소비량: 한국어는 영어보다 토큰을 3-5배 더 쓰기 때문에 같은 컨텍스트 창에 담을 수 있는 정보량이 적어요. 둘째, 학습 데이터 비율: 인터넷의 한국어 텍스트 비율이 영어보다 훨씬 적어서 한국어 패턴 학습이 덜 됐어요. 해결책: 영어로 질문하고 한국어 번역을 요청하거나, 한국어에 강한 모델(Claude, Gemini)을 선택하세요.
Q3. AI가 제 정보를 학습하나요? 회사 자료를 넣어도 되나요?
모델마다 달라요. ChatGPT 무료버전은 대화가 학습에 사용될 수 있어요. ChatGPT 유료(Team/Enterprise), Claude, Azure OpenAI는 기본적으로 학습에 사용하지 않아요. 회사 민감 자료 사용 전에 반드시 해당 서비스의 데이터 처리 정책을 확인하세요. 가장 안전한 건 Azure OpenAI 또는 자체 호스팅(Qwen·Gemma)이에요.
Q4. AI 답변이 매번 다른 이유가 뭔가요?
Temperature 때문이에요. 기본값(약 0.7~1.0)에서는 AI가 확률적으로 단어를 선택하기 때문에 같은 질문에도 매번 다른 답이 나와요. 일관된 답이 필요하다면 Temperature를 0에 가깝게 낮추거나, API를 쓸 때 seed 파라미터를 고정하면 돼요.
Q5. AI 모델의 지식 컷오프란 뭔가요? 최신 뉴스를 AI가 왜 모르나요?
LLM은 특정 날짜까지의 텍스트로 학습(Pre-training)하고 끝나요. 그 이후 세상이 어떻게 바뀌었는지 AI는 모르죠. 이걸 지식 컷오프(Knowledge Cutoff)라고 해요. 해결책: ① Gemini처럼 Google Search 실시간 검색을 연동한 모델 사용 ② RAG로 최신 뉴스 데이터를 Context에 직접 주입 ③ ChatGPT의 웹 검색 플러그인 활성화.
Q6. LLM은 계속 발전하나요? 지금 배운 게 금방 구식이 되지 않을까요?
원리는 구식이 되지 않아요. 토큰화, 확률 기반 예측, Context Window, 환각의 원인 — 이 개념들은 모델이 아무리 발전해도 여전히 적용돼요. 모델 이름과 성능 수치는 바뀌지만, "왜 이렇게 동작하는가"를 이해하면 새 모델이 나와도 빠르게 적응할 수 있어요. 원리 > 스펙 암기예요.
🎓 핵심 요약
🔮 LLM = 예언하는 자동완성
AI는 정답을 아는 게 아니라, 다음에 올 가장 그럴듯한 단어를 확률로 예측한다.
⚙️ 토큰이 AI의 기본 언어 단위. 한국어는 영어보다 3-5배 토큰 소비.
📏 Context Window가 AI의 작업 기억 한계. 창 밖은 존재하지 않는다.
🎲 환각은 AI에게 "모른다"는 개념이 없어서 생기는 본질적 특성. RAG와 검증으로 줄인다.
🌡️ Temperature로 창의성(높음) vs 일관성(낮음)을 조절한다.
🏆 모델 선택 원칙 (2026-05-06 기준):
정성 분석 → Claude Opus 4.7 | 보안 최우선 → Azure OpenAI
긴 문서 → Gemini 2.x | 로컬 처리 → Gemma 4
대용량 → GPT-5.5 | 다국어 자체 배포 → Qwen 3.6
NVIDIA GPU 배치 → Nemotron 3 | 이미지+로컬 → Gemma 4 (VLM)
🔗 연결 관점: Week 1-5의 모든 도구는 LLM의 한계(환각, Context Window, 지식 컷오프)를 극복하거나 장점을 활용하는 방법들이었다.