K-garoo Lessons | AI Foundations

AI는 기대와 실망을 반복하며 여기까지 왔습니다

History

현재의 AI 붐은 갑자기 나온 마법이 아니라, 오래된 실패와 세 가지 임계점 위에 서 있습니다.

초기 AI는 사람이 규칙을 잘 넣으면 지능이 생길 것이라고 믿었습니다. 하지만 현실 세계는 규칙으로 다 적을 수 없었고, 데이터와 컴퓨트도 부족했습니다. 1차 AI 겨울은 초기 퍼셉트론과 상징주의의 한계가 드러나며 왔고, 2차 AI 겨울은 전문가 시스템이 확장되지 않으며 왔습니다.

부활의 계기는 역전파, 대규모 데이터, GPU, 그리고 트랜스포머입니다. 역전파는 신경망을 학습시키는 핵심 방법을 제공했고, AlexNet은 데이터와 GPU가 만났을 때 딥러닝이 현실 문제를 압도할 수 있음을 보여줬습니다. 트랜스포머는 순차 처리의 벽을 낮추고 대규모 언어 모델의 기반이 되었습니다.

AI 겨울	능력이 없어서만 온 것이 아니라, 제품화와 인프라가 기대를 따라가지 못할 때 찾아왔습니다.
AlexNet의 의미	데이터, 모델 구조, GPU가 동시에 임계점을 넘으면 오래된 아이디어도 갑자기 실용 기술이 됩니다.
트랜스포머의 의미	문장 안의 멀리 떨어진 요소를 함께 보며 언어를 대규모로 학습할 수 있게 만들었습니다.
세 번째 겨울 질문	능력은 커졌지만 비용, 신뢰, 규제, 제품 경험이 따라오지 못하면 다시 실망이 올 수 있습니다.

스케일링은 모델 크기보다 균형의 문제입니다

Scaling

모델, 데이터, 학습 컴퓨트, 추론 시간이 함께 설계될 때 능력이 드러납니다.

스케일링 법칙은 모델을 키우면 성능이 좋아진다는 관찰에서 시작했지만, 실전의 핵심은 무작정 키우기가 아닙니다. Chinchilla 이후에는 파라미터 수보다 데이터 양과 학습 비율의 균형이 중요해졌습니다. 큰 모델에 적은 데이터를 먹이면 비효율적이고, 작은 모델도 충분한 데이터와 적절한 학습으로 강력해질 수 있습니다.

추론 모델은 여기에 네 번째 축을 더합니다. 답을 바로 내는 대신 더 오래 탐색하고 검증하면 수학, 코드, 계획, 분석 작업에서 성능이 좋아질 수 있습니다. 하지만 느리고 비싸며, 모든 질문에 필요한 것은 아닙니다. 실무에서는 “빠른 초안이 필요한가, 깊은 검토가 필요한가”를 먼저 나눠야 합니다.

Model파라미터 수

기억하고 일반화할 수 있는 용량을 키우지만, 비용과 지연도 함께 키웁니다.

Data학습 데이터

품질과 다양성이 낮으면 큰 모델도 잘못된 패턴을 자신 있게 배웁니다.

Train학습 컴퓨트

모델을 만드는 단계의 비용이며 한 번 크게 들어갑니다.

Inference추론 컴퓨트

사용할 때마다 반복 지불하는 비용입니다. 긴 컨텍스트와 긴 사고는 곧 비용입니다.

추론 모델은 더 오래 생각하지만 항상 더 낫지는 않습니다

Reasoning

CoT 프롬프트와 추론 모델, DeepSeek R1 이후의 가격 경쟁, 안전 이슈를 함께 봅니다.

Chain-of-Thought는 사용자가 모델에게 중간 추론을 쓰게 유도하는 프롬프트 패턴입니다. 반면 추론 모델은 모델 설계와 학습 단계에서 어려운 문제를 더 오래 탐색하도록 만들어진 계열입니다. o1에서 o3로 이어지는 흐름과 DeepSeek R1의 등장은 추론 능력이 제품 경쟁의 핵심이 되었음을 보여줬습니다.

하지만 추론은 만능 스위치가 아닙니다. 단순 요약이나 문장 다듬기에는 과합니다. 반대로 버그 원인 분석, 복잡한 기획 비교, 다단계 수학, 긴 코드베이스 리팩토링처럼 중간 검토가 중요한 작업에는 효과가 큽니다. 더 똑똑한 모델이 더 그럴듯하게 속일 수 있다는 안전 문제도 함께 봐야 합니다.

추론 모델을 켤 때
- 답이 틀리면 비용이 큰가?
- 여러 조건을 동시에 비교해야 하는가?
- 중간 단계 검증이 필요한가?
- 빠른 초안보다 정확한 계획이 중요한가?

환각은 실수가 아니라 생성 방식의 그림자입니다

Truth

AI는 지식 DB가 아니라 확률적 생성기이므로, 검증 루프 없이 믿으면 위험합니다.

환각은 존재하지 않는 논문, 틀린 API, 오래된 법규, 가짜 수치가 그럴듯한 문장으로 나오는 현상입니다. 이는 모델이 악의적으로 거짓말해서가 아니라, 학습된 패턴을 바탕으로 다음 토큰을 생성하기 때문에 생깁니다. 질문이 모호하거나 근거가 없거나 최신 정보가 필요한 경우 위험이 커집니다.

환각에는 사실 자체가 틀린 경우와, 주어진 문맥을 잘못 해석하는 경우가 있습니다. 첫 번째는 외부 검색과 공식 문서 대조가 필요하고, 두 번째는 컨텍스트 구조와 출력 형식 개선이 중요합니다. 프롬프트로 “거짓말하지 마”라고 쓰는 것만으로는 충분하지 않습니다.

낮은 위험	브레인스토밍, 제목 후보, 문장 톤 수정처럼 사람이 쉽게 판단할 수 있는 작업
중간 위험	회의록, 데이터 요약, 코드 수정처럼 근거와 테스트를 붙여야 하는 작업
높은 위험	법률, 의료, 금융, 보안, 개인정보, 결제처럼 최신성과 책임이 중요한 작업

강의 질문: 이 결과가 틀렸을 때 누가, 무엇으로, 얼마나 빨리 알아차릴 수 있습니까? 이 질문에 답하지 못하면 자동화 범위를 줄입니다.

정렬은 대화의 예절을 만들지만 진실을 보장하진 않습니다

Alignment

SFT, RLHF, DPO, RLVR, 헌법 AI, 해석가능성의 역할과 한계를 구분합니다.

사전학습만 끝난 모델은 대화형 제품으로 바로 쓰기 어렵습니다. SFT는 좋은 답변 예시를 통해 형식을 가르치고, RLHF는 사람 선호를 보상으로 삼아 대화 품질을 조정합니다. DPO는 보상 모델을 거치지 않고 선호 데이터로 직접 조정하는 방식이고, RLVR은 수학 정답처럼 검증 가능한 보상을 활용합니다.

정렬은 모델을 더 유용하고 덜 위험하게 만들지만, 모든 문제를 해결하지 않습니다. 보상 해킹, 아첨, 길이 편향, 심사자 한계가 남습니다. 헌법 AI는 사람이 아니라 원칙으로 평가하려는 접근이고, 해석가능성은 블랙박스 내부의 개념을 찾으려는 시도입니다. 확장가능 감독과 AI 토론 방식도 결국 인간 판단을 어떻게 증폭할 것인가의 문제입니다.

SFT형식을 배웁니다

질문에 맞게 답하고, 거절하고, 설명하는 대화 양식을 만듭니다.

RLHF선호를 맞춥니다

사람이 더 좋다고 고른 답변 쪽으로 행동을 이동시킵니다.

DPO/RLVR효율과 검증을 더합니다

보상 모델을 줄이거나, 명확히 검증 가능한 과제에서 강화합니다.

Interpretability내부를 보려 합니다

모델이 어떤 개념을 어떻게 표현하는지 이해하려는 안전 연구입니다.

멀티모달은 AI의 작업 표면을 넓힙니다

Multimodal

텍스트, 이미지, 오디오, 비디오가 같은 작업 흐름 안으로 들어옵니다.

멀티모달 AI는 텍스트뿐 아니라 이미지, 스크린샷, 표, 문서, 음성, 영상을 함께 다룹니다. CLIP 이후 이미지와 언어를 같은 의미 공간에 놓는 방식이 발전했고, Gemini류 모델과 여러 옴니모달 인터페이스는 “화면을 보고 대화하는” 경험을 만들었습니다.

다만 이미지를 이해하는 것과 이미지를 생성하는 것은 다릅니다. OCR처럼 보이는 기능도 단순 문자 인식과 시각적 추론이 섞여 있고, UI 스크린샷을 보고 버그를 찾는 일도 파일 구조와 코드 검증이 붙어야 안정적입니다. 멀티모달은 관찰을 넓히지만, 행동과 검증은 별도 설계가 필요합니다.

멀티모달 요청 예시
이 스크린샷에서 깨진 UI 요소를 찾아줘.
가능한 원인을 3가지로 추정하고,
수정 전에 확인해야 할 CSS/컴포넌트 파일을 말해줘.

프롬프트는 중요하지만 작업 전체는 아닙니다

Prompt Limit

좋은 질문은 출발점이고, 긴 작업에서는 컨텍스트와 도구가 성패를 가릅니다.

좋은 프롬프트는 역할, 목표, 맥락, 제약, 출력 형식, 예시를 담습니다. 하지만 프롬프트를 아무리 잘 써도 모델이 필요한 자료를 못 보거나, 대화가 길어져 핵심을 잃거나, 실행할 도구가 없으면 결과는 흔들립니다. 긴 컨텍스트에서는 중간 정보가 무시되는 Lost-in-Middle 문제가 생기고, 한국어는 같은 의미를 표현하는 데 토큰 비용이 더 커질 수 있습니다.

그래서 실무에서는 “질문 잘하기”보다 “일할 수 있는 환경 만들기”로 넘어가야 합니다. 프로젝트 규칙, 회의록, 데이터, 화면, API 문서, 예시 출력, 검증 명령을 구조화해야 합니다. 프롬프트는 사라지지 않지만, 컨텍스트 엔지니어링 안의 한 요소가 됩니다.

프롬프트로 되는 일	짧은 문장 변환, 아이디어 확장, 형식 지정, 간단한 비교
컨텍스트가 필요한 일	긴 문서 요약, 프로젝트 규칙 반영, 일관된 톤 유지, 여러 파일 작업
도구가 필요한 일	코드 수정, 테스트 실행, 브라우저 확인, 파일 정리, API 호출

컨텍스트 엔지니어링은 정보 건축입니다

Context

Write, Select, Compress, Isolate 네 축으로 AI가 보는 작업실을 설계합니다.

컨텍스트 윈도우는 모델이 한 번에 볼 수 있는 작업대입니다. 여기에 무엇을 올리고 무엇을 빼느냐가 결과를 좌우합니다. 모든 자료를 한꺼번에 넣는 방식은 비용도 크고 성능도 불균일합니다. 좋은 컨텍스트 설계는 반복 규칙을 밖에 저장하고, 이번 작업에 필요한 조각을 고르고, 긴 자료를 목적별로 압축하고, 서로 다른 작업을 분리합니다.

Write반복 규칙은 파일로 씁니다

AGENTS.md, CLAUDE.md, design.md, 체크리스트처럼 계속 쓰는 기준을 남깁니다.

Select필요한 조각만 고릅니다

전체 폴더가 아니라 현재 작업에 필요한 파일, 화면, 링크, 로그만 선택합니다.

Compress목적별로 줄입니다

긴 회의록은 결정, 액션, 근거, 미확인으로 나눠 압축합니다.

Isolate큰 작업은 분리합니다

다른 실험, 역할, 브랜치, subagent를 분리해 컨텍스트 오염을 줄입니다.

70-80% 법칙: 컨텍스트 창을 끝까지 채우기보다 여유를 남깁니다. 남은 공간은 모델이 중간 상태를 정리하고 검증하는 데 필요합니다.

모델 생태계와 비용도 수업의 일부입니다

Ecosystem

오픈 웨이트, 추론 인프라, 규제, 노동 변화는 도구 선택과 자동화 범위를 바꿉니다.

오픈 웨이트 모델은 폐쇄형 모델의 가격 상한선을 낮추고, 로컬 실행과 파인튜닝 생태계를 키웠습니다. 하지만 오픈 웨이트와 오픈 소스는 다릅니다. 가중치를 쓸 수 있다는 것과 학습 데이터, 코드, 재현성이 모두 열린 것은 같은 말이 아닙니다.

추론 인프라는 모델을 만드는 비용보다 돌리는 비용이 얼마나 중요한지 보여줍니다. KV-Cache, vLLM, PagedAttention, GPU 공급, 긴 컨텍스트 비용은 모두 제품 설계에 영향을 줍니다. 규제는 특히 고위험 AI, 투명성, AI 리터러시 요구를 강화하고 있고, 일의 미래는 직업 전체보다 작업 단위의 변화를 먼저 보여줍니다.

모델 선택	최고 성능, 비용, 지연, 데이터 민감도, 로컬 실행 가능성을 함께 봅니다.
인프라 선택	긴 컨텍스트와 높은 호출 빈도는 비용 문제이므로 처음부터 압축과 캐싱을 고려합니다.
규제와 안전	민감 영역에서는 AI 결과보다 기록, 설명 가능성, 사람 검토가 중요합니다.
노동 변화	실행보다 문제 정의, 맥락 설계, 검증, 책임 있는 판단의 가치가 커집니다.

시연 포인트

Watch

개념을 실제 작업 감각으로 옮기기 위한 영상입니다.

Codex GoalCodex /goal로 긴 작업을 목표 기반으로 묶기

목표, 하위 작업, 검증 루프로 넘어가는 흐름을 확인합니다.

Paperclip역할 분리로 문제를 넓게 보는 연습

CEO, CTO, 마케터, 리서처처럼 관점을 나누면 아이디어 검토가 어떻게 달라지는지 봅니다.

AI를 믿기 전에, 작동 방식과 실패 방식을 먼저 봅니다.