벤치마킹 앱을 작업 단위로 해부합니다
Project Board완성품이 아니라 첫 구현 단위를 찾습니다.
참가자가 가져온 웹앱, 모바일앱, 자동화하고 싶은 프로세스를 화면, 입력, 출력, 데이터, API, LLM 개입 지점으로 나눕니다. 앱이 아니어도 괜찮습니다. 반복해서 사람이 복사하고 정리하고 판단하는 과정이라면 자동화 후보입니다.
사용자가 반드시 거치는 화면 하나를 고릅니다.
사용자가 넣거나 시스템이 가져오는 정보를 정의합니다.
화면, 문서, 알림, 저장 데이터 중 무엇이 나와야 하는지 씁니다.
요약, 생성, 분류, 추천, 검토, 자동 클릭 중 무엇이 필요한지 봅니다.
벤치마킹 해부 프롬프트
서비스 링크:
꼭 흉내 내고 싶은 화면:
사용자 입력:
시스템 출력:
데이터 저장 방식 추정:
API가 필요해 보이는 곳:
LLM이 판단하면 좋은 곳:
첫 MVP에서 버릴 것:
하네스는 AI가 일하게 만드는 작업 환경입니다
Harness모델이 파일, 명령, 브라우저, Git, 외부 도구를 만날 때 작업자가 됩니다.
채팅창은 답변에 강하지만, 실제 업무는 읽기, 수정, 실행, 확인, 다시 수정의 반복입니다. 하네스는 모델에게 이 반복을 가능하게 하는 외피입니다. Codex app, Claude Code, Cursor, OpenClaw, Paperclip 같은 도구는 모두 다른 방식으로 모델에게 작업 환경을 줍니다.
| 보이지 않는 지시 | 프로젝트 규칙, 톤, 금지사항, 테스트 기준을 시스템/파일 레벨에서 관리합니다. |
|---|---|
| 호출 가능한 도구 | 파일 읽기/쓰기, 터미널, 브라우저, Git, MCP, 검색, 스크린샷을 제공합니다. |
| 검증 루프 | 테스트, lint, curl, 스크린샷, 사람 리뷰로 완료 여부를 확인합니다. |
| 권한 경계 | 삭제, 결제, 배포, 개인정보 전송 같은 동작은 승인과 제한이 필요합니다. |
AGENTS.md와 CLAUDE.md는 프로젝트의 작업 규칙입니다
Project Memory매번 같은 설명을 반복하지 않도록 프로젝트의 두뇌를 파일로 둡니다.
좋은 프로젝트 규칙 파일은 AI가 무엇을 실행해야 하는지, 어떤 스타일을 따라야 하는지, 어떤 파일을 먼저 봐야 하는지, 어떤 검증을 해야 하는지 알려줍니다. 나쁜 규칙 파일은 추상적인 미덕만 나열합니다. 좋은 규칙 파일은 명령어, 구조, 금지사항, 완료 기준을 짧고 구체적으로 씁니다.
# Project Working Rules
## Run
- npm start: local server
- npm test: unit checks
- npm run lint: style checks
## Style
- Korean copy should be natural and practical.
- Keep UI panels dense, dark, and readable.
## Structure
- Pages live in route folders with index.html.
- Shared styling lives in assets/css/site.css.
## Verify
- Confirm route returns 200.
- Check mobile width before final handoff.
AI가 직접 확인할 수 있는 명령을 적습니다.
톤, 컴포넌트, 금지 표현, 레이아웃 원칙을 짧게 둡니다.
어느 폴더에 무엇이 있는지 알려 탐색 비용을 줄입니다.
테스트, 화면, 링크, 수동 확인 기준을 명시합니다.
에이전트는 관찰, 행동, 검증을 반복합니다
Agent Loop워크플로우와 에이전트, 단일 에이전트와 멀티 에이전트를 구분합니다.
워크플로우는 사람이 미리 정한 순서를 실행합니다. 에이전트는 중간 결과를 보고 다음 행동을 다시 선택합니다. Gather, Act, Verify 루프가 있어야 에이전트입니다. 다만 모든 것을 에이전트라고 부르는 순간 설계가 흐려집니다. 반복 순서가 고정되어 있으면 워크플로우가 더 안정적이고, 상황 판단이 필요할 때 에이전트가 유리합니다.
멀티 에이전트나 역할 기반 프레임워크는 아이디어 확장에는 좋지만, 태스크가 무한히 늘고 비용이 커질 수 있습니다. Claude Agent SDK, LangGraph, CrewAI, AutoGen, PydanticAI, SmolAgents 같은 선택지는 문제 성격에 따라 다릅니다. 처음에는 프레임워크 없이 작은 루프를 손으로 설계하는 편이 더 빠를 때가 많습니다.
| Gather | 코드, 문서, 화면, 로그, 사용자 요구를 읽습니다. |
|---|---|
| Act | 파일 수정, 도구 호출, 브라우저 조작, 문서 생성을 수행합니다. |
| Verify | 테스트, diff, 스크린샷, 근거 대조로 결과를 확인합니다. |
| Reflect | 실패 원인을 줄이고 다음 행동을 정합니다. |
Subagent는 컨텍스트를 분리하는 기술입니다
Subagents독립적인 질문이나 책임 범위를 병렬로 나눌 때 유용합니다.
Subagent는 작업을 자동으로 더 잘하게 만드는 장치가 아니라, 서로 다른 맥락을 섞지 않기 위한 분리 기술입니다. 한쪽은 코드 구조를 조사하고, 다른 한쪽은 테스트 전략을 만들고, 또 다른 한쪽은 특정 파일 범위만 수정하는 식으로 나눌 수 있습니다. 바로 다음 행동이 그 결과에 막혀 있다면 직접 처리하는 편이 빠릅니다.
“현재 nav가 모든 페이지에 어떻게 들어가 있나?”처럼 분리 가능한 조사.
한 에이전트는 CSS, 다른 에이전트는 HTML처럼 충돌이 적은 작업.
바로 다음 수정이 결과를 기다려야 하면 병렬성이 사라집니다.
여러 에이전트는 토큰과 검증 비용을 함께 늘립니다.
Computer Use는 API가 없는 표면을 자동화합니다
Computer Use화면을 보고 누르는 자동화는 강력하지만 느리고 깨지기 쉽습니다.
Computer Use는 AI가 브라우저나 데스크톱 화면을 보고 마우스와 키보드처럼 행동하는 방식입니다. API가 없거나 오래된 관리자 화면, 사람이 매번 눌러야 하는 반복 폼에서 유용합니다. 하지만 화면 자동화는 레이아웃 변화에 약하고, 로그인/결제/개인정보 같은 위험 동작에서는 사람 확인이 필수입니다.
| 먼저 볼 것 | 공식 API, CSV 내보내기, 파일 업로드, 이메일 파싱처럼 안정적인 경로가 있는지 확인합니다. |
|---|---|
| 맡기기 좋은 일 | 공개 페이지 비교, 표 복사, 스크린샷 확인, 반복 입력 초안 작성, 예약 가능 여부 조회. |
| 멈출 일 | 결제, 계정 삭제, 대량 발송, 민감 정보 제출, 복구 어려운 변경. |
MCP는 도구 연결, Skills는 업무 습관입니다
MCP / Skills외부 시스템 연결과 반복 절차를 분리해서 생각합니다.
MCP는 AI와 외부 도구를 연결하는 표준 프로토콜입니다. 호스트, 클라이언트, 서버 구조로 동작하고, 도구, 리소스, 프롬프트 같은 primitives를 통해 외부 세계를 모델에게 제공합니다. 파일 시스템, GitHub, Notion, 데이터베이스, 사내 API를 연결할 수 있지만, 토큰 비용, 보안, 서버 구현 복잡도를 함께 고려해야 합니다.
Skills는 특정 업무를 잘 수행하기 위한 절차서입니다. 도구가 있어도 잘 쓰는 법을 모르면 결과가 흔들립니다. SKILL.md는 업무의 목적, 트리거 설명, 절차, 규칙, 필요하면 허용 도구를 담습니다. 자동 매칭은 설명을 바탕으로 필요한 순간에 skill을 불러오는 방식입니다.
| Prompt | 이번 한 번의 목표와 맥락을 줍니다. |
|---|---|
| MCP | 외부 시스템을 호출할 수 있는 포트를 제공합니다. |
| Skills | 반복되는 업무 절차와 판단 기준을 재사용합니다. |
| Context Fork | 큰 작업에서 맥락을 분리하고, 특정 역할을 깨끗하게 유지합니다. |
RAG와 지식 관리는 검색보다 구조가 먼저입니다
RAG / Knowledge자료를 쌓는 것보다 찾고 쓰게 만드는 구조가 중요합니다.
RAG는 답변 전에 관련 문서를 검색해 컨텍스트에 넣는 방식입니다. 검색이 틀리면 답도 흔들리고, 맞는 문서를 가져와도 모델이 무시할 수 있으며, 청킹이 문맥을 끊으면 핵심이 사라집니다. 하이브리드 검색, 재순위화, 에이전틱 RAG는 이런 문제를 줄이기 위한 방법입니다.
개인과 조직의 지식 관리는 거창한 시스템보다 원칙이 먼저입니다. 원자료와 가공물을 분리하고, 문서 사이를 링크하고, 회의록과 결정사항을 구조화하고, AI가 어느 질문에서 어느 자료를 찾아야 하는지 알려줘야 합니다. 제2의 뇌는 기억 창고가 아니라 연결망입니다.
회의 녹취, 로그, 문서, 링크를 잃어버리지 않게 둡니다.
요약, 결정사항, 액션, FAQ, 템플릿을 따로 만듭니다.
관련 회의, 프로젝트, 코드, 자료를 서로 잇습니다.
AI가 어떤 질문에서 무엇을 찾아야 하는지 경로를 만듭니다.
에이전트 시대의 보안은 권한 설계입니다
SafetyPrompt injection, 권한 최소화, 검증 루프를 기본 운영 방식으로 둡니다.
프롬프트 인젝션은 사용자 지시나 외부 문서 속 지시가 모델의 원래 규칙을 덮으려는 공격입니다. 직접 인젝션은 대화 안에서 속이고, 간접 인젝션은 웹페이지, 이메일, 문서, 이미지 안에 숨어 들어옵니다. 에이전트가 도구를 사용할수록 이 문제는 출력 품질 문제가 아니라 실행 위험이 됩니다.
| 권한 최소화 | 필요한 도구만 열고, 위험한 동작은 승인 후 실행합니다. |
|---|---|
| 입력 검증 | 외부 문서의 지시문과 사용자의 실제 목표를 분리합니다. |
| 듀얼 검토 | 중요한 판단은 다른 모델, 테스트, 사람 리뷰로 확인합니다. |
| 로그 남기기 | 무엇을 읽고 무엇을 실행했는지 기록해야 나중에 추적할 수 있습니다. |
워크숍 시연 영상
WatchCodex와 Claude Code의 작업 표면을 빠르게 맞춥니다.
정해진 조건과 주기로 반복 작업을 실행시키는 사고방식을 봅니다.
API가 없는 업무도 자동화 후보로 바꾸는 방식을 확인합니다.
탐색, 구현, 검증을 병렬로 나누는 기준과 비용 증가 위험을 함께 봅니다.
외부 도구를 AI 작업 표면에 붙이는 감각을 시각적으로 확인합니다.
