AI 코딩 성능을 바꾸는 하네스 엔지니어링 4가지 핵심 원칙: SWE-bench 50%p 격차의 원인 벤치마크 SWE-bench Verified 인용 본인 4주 적용 측정 4원칙 ROI 분석 동일한 모델이 어떤 환경에선 SWE-bench Verified 점수가 30%대에 머물고, 어떤 환경에선 80%를 넘는다. 모델이 같은데 왜 50%p나 차이가 날까? 답은 하네스(harness) 에 있다. 코딩 에이전트가 코드베이스를 보고·고치고·검증하는 도구·문서·실행 환경의 묶음이다. 4주간 본인 프로젝트에서 측정·검증한 4가지 핵심 원칙 을 정리한다. 1. 왜 모델보다 하네스가 더 큰 변수인가 SWE-bench Verified는 실제 GitHub 이슈를 모델이 수정하게 하는 표준 벤치마크다. 흥미로운 사실은 같은 Claude·GPT·Gemini 모델로도 하네스에 따라 점수 격차가 30-50%p 까지 벌어진다는 점이다. "모델 한 단계 업그레이드가 주는 점수 향상보다, 하네스 한 단계 개선이 주는 향상이 더 크다." — Princeton·Stanford 공동 연구진의 SWE-bench 분석 요약 이 사실은 두 가지 의미가 있다. (1) 같은 비용으로 더 큰 효과를 내려면 하네스에 투자하라. (2) 하네스를 잘 짠 팀은 모델 업그레이드가 늦어도 따라잡힌다. 2. 4가지 핵심 원칙 원칙 1 컨텍스트 압축: "필요한 만큼만, 가장 신선한 것으로" 에이전트가 한 번에 보는 컨텍스트는 좁고 신선해야 한다. 전체 레포를 매번 읽히면 모델이 산만해지고, 옛 정보가 새 정보를 덮는다. 읽기 도구 분리 : 파일 경로 검색 / 키워드 검색 / 파일 읽기 / 디렉터리 트리 — 4가지로 분리 섹션 단위 읽기 : 큰 파일은 줄 범위로 부분만 읽기 토큰 예산 명시 : 한 작업의 토큰 한도를 사전에 정해 두기 ...