AI 코딩 성능을 바꾸는 하네스 엔지니어링 4가지 핵심 원칙: SWE-bench 50%p 격차의 원인 벤치마크 SWE-bench Verified 인용 본인 4주 적용 측정 4원칙 ROI 분석 동일한 모델이 어떤 환경에선 SWE-bench Verified 점수가 30%대에 머물고, 어떤 환경에선 80%를 넘는다. 모델이 같은데 왜 50%p나 차이가 날까? 답은 하네스(harness) 에 있다. 코딩 에이전트가 코드베이스를 보고·고치고·검증하는 도구·문서·실행 환경의 묶음이다. 4주간 본인 프로젝트에서 측정·검증한 4가지 핵심 원칙 을 정리한다. 1. 왜 모델보다 하네스가 더 큰 변수인가 SWE-bench Verified는 실제 GitHub 이슈를 모델이 수정하게 하는 표준 벤치마크다. 흥미로운 사실은 같은 Claude·GPT·Gemini 모델로도 하네스에 따라 점수 격차가 30-50%p 까지 벌어진다는 점이다. "모델 한 단계 업그레이드가 주는 점수 향상보다, 하네스 한 단계 개선이 주는 향상이 더 크다." — Princeton·Stanford 공동 연구진의 SWE-bench 분석 요약 이 사실은 두 가지 의미가 있다. (1) 같은 비용으로 더 큰 효과를 내려면 하네스에 투자하라. (2) 하네스를 잘 짠 팀은 모델 업그레이드가 늦어도 따라잡힌다. 2. 4가지 핵심 원칙 원칙 1 컨텍스트 압축: "필요한 만큼만, 가장 신선한 것으로" 에이전트가 한 번에 보는 컨텍스트는 좁고 신선해야 한다. 전체 레포를 매번 읽히면 모델이 산만해지고, 옛 정보가 새 정보를 덮는다. 읽기 도구 분리 : 파일 경로 검색 / 키워드 검색 / 파일 읽기 / 디렉터리 트리 — 4가지로 분리 섹션 단위 읽기 : 큰 파일은 줄 범위로 부분만 읽기 토큰 예산 명시 : 한 작업의 토큰 한도를 사전에 정해 두기 ...
AI 시대의 창작: 종말인가 진화인가 — 8개월 운영 데이터로 본 크리에이티브 생존 전략 본인 8개월 콘텐츠 데이터 산업 5개 비교 인터뷰 크리에이터 6명 "AI가 창작을 끝낸다"와 "AI가 창작을 진화시킨다"는 두 주장은 모두 절반만 맞다. 산업별로 답이 다르고, 크리에이터의 포지셔닝에 따라 결과가 다르다. 본인 8개월 콘텐츠 운영 데이터, 6명 크리에이터 인터뷰, 5개 산업 비교를 통해 — 어떤 창작이 죽고, 어떤 창작이 살아남는지 정리한다. 1. "창작 종말"이라는 주장의 근거와 한계 종말설을 미는 사람들은 다음 세 가지를 근거로 든다. 스톡 이미지·일러스트 시장의 가격 붕괴 — Midjourney·Stable Diffusion 이후 단가가 60-80% 하락 번역·교정 산업의 재편 — 단순 번역 단가가 절반 이하로 SEO 글쓰기 단가 하락 — 콘텐츠 농장형 글이 거의 무료에 가까워짐 하지만 이 세 영역의 공통점은 "평균 품질이면 충분한 영역" 이라는 것이다. 이 영역은 AI가 빠르게 잠식한다. 반면 "개인의 시점·경험·취향이 핵심인 영역" 은 오히려 단가가 올라간다. 2. 산업별 영향 차이: 5개 영역 비교 영역 AI 침투도 단가 변화 (2024→2026) 핵심 차이 스톡 이미지 매우 높음 −72% 평균 품질로 충분 SEO 농장 글 매우 높음 −68% 검색 의도만 충족 일러스트 (브랜드용) 중간 −25% 스타일·정체성 일부 필요 다큐형 글쓰기 낮음 +15% 1차 자료·인터뷰 필요 개인 에세이·뉴스레터 매우 낮음 +38% 인격·시점이 본질 창작이 통째로 죽는 게 아니다. "평균 품질로 충분한 영역"이 죽고, "...