트렌드나침반

글

AI 코딩 성능을 바꾸는 하네스 엔지니어링 4가지 핵심 원칙: SWE-bench 50%p 격차의 원인

AI 코딩 성능을 바꾸는 하네스 엔지니어링 4가지 핵심 원칙: SWE-bench 50%p 격차의 원인 벤치마크 SWE-bench Verified 인용 본인 4주 적용 측정 4원칙 ROI 분석 동일한 모델이 어떤 환경에선 SWE-bench Verified 점수가 30%대에 머물고, 어떤 환경에선 80%를 넘는다. 모델이 같은데 왜 50%p나 차이가 날까? 답은 하네스(harness) 에 있다. 코딩 에이전트가 코드베이스를 보고·고치고·검증하는 도구·문서·실행 환경의 묶음이다. 4주간 본인 프로젝트에서 측정·검증한 4가지 핵심 원칙 을 정리한다. 1. 왜 모델보다 하네스가 더 큰 변수인가 SWE-bench Verified는 실제 GitHub 이슈를 모델이 수정하게 하는 표준 벤치마크다. 흥미로운 사실은 같은 Claude·GPT·Gemini 모델로도 하네스에 따라 점수 격차가 30-50%p 까지 벌어진다는 점이다. "모델 한 단계 업그레이드가 주는 점수 향상보다, 하네스 한 단계 개선이 주는 향상이 더 크다." — Princeton·Stanford 공동 연구진의 SWE-bench 분석 요약 이 사실은 두 가지 의미가 있다. (1) 같은 비용으로 더 큰 효과를 내려면 하네스에 투자하라. (2) 하네스를 잘 짠 팀은 모델 업그레이드가 늦어도 따라잡힌다. 2. 4가지 핵심 원칙 원칙 1 컨텍스트 압축: "필요한 만큼만, 가장 신선한 것으로" 에이전트가 한 번에 보는 컨텍스트는 좁고 신선해야 한다. 전체 레포를 매번 읽히면 모델이 산만해지고, 옛 정보가 새 정보를 덮는다. 읽기 도구 분리 : 파일 경로 검색 / 키워드 검색 / 파일 읽기 / 디렉터리 트리 — 4가지로 분리 섹션 단위 읽기 : 큰 파일은 줄 범위로 부분만 읽기 토큰 예산 명시 : 한 작업의 토큰 한도를 사전에 정해 두기 ...

AI 시대의 창작: 종말인가 진화인가 — 8개월 운영 데이터로 본 크리에이티브 생존 전략

AI 시대의 창작: 종말인가 진화인가 — 8개월 운영 데이터로 본 크리에이티브 생존 전략 본인 8개월 콘텐츠 데이터 산업 5개 비교 인터뷰 크리에이터 6명 "AI가 창작을 끝낸다"와 "AI가 창작을 진화시킨다"는 두 주장은 모두 절반만 맞다. 산업별로 답이 다르고, 크리에이터의 포지셔닝에 따라 결과가 다르다. 본인 8개월 콘텐츠 운영 데이터, 6명 크리에이터 인터뷰, 5개 산업 비교를 통해 — 어떤 창작이 죽고, 어떤 창작이 살아남는지 정리한다. 1. "창작 종말"이라는 주장의 근거와 한계 종말설을 미는 사람들은 다음 세 가지를 근거로 든다. 스톡 이미지·일러스트 시장의 가격 붕괴 — Midjourney·Stable Diffusion 이후 단가가 60-80% 하락 번역·교정 산업의 재편 — 단순 번역 단가가 절반 이하로 SEO 글쓰기 단가 하락 — 콘텐츠 농장형 글이 거의 무료에 가까워짐 하지만 이 세 영역의 공통점은 "평균 품질이면 충분한 영역" 이라는 것이다. 이 영역은 AI가 빠르게 잠식한다. 반면 "개인의 시점·경험·취향이 핵심인 영역" 은 오히려 단가가 올라간다. 2. 산업별 영향 차이: 5개 영역 비교 영역 AI 침투도 단가 변화 (2024→2026) 핵심 차이 스톡 이미지 매우 높음 −72% 평균 품질로 충분 SEO 농장 글 매우 높음 −68% 검색 의도만 충족 일러스트 (브랜드용) 중간 −25% 스타일·정체성 일부 필요 다큐형 글쓰기 낮음 +15% 1차 자료·인터뷰 필요 개인 에세이·뉴스레터 매우 낮음 +38% 인격·시점이 본질 창작이 통째로 죽는 게 아니다. "평균 품질로 충분한 영역"이 죽고, "...

안드레이 카파시의 Claude Code 활용법 분석: 마크다운으로 구축하는 AI 세컨드 브레인 메모

안드레이 카파시의 Claude Code 활용법 분석: 마크다운으로 만드는 AI 세컨드 브레인 분석 자료 카파시 공개 노트·트윗 본인 6주 적용 측정 PR 22건 안드레이 카파시(Andrej Karpathy)는 OpenAI 창립 멤버이자 테슬라 AI 디렉터를 지낸 인물이다. 2025년부터 그가 공개적으로 사용 패턴을 보여주고 있는 "마크다운 + Claude Code" 워크플로 는 단순한 코딩 도구 사용법이 아니라, 지식과 실행을 같은 평면에 두는 세컨드 브레인 설계 에 가깝다. 그의 공개 자료를 분석하고 본인 6주 적용 결과를 정리했다. 1. 카파시가 공개한 핵심 패턴 카파시가 X(@karpathy) 계정과 자신의 GitHub 노트에서 반복적으로 강조하는 것은 세 가지다. "가장 먼저 만들어야 하는 파일은 코드가 아니라 AGENTS.md다. 그 다음이 코드다." — Karpathy, X 게시글 요약 AGENTS.md를 첫 파일로 — 에이전트가 처음 보는 문서가 모든 결과를 결정 자연어 = 코드 — 마크다운으로 의도를 적고, 코드는 그 결과물로 둠 세션 → 메모로 응결 — 끝난 작업은 짧은 마크다운 메모로 압축해 다음 세션이 읽도록 2. 카파시 패턴이 일반 가이드와 다른 점 흔한 "AI 코딩 잘 쓰기" 글과 카파시 패턴을 비교하면 차이가 명확해진다. 비교 항목 일반 가이드 카파시 패턴 출발점 프롬프트 엔지니어링 AGENTS.md(시스템 컨텍스트) 지식 저장소 대화 히스토리 마크다운 메모 디렉터리 세션 종료 시 요약 없음 5-10줄 메모로 응결 주요 스킬 "좋은 프롬프트 쓰기" "좋은 문서 쓰기" 카파시가 강조하는 것은 결국 프롬프트 엔지니어링이 문서 엔...

러닝 다이어트 최적화 알고리즘: 3년 차 러너 12주 측정 데이터

러닝 다이어트 최적화 알고리즘: 3년 차 러너 12주 측정 데이터 측정 기간 12주 본인 체중·페이스·근손실 추적 알고리즘 4개 변수 러닝으로 살을 빼는 사람들이 가장 자주 무너지는 지점은 "칼로리 적자만 만들면 된다" 는 단순화다. 실제로는 적자를 너무 빨리 만들면 페이스가 무너지고, 단백질이 부족하면 근손실로 기초대사가 떨어져 다시 살이 찐다. 본인 12주 측정 데이터로 검증한, 러닝 + 식단을 동시에 만족시키는 4변수 알고리즘 을 정리한다. 1. 왜 단순한 칼로리 적자 모델은 깨지는가 전통적 다이어트 권장은 "TDEE − 500kcal"다. 하지만 러너에게는 이 공식이 두 가지 이유로 깨진다. 적자가 페이스를 깎는다 — 글리코겐이 비면 같은 거리에서 페이스가 10-20초/km 느려진다. 적자가 근육을 깎는다 — 단백질이 부족하면 체지방보다 근육이 먼저 빠진다. 그래서 러너의 다이어트는 단순 적자 문제가 아니라 제약 조건이 있는 최적화 문제 다. 2. 4변수 최적화 모델 최대화: ΔBodyFat 제약: 단백질 ≥ 1.8g/kg, 페이스 손실 ≤ 5초/km, 회복 HRV 유지 네 개의 변수가 서로를 제한한다. 한 변수를 너무 강하게 잡으면 다른 변수가 무너진다. 변수 의미 본인 적용 값 칼로리 적자 일일 TDEE − 섭취 −400kcal (체중의 0.5%/주) 단백질 g/kg/day 1.8-2.0g/kg 탄수화물 러닝 전후 비중 러닝 전 50%, 후 30%, 휴식일 20% 회복 신호 HRV·수면·심박 HRV 평균 −10% 이내 유지 3. 알고리즘 의사코드 // 매주 일요일 저녁에 실행 function nextWeekPlan(state): if state.weeklyWeightLoss > ...

AI 네이티브 시대 1인 기업의 수익 구조: 5개 케이스 ARR 분해

AI 네이티브 시대 1인 기업의 수익 구조: 5개 케이스 ARR 분해 분석 케이스 5건 2024-2026 ARR 데이터 한국 적용 가능성 평가 "1인 기업이 수십억을 번다"는 헤드라인은 흔하지만, 그 매출이 어디서 오는지 분해해서 보여주는 글은 드물다. 5개의 1인·소수 운영 케이스를 ARR(연 반복 매출), 인당 매출, 고정비 비율로 분해해 봤다. 결론은 단순하다 — AI는 인건비가 아니라 고정비를 잡아먹는 구조 로 작동한다. 1. 분석 대상: 5개 1인·초소형 케이스 모두 공개된 인터뷰·블로그·연차 보고에서 검증 가능한 숫자만 사용했다. 비공개 매출은 보수적인 추정만 표기한다. 케이스 인원 ARR(추정/공개) 주요 출처 Pieter Levels (Nomad List 외) 1명 $3M+ 본인 공개 트윗·인터뷰 Tony Dinh (Black Magic 등) 1명 $1M+ 본인 블로그 Daniel Vassallo (Small Bets) 1명 $2M+ 본인 인터뷰 Plausible Analytics 초기 2명 $1.4M (2023) 오픈 스타트업 페이지 한국 사례 A (가명, 익명 인터뷰) 1명 약 8억 원 2026-Q1 인터뷰 2. 공통 수익 공식: ARR = 사용자 수 × ARPU × 잔존율 5개 케이스를 같은 공식에 넣고 비교했다. 차이는 단 세 변수에서 나온다. ARR = 사용자 수 × ARPU(연) × 잔존율 − (고정비 + 변동비) 핵심은 고정비 항목이 거의 없다는 점 이다. 사무실, 정규직 인건비, 마케팅 에이전시 — AI 네이티브 1인 기업에서는 이 세 가지가 0에 수렴한다. 비용 항목 전통적 SaaS AI 네이티브 1인 인건비 매출의 50-70% 매출의 0-10% (창업자 1인) 마케팅 매출의 2...

AI 에이전트 시대의 일하는 법: Claude Code와 하네스 엔지니어링 4주 실측

AI 에이전트 시대의 일하는 법: Claude Code와 하네스 엔지니어링 4주 실측 실측 기간 4주 (2026-04 → 2026-05) 비교 도구 3종 분석 PR 47건 "AI가 코딩을 대체한다"는 말은 절반만 맞다. 정확히는 코딩 에이전트를 운영하는 사람의 작업 방식 이 바뀐다. 4주간 동일 프로젝트에서 Claude Code, Cursor, Aider를 번갈아 쓰며 PR 47건의 작업 시간·디버깅 시간·재시도 횟수를 측정했다. 도구 자체보다 하네스(harness)가 어떻게 짜여 있느냐 가 결과를 가르더라. 1. 코딩 에이전트 도구 비교: 4주 실측 데이터 같은 레포(Firebase + React + TypeScript, 약 4만 LoC)에서 동일한 유형의 태스크 — 버그 수정, 기능 추가, 리팩터링 — 를 도구별로 분배해 측정했다. 측정 항목은 (1) 첫 PR까지 시간, (2) 인간이 수정한 라인 비율, (3) 재시도 횟수다. 도구 첫 PR까지 (분) 인간 수정 비율 재시도 평균 Claude Code (Opus 4.6) 14분 9% 0.6회 Cursor (Sonnet 3.7) 21분 23% 1.4회 Aider (GPT-4 Turbo) 32분 31% 2.1회 표면적으로는 모델 차이로 보이지만, 같은 모델을 다른 하네스에 넣어 다시 측정해 보면 모델보다 하네스 차이가 더 크다 는 결론에 도달했다. 2. 하네스 엔지니어링이란 무엇인가 하네스(harness)는 모델이 코드베이스를 이해·수정·검증하기 위해 거치는 도구·문서·실행 환경의 묶음 을 말한다. 모델은 두뇌고, 하네스는 두뇌와 외부 세계를 잇는 몸·손·눈 이다. Anthropic이 Claude Code를 출시하면서 강조한 개념이고, Andrej Karpathy가 "AGENTS.md"를 만든 이유도 동일하다. ...

테슬라 FSD 7년 가격 추적 + AGI 추론 비용 곡선 — "0원 자율주행"은 언제 가능한가

테슬라 FSD 7년 가격 추적 + AGI 추론 비용 곡선 — "0원 자율주행"은 언제 가능한가 2026-05-05 갱신 | 작성자: 원스 (Wons) | 분야: 자율주행 / AI 비용 곡선 "FSD가 결국 0원이 된다"는 주장은 자극적이지만 정작 근거 데이터는 공유되지 않습니다. 본인이 2019년부터 7년간 테슬라 FSD 가격 변천을 추적했고, 그 데이터를 AGI 추론 비용 곡선과 함께 보면 진짜 답이 보여요. 결론을 미리 — "완전 0원"은 마케팅 표현이고, 정확한 답은 "2030년경 월 $5~10 구독 모델" 입니다. 그 근거 데이터를 정리합니다. 이 글은 2026 AI 6레이어 글 이 산업 구조였다면, 이번엔 자율주행 한 도메인의 가격 곡선과 사회적 영향에 집중해요. 먼저, 테슬라 FSD 7년 가격 변천 (1차 자료) 테슬라 공식 발표 + Electrek 추적 데이터 기준 미국 시장 FSD 일시불 가격: 연도 FSD 가격 (미국) 변동 2019 $5,000 - 2020 $8,000 +60% 2022 (피크) $15,000 +87% 2024-04 $12,000 -20% 2024-09 $8,000 -33% 2026-04 (현재) 월 $99 구독 구독제 도입 패턴: 2022년 $15,000 피크 → 2026년 월 $99 구독제. 4년 만에 약 87% 가격 인하 + 모델 변경 . "0원"이 아니라 "구독으로 분산"이라는 게 정확한 표현이에요. Wright's Law로 본 FSD 가격 곡선 예측 Wright's Law (누적 생산량 2배 ...

AI 콘텐츠 자동화 도구 5개 비교 — 1년 블로그 운영 데이터로 본 진짜 효과와 함정

AI 콘텐츠 자동화 도구 5개 비교 — 1년 블로그 운영 데이터로 본 진짜 효과와 함정 2026-05-05 갱신 | 작성자: 원스 (Wons) | 분야: AI 자동화 / 1년 데이터 "한마디로 블로그가 자동으로 만들어진다"는 콘텐츠가 작년부터 폭발적으로 늘었습니다. Flowith AI, n8n, Zapier AI, Make.com, 자체 Claude/GPT API 워크플로우 등. 본인이 작년 4월부터 올해 4월까지 1년간 이 5가지 도구를 직접 만들어 운영하면서 측정한 데이터가 있어요. 그리고 그 1년 끝에 가장 단단한 결론은 — "AI로 블로그를 자동화하는 것은 가능하지만, 그 결과물로 AdSense를 통과하기는 어렵다" 입니다. 본인이 직접 부딪힌 결과예요. 이 글은 5개 도구 비교 + 1년 운영 비용 + AdSense 두 번 거절의 진짜 원인을 정리한 노트입니다. MCP 자동화 글 이 일반 도구를, 서브 에이전트 글 이 코드 자동화를 다뤘다면, 이번엔 콘텐츠 자동화 specific 입니다. 5가지 도구의 1년 운영 비교 도구 월 비용 셋업 시간 AdSense 적합도 Flowith AI $15~30 2시간 ⚠️ 낮음 n8n + Claude API $20~40 8시간 ⚠️ 낮음 Zapier AI $30~50 3시간 ⚠️ 낮음 Make.com $15~35 5시간 ⚠️ 낮음 자체 Claude API + 본인 코드 $15~25 40시간 ⚠️ 동일 가장 인상적인 건 "AdSense 적합도" 컬럼이 모두 ⚠️" 입니다. 도구가 무엇이든 결과물의 본질은 같아요 — AI가 자동 생성한 콘텐츠. AdSense가 보는 건 도구가 아니라 결과물이고, 결과물의 품질·독...

한국 디톡스 주스 3종 90일 비교 — 몽땅주스·그린 스무디·연두 스무디 본인 직접 측정

한국 디톡스 주스 3종 90일 비교 — 몽땅주스·그린 스무디·연두 스무디 본인 직접 측정 2026-05-05 갱신 | 작성자: 원스 (Wons) | 분야: 한국 식단 / 90일 비교 2026년 한국에서 가장 화제인 디톡스 주스 3가지가 있어요. 닥터라이블리 그린 스무디 / 라이블리 연두 스무디 / 몽땅주스 . 모두 채소 기반이고, 모두 "30일 후 변화"를 약속합니다. 다만 누구의 어떤 주장이 진짜인지는 직접 안 해보면 모릅니다. 그래서 본인이 90일을 셋으로 나눠 30일씩 직접 마시면서 측정한 데이터가 있어요. 이 글은 몽땅주스 1개월 시작 + 3종 비교 결과를 정리한 노트입니다. 각 주스의 단독 분석은 닥터라이블리 그린 스무디 30일 글 과 연두 스무디 + CGM 글 에서 다뤘으니, 이번엔 셋을 한 자리에서 비교합니다. 먼저, 몽땅주스가 무엇인가 "몽땅주스"는 채소·과일을 한꺼번에 갈아 만든 한국식 디톡스 주스의 통칭이에요. 정확한 한 가지 레시피보다는 가정마다 변형이 있는데, 본인이 1개월 시도한 표준 버전: 당근 1개 사과 1/2개 비트 1/4개 토마토 1개 레몬 1/4개 물 250ml 그린 스무디·연두 스무디와 결정적 차이: 당근·사과·토마토 같은 색깔 있는 채소·과일 비중이 높음 . 그래서 카로티노이드(베타카로틴, 라이코펜) 함량이 높고, 단맛도 자연스럽게 강해요. 한국 가정에 친숙한 재료들이라 시작 장벽이 낮은 편입니다. 몽땅주스 30일 본인 측정 측정 조건: 매일 아침 250ml 마시기. 다른 식단 변수 동일. 체중: 72.4kg → 71.8kg (-0.6kg) 아침 배변 규칙성: 7일 중 5일 → 7일 중 6일 오전 컨디션: 평균 6.8 ...