Daily Digest - 2026-07-05
Fable 5가 SNS를 다시 장악하며 담론이 모델에서 사람으로 넘어간 하루 - 에이전트 하네스 성숙, 토큰 경제의 반전, AI가 재편하는 노동시장과 프론티어 모델의 조용한 이상 신호까지.
Daily Digest - 2026-07-05
오늘의 핵심 흐름
오늘 수집된 콘텐츠를 관통하는 흐름은 다섯 가지다.
-
Anthropic의 신규 최강 모델 Fable 5가 SNS를 다시 장악했고, 담론의 초점이 "모델 성능"에서 "사용자가 뭘 모르는지"로 넘어갔다. 종료 임박 프레임이 사용 열기를 끌어올리는 사이, 차별화 요소는 "취향"이라는 인식이 스킬과 프롬프트로 구체화된다. -> "Fable 5 열풍과 이제 병목은 사람"
-
에이전트 담론의 중심이 프롬프트에서 운영/하네스 설계로 이동했다. 자율성 레벨, 루프 4계층, 자가개선 인프라, 소프트웨어 팩토리가 한 방향을 가리키는 동시에, "세션 기록을 인덱싱해도 소용없다"는 반대 신호와 "폐쇄형 모델이 특정 하네스에 과적합돼 조용히 이상해진다"는 정량 경고가 붙는다. -> "에이전트 코딩의 운영과 하네스", "프론티어 모델이 조용히 이상해질 때"
-
"토큰을 태워라"던 분위기가 반년 만에 뒤집혔다. 월 $200 구독이 API 기준 30배 값어치라는 사실과 IPO 전 수익화 압박이 알려지며, 컨텍스트를 이미지로 압축하는 절감 기법과 구독 한도 반발이 동시에 나온다. -> "컨텍스트를 이미지로, 비용을 아래로"
-
AI가 명세대로 코드 쓰는 일을 대체하며 노동시장을 K자로 갈랐고, 같은 힘이 개인의 소프트웨어 제작을 폭발시켰다. 주니어 시장 붕괴와 1인 창업 폭증이 한 현상의 양면이고, C&C 엔진 포팅부터 자폐 아동 앱까지가 그 인간적 증거다. 단 3D 게임처럼 막히는 도메인도 있다. -> "AI로 실제 소프트웨어를 짓다", "AI 노동시장 재편과 남는 역량"
-
오픈 웨이트 모델과 로컬 추론 경제가 CUDA 해자를 침식하고, 데이터를 밖으로 보내지 않는 로컬/프라이버시 우선 흐름과 겹친다. MCP 도구 설계가 "최소 노출"로 성숙하고, 신뢰 경계 미검증이 보안 취약점으로 드러나는 것도 같은 축이다. -> "오픈 모델과 로컬 추론 경제", "MCP와 도구 설계의 성숙", "보안: 신뢰 경계가 무너질 때"
아래는 여기에 더해 문서/멀티모달, 연구/시스템, 마케팅/그로스, 국내 생태계, 마인드셋, 그리고 개별 브리프로 이어진다.
Fable 5 열풍과 "이제 병목은 사람"
Fable 5 출시 직후 SNS 장악, 담론은 모델에서 사람으로
Threads · choi.openai, X · twetsfyp, X · MaximeRivest
Anthropic이 "Fable 5"라는 신규 최강 모델을 내놓은 직후, 국내외 SNS(특히 Threads 한국 개발자 커뮤니티와 X)가 이 모델 이야기로 도배됐다. 핵심 신호는 두 가지다. 첫째, 성능 자체가 화제이면서도 담론이 "모델이 아니라 사람"으로 이동했다는 점이다. choi.openai(789 likes)가 정리한 바에 따르면 Claude Code를 만드는 Thariq는 Fable을 "작업 품질이 모델 성능이 아니라 내가 뭘 모르는지(unknown)를 얼마나 명확히 하느냐에서 막히는 첫 모델"이라 표현했다. 역대 최강 모델이 나오자 병목이 사람 쪽으로 넘어왔다는 것이다. 둘째, "곧 종료(일몰)된다"는 인식이 강하게 퍼져 사용 열기를 오히려 끌어올렸다("페이블이 며칠 안 남은 걸까요", "0.5세대라도 더 강력한 opus"). 결과물 자랑도 이어져 twetsfyp(6319 likes)는 Fable 5로 "$50,000짜리 시네마틱 웹사이트를 단계별로 만드는 16분 튜토리얼"을 공유했고, park_minjun은 "곧 떠날 Fable은 코드만 돌리고" 앱 출시는 Codex에게 맡기는 두 도구 병행 패턴을 소개했다. MaximeRivest(4130 likes)는 "Fable이 내 reMarkable을 해리포터 톰 리들의 일기장으로 바꿨다"며 프롬프트가 사라지는 경험을 언급했다.
Fable 잘 쓰기 = 미지(unknowns) 찾기
SNS에서 회자된 Thariq의 발언은 그가 쓴 "Fable 필드 가이드"의 요지다. 지도(프롬프트/스킬/컨텍스트)와 영토(코드베이스/현실)의 간극이 곧 미지(unknowns)인데, Fable은 작업 품질이 "미지를 명확히 하는 사용자 능력"에 병목 걸리는 첫 모델이라 주장한다. 미지를 Known/Unknown 조합 4분류로 나누고, 문제가 비싸지기 전에 저렴하게 발견하는 기법 세트를 제시한다. 구현 전에는 blindspot pass, 브레인스토밍/프로토타입(HTML로 4개 디자인 방향), 한 번에 하나씩 아키텍처를 바꿀 질문부터 던지는 인터뷰, 구현 계획을 세우고, 구현 중에는 implementation-notes.md에 Deviations를 기록하며, 구현 후에는 피치/설명자료와 퀴즈(통과해야만 머지)를 쓴다. 거의 모든 기법에서 HTML 아티팩트를 시각화 수단으로 권장한다는 점, Fable 런치 영상 자체가 전적으로 Claude Code로 편집됐다는 점(Remotion+Whisper 전사+color grading 학습)이 눈에 띈다.
코드는 AI가, 차별화는 취향 - Taste 스킬과 디자인 시스템
X · milesdeutscher, Reddit · r/PromptEngineering
Fable 5의 코드 생성 능력이 화제가 되면서 "AI가 만든 결과물이 다 비슷비슷하다(AI-slop)"는 문제도 함께 부상했다. milesdeutscher(3139 likes)가 소개한 tasteskill.dev의 "Taste" 스킬은 Fable 5에 디자인 판단용 도구와 지침을 주입해 제너릭한 결과물을 제거하고 완성도 높은 UI/UX를 뽑도록 유도한다("내가 써본 최고의 AI 스킬일 수도"). 같은 흐름에서 무료 그라데이션 셰이더 라이브러리도 소개됐는데 npm i @paper-design/shaders-react 한 줄로 설치된다. Reddit r/PromptEngineering에서는 "AI가 만든 사이트가 다 똑같은 이유"를 판박이 4요소(보라 그라데이션, Inter 폰트, 중앙 정렬 헤드라인, 동일 카드 3개)로 짚고, 빌드 전에 붙여넣는 디자인 시스템 프롬프트로 해결하는 방법을 제안했다(예: warm cream 배경 #FBF7F2, coral accent #E07856, Fraunces serif, 비대칭 hero). 다만 이 대안 조합 자체가 또 다른 고정 팔레트로의 이동일 뿐이라는 비판 여지가 있다.
에이전트 코딩의 운영과 하네스
오늘 뉴스 카테고리의 지배 주제는 "모델이 아니라 그것을 둘러싼 하네스/루프/컨텍스트/검증이 결과를 좌우한다"였다. 아래 항목들은 고자율에서 저자율까지 스펙트럼을 이룬다.
자율성 0~5레벨, agency와 orchestration 2축
에이전틱 엔지니어링의 중심이 프롬프트 작성에서 운영 설계(소프트웨어 팩토리, 목표, 루프, 서브에이전트, 훅, 샌드박스)로 옮겨갔다는 프레임이다. 자율성을 단일 사다리가 아니라 agency(한 에이전트의 자율도)와 orchestration(다중 에이전트 조율) 2축으로 분해하고, Level 0 Assist부터 Level 5 Managed-by-exception orchestration까지 6단계로 정리한다. 근거로 든 Anthropic Claude Code 분석(약 40만 세션 / 약 23.5만 명, 2025-10~2026-04)에서는 사람이 계획 결정의 약 70%, Claude가 실행의 약 80%를 담당했고, 경험 많은 사용자(약 750 세션)일수록 자동 승인/중단을 더 활용했다. 핵심 원칙은 에이전트 실행 전에 목표/범위/비목표/도구/권한/정지조건/증거/에스컬레이션/예산 8요소를 계약으로 못박고, 자율성 수준을 작업 이름이 아니라 검증 프로세스에 따라 정하라는 것이다.
루프 엔지니어링 4계층
"좋은 모델만으로는 부족하고 작업 집합에 맞는 하네스가 필요하다"는 주장을 LangChain 프리미티브로 구체화한다. 4계층은 (1) 에이전트 루프(create_agent, 도구 반복 호출), (2) 검증 루프(grader/RubricMiddleware, LLM as a judge), (3) 이벤트 기반 루프(웹훅/cron/Slack 트리거, LangSmith Deployment), (4) 힐 클라이밍 루프(트레이스 분석 에이전트가 하네스 구성 자체를 재작성, LangSmith Engine)다. 특히 4번째 힐 클라이밍 루프가 주목할 만한데, 에이전트 실행 트레이스를 분석 에이전트가 읽고 프롬프트/도구/그레이더 구성 자체를 개선된 설정으로 재작성해 "개선 자체를 자동화"한다. 진짜 잠재력은 모델이 아니라 에이전트를 둘러싼 루프에 있다는 것이 논지다.
반대편의 Short Leash - 보안 코드엔 짧은 목줄
앞의 고자율 프레임과 의도적으로 반대편에 서는 관점이다. 보안이 중요한 소프트웨어에서는 자율 실행 대신 개발자가 변경을 계속 통제해야 한다며, "12개 병렬 에이전트를 오케스트레이터로 관리하며 개발자가 코딩에서 빠지는 vibe식 접근은 코드베이스 이해를 무너뜨리고 AI가 궤도를 벗어난 뒤에야 문제를 발견하게 만든다"고 비판한다. 절차는 계획 수립 -> 단계 분해 -> 권한 프롬프트의 diff 검토 -> 잦은 거부/개입 -> 하위 작업별 커밋 -> 마지막 리뷰다. YOLO/dangerously-skip-permissions는 금지하고, 권한 프롬프트의 diff를 코드베이스 이해를 최신화하는 수단으로 쓴다. 인간과 AI가 함께 리뷰한 PR이 한쪽만 리뷰한 것보다 실수가 적으며, AI 사용 PR은 제출자가 line-by-line 직접 리뷰하고 PR 설명에 "AI Disclosure"로 사용 모델을 명시하라고 권한다. frontier 모델 없이도 Fable을 이기는 결과가 가능하다는 주장이다.
자가개선하고 관측 가능한 에이전트 인프라
X · rauchg, X · huang_chao4969, LinkedIn · Pavan Belagatti
에이전트를 "한 번 쓰고 버리는 도구"에서 "스스로 개선하고 관측 가능한 시스템"으로 만드는 인프라가 이번 주 X/Threads/LinkedIn에서 쏟아졌다. Vercel CEO rauchg(710 likes)는 "Agentic self-improvement"를 던졌다. 에이전트에게 과거 실행 기록을 introspect하는 능력을 주면 비효율/에러/중복 도구 호출을 스스로 찾아 새 프롬프트와 스킬을 생성하며, eve.dev를 Vercel에 배포하면 이 관측성이 기본 내장된다는 것이다. huang_chao4969(177 likes)의 OpenOPC는 역할별 AI 직원을 자동 인스턴스화해 구조화된 "task-ready 회사"로 조직하는 오픈소스 프레임워크다. RhysSullivan은 "MCP가 왜 필요하냐, 에이전트가 그냥 API를 호출하면 되는데"라며 executor.sh로 에이전트를 Google Search Console에 붙이는 MCP 무용론에 가까운 관점을, MatthewBerman(212 likes)의 Loopy는 에이전트 루프를 로컬에 저장해 재사용하는 기능을 소개했다. 모바일에서는 self-hosted Hermes 에이전트용 오픈소스 iPhone 클라이언트가 공개됐다(Tailscale, Siri/단축어, Live Activities, 내장 Git 워크플로).
이 방향은 데이터 파이프라인 층위와도 맞닿는다. LinkedIn에서 Pavan Belagatti는 "소프트웨어 엔지니어링의 미래는 Agentic Loops와 Software Factories"라며 개발/배포가 공장 컨베이어벨트처럼 자동화되고 에이전트가 SDLC의 "first class citizen"이 된다고 주장했다. dbt Seoul 밋업 #9 후기(강남, 40여 명)는 Fivetran + dbt Labs 합병의 핵심이 단순 제품 통합이 아니라 "인간 중심 -> 에이전트 중심 데이터 스택"으로의 전환이라고 짚었다. 에이전트가 안정적으로 돌려면 신뢰할 수 있는 데이터 파이프라인이 전제라는 것이다. 기술 세션에서는 dbt Fusion(Rust로 재작성된 dbt Core 2.0)이 Arrow 포맷과 Zero-copy로 성능과 컬럼 리니지를 개선했다는 내용이 공유됐다.
세션 기록 검색은 에이전트에 유용하지 않다
GeekNews · 12gramsofcarbon.com
하네스 낙관에 대한 반대 신호다. "session transcripts are the new oil"이라 믿고 제품까지 만든 저자가 반대 결론에 도달했다. SWE 작업에서 다른 컨텍스트(문서/PR/커밋)가 있으면 과거 세션 기록 검색의 성능 이점은 0이었고, 여러 달 비교 테스트에서 차이가 없거나 때로 품질이 저하됐다. 유용한 정보는 이미 커밋 메시지/PR/문서에 정리돼 있어, 세션 검색은 이미 아는 걸 다시 읽게 하고 기록 안 하기로 한 임시 스크래치패드까지 토큰으로 소비한다. 에이전트는 컨텍스트를 제거하지 못해(수천 세션에서 한 번도 못 봄) 입력 전부를 ground truth로 취급하고 intent drift가 누적된다. 자동 메모리 변경 제안의 실제 수락률도 20% 미만이었다("나머지 80%는 모델을 더 나쁘게 만들었을 것").
컨텍스트를 이미지로, 비용을 아래로
코드/컨텍스트를 PNG로 렌더링해 청구액 약 60% 절감(pxpipe)
컨텍스트 창을 "이미지로 압축"한다는 발상이다. 이미지 토큰 비용이 픽셀 크기로만 정해진다는 특성을 이용해, 로컬 프록시가 시스템 프롬프트/도구 문서/오래된 히스토리/큰 tool_result를 PNG로 렌더링한다. 밀집 텍스트는 이미지 토큰당 약 3.1자 vs 텍스트 토큰당 약 1자라, 텍스트로 25k 토큰이 드는 48k자를 약 2.7k 이미지 토큰짜리 페이지 한 장으로 바꾼다. 프록시가 /v1/messages를 가로채 수익성 게이트를 통과한 블록만 이미지화하고 정적 prefix를 보존해 prompt caching이 계속 동작한다. Fable 정가 기준 엔드투엔드 청구액이 약 59~70% 감소하고, 13,709 요청 스냅샷에서 $100 -> 약 $41(59%)로 줄었다. SWE-bench Lite는 -65% 요청 크기에도 10/10 동등. 정직하게 손실 압축임을 명시하는데, 바이트 정확 값(SHA, 시크릿)은 텍스트로 함께 실어야 하고 순수 채팅 회상엔 위험하다. 헤드라인 절감률이 압축한 요청만이 아니라 전체 청구액 기준이라는 점이 다른 절감 도구와 차별화된다.
"$200 구독이 API 30배 값어치" - 토큰 경제의 반전
Threads · steady__study.dev, X · israfill, Reddit · r/perplexity_ai
"토큰을 아끼지 말고 태워라"던 분위기가 반년 만에 뒤집혔다. steady__study.dev는 몇 달 전만 해도 소모 토큰이 많은 게 자랑인 "토큰맥싱(Token maxxing)"이 유행이었다고 회고한다. 그런데 지금은 월 $200 구독이 API 기준 30배 이상의 값어치(즉 모델 제공사가 큰 손해)라는 사실이 알려지고, Anthropic과 OpenAI가 최소 IPO 이전에는 경제성을 챙기기 시작할 거라는 이야기가 돌면서 정서가 달라졌다. 이 재무 압박은 곧바로 "제한 우회" 팁으로 이어진다. israfill(873 likes)은 Azure의 $200 무료 크레딧으로 Microsoft Foundry를 통해 Claude Code를 라우팅하면 5시간 제한과 주간 캡이 사라진다고 공유했다(학생은 $2000 크레딧). 정공적 접근은 "벤치마크 점수가 아니라 달러당 가치"라는 체크리스트로 정리된다 - 단위 경제 조기 측정, 요청/유저/기능당 비용 추적, 간단한 쿼리는 작은 모델로 라우팅, max_tokens 공격적 제한, INT8/INT4 양자화, 요청 배칭, 반복 프롬프트 캐싱.
같은 압박이 소비자 구독에서는 반발로 나타난다. r/perplexity_ai에서는 Pro 사용자가 주당 약 16개 메시지(단순 문의)만 보냈는데 "이번 주 advanced AI model 사용 3회 남음" 경고를 받았다고 분노했다. Sonnet이 'advanced'로 분류돼 Opus나 최신 GPT는 Max 계정 뒤에 잠겨 있고, 연간 결제 후 한도가 대폭 줄었다는 것이다. 다른 사용자는 gemini(정리 나쁨)/chatgpt(환각)/claude(한도 도달)를 저울질하며 대안을 찾았다. Fable 5의 "종료 임박" 정서와 이 구독 반발은 같은 근본 원인(경제성)을 공유한다.
오픈 모델과 로컬 추론 경제
AMD MI355X 2.75배 저렴 - CUDA 해자 실시간 약화
"AMD의 문제는 이제 소프트웨어 자체가 아니라 day-0 지원이며, 에이전트가 커널/모델 최적화를 도우면서 CUDA 해자가 실시간으로 약해지고 있다"는 논지다. AMD MI355X는 B300 대비 GPU당 평균 약 2.75배 저렴한데, 커스텀 커널을 전혀 쓰지 않고 프레임워크 버그 수정(ROCm guard 한 줄, MoE 커널 선택 튜닝)만으로 B200의 80% 성능을 냈다. GLM-5.2를 20k 입력/1k 출력, 60% 캐시 히트율 워크로드에서 2626 tok/s/node를 달성했는데 이는 B200 측정치의 약 80% 수준이다. MXFP4 양자화(AMD Quark)는 공식 FP8 대비 GPQA-Diamond/tau2/GSM8K에서 사실상 무손실이었다.
로컬 SOTA LLM 하드웨어 가이드 - $2k에서 $40k
"Dario와 Altman이 부담스러우면 로컬로 돌려라"는 실전 하드웨어 가이드다. 약 $2k 구간은 2x RTX 3090(48GB VRAM)으로 Qwen3.6-27B + whisper-large-v3 STT를 돌리고, 약 $40k 구간은 4x RTX PRO 6000 Blackwell(각 96GB, 총 384GB VRAM)로 "almost-Opus"(2026-07 기준 GLM-5.2-Int8Mix-NVFP4-REAP-594B)를 돌린다. PCIe5/DDR5가 비싼 시기라 중고 DDR4 + Gen4 스위치로 VRAM에 예산을 집중하는 전략이 핵심이다. c-payne Gen4 스위치로 P2P 27.5GB/s 단방향을 얻고, iommu=off(없으면 NCCL hang)와 setpci로 ACS 비활성화 같은 함정이 상세히 문서화돼 있다.
소비자 GPU 로컬 에이전트: prefill과 KV head가 진짜 지표
Reddit · r/LocalLLaMA, Reddit · r/LocalLLM
로컬에서 에이전트 워크로드를 돌릴 때 흔히 헤드라인 지표로 삼는 tg128(초당 토큰 생성 속도)이 실제로는 거의 무의미하다는 것을 21시간 실측(13개 모델, RX 7900 XT)으로 반박한 벤치마크다. 컨텍스트가 65K 이상으로 차면 전체 대기 시간의 94-99%가 prefill(프롬프트 처리)에서 소요되고, 에이전트가 짧은 툴 호출을 뱉는 패턴에서는 decode가 1-5%에 불과하다. 그래서 오직 pp65K/pp131K만 중요하다. 두 번째 핵심은 장문 prefill 속도를 지배하는 요인이 파라미터 수도, MoE냐 dense냐도 아닌 KV head 수라는 점이다. 4 KV heads x 128 dim(토큰당 64KB) 모델이 8 KV heads(토큰당 160KB) 모델보다 128K에서 4.4배 빨랐다. 속도x지능 복합 점수에서는 Qwen3.6-35B-A3B가 1위였는데, 별도 글에서 바로 이 35B MoE 모델을 GTX 1650 4GB VRAM 노트북에서 19 t/s로 돌린 실전 설정이 공유됐다(--override-tensor로 FFN expert 텐서를 CPU에 오프로드하는 게 핵심, --no-mmap는 오히려 느려짐). 소비자 VRAM에서 장문 에이전트에는 30B급 MoE가 스위트스폿이라는 결론이다.
NVIDIA Nemotron 3 Ultra - 550B 오픈 MoE, 1M 컨텍스트
NVIDIA가 6월 4일 조용히 공개한 550B 파라미터 MoE 오픈 모델(토큰당 55B 활성)이다. 1M 토큰 컨텍스트 윈도우로 전체 코드베이스나 수 시간 트랜스크립트를 한 번에 투입할 수 있고, open weights에 학습 데이터와 레시피까지 완전 공개했다. 에이전트 워크플로(멀티스텝 코딩, 툴 사용, 장문 리서치 체인)에 특화됐고 단일 턴 챗봇 벤치마크 최적화가 아니다. 작성자는 "Claude Code killer" 프레이밍을 경계하며 이것은 base 모델이지 에이전트 하네스가 아니라고 명확히 했고, 벤더 자체 벤치마크(동급 대비 최대 6배 throughput)는 걸러 볼 것을 권했다. Artificial Analysis 독립 수치로는 US open-weight 중 Intelligence Index 최상위지만 raw 벤치마크 전체로는 Kimi K2.6가 여전히 선두다. Ollama로 구동 가능하나 full BF16 weights는 8x H100급이 필요하다.
Leanstral 1.5 - Apache-2.0 형식증명 오픈 모델
형식 검증(Lean 4)을 수학 벤치마크 너머 실제 코드 속성 검증으로 확장한 오픈 모델이다. 총 119B / 활성 6B 파라미터, Apache-2.0으로 miniF2F 100%(검증/테스트 모두), PutnamBench 587/672를 기록했다. 6B 활성 파라미터로 miniF2F를 포화시키고 문제당 약 $4로 $300+짜리 경쟁 증명기를 앞선다는 비용 효율이 핵심 주장이다. 특히 Aeneas가 Rust를 Lean으로 변환하고 Leanstral이 정합성 속성을 생성/증명하는 파이프라인으로 datrs/varinteger의 zigzag decoding에서 Std.U64.MAX 입력 시 오버플로(디버그 크래시/릴리스 조용한 데이터 손상)를 찾아냈고, Rust 코드 57개 저장소 중 11개에서 실제 버그(5개는 GitHub 미보고)를 발견했다. 형식 검증이 실무 버그 헌팅에 쓰일 수 있음을 보여준다.
프론티어 모델이 조용히 이상해질 때
Better Models, Worse Tools - Opus 4.8이 대체 스키마에 취약
Hacker News · lucumr.pocoo.org
Armin Ronacher의 상세한 근본원인 분석이다. Pi의 edit 도구에서 Opus 4.8과 Sonnet 5가 중첩 edits[] 배열에 발명한 필드(requireUnique, oldText2, matchCase 등)를 추가해 스키마를 위반했는데, 구버전 모델에서는 이 현상이 없었다. 즉 SOTA 모델이 특정 스키마에서 오히려 더 나빴다. 가설은 훈련 아티팩트다. Claude Code 같은 하네스로 post-training되며 그 하네스가 slop을 조용히 수리(파라미터 별칭 복구, 미지 키 필터링)해 잘못된 도구 호출도 보상받았고, 그래서 alias 발명에 gradient가 걸리지 않았다는 것이다. Claude Code 내부 edit 도구는 flat 구조(file_path, old_string, new_string, replace_all)라 Opus가 이를 강한 prior로 학습했고, Pi의 중첩 스키마에서 필드명을 매번 새로 샘플링한다. strict 모드가 이를 고치지만 Anthropic이 tool 정의 복잡도 제한을 걸어 Claude Code는 strict를 쓰지 않는다. 함의는 도구 스키마가 중립적 계약이 아니며, 지배적 하네스로 post-training될수록 다른 하네스가 그 특이성을 물려받아야 하는 walled garden 위험이다.
GPT-5.5 Codex 516토큰 클러스터링 - 조용한 성능 저하 정황
Hacker News · openai/codex issue
정량 데이터로 "특정 모델이 특정 시점부터 조용히 성능 저하됐을 수 있다"를 제기한 이슈다. Codex token_count 메타데이터에서 gpt-5.5 응답이 reasoning_output_tokens=516에 과도하게 몰렸다(390,195개 응답 레코드/865 세션 분석). gpt-5.5는 전체 응답의 19.3%지만 exact-516 이벤트의 82.0%를 차지했고, exact-516 비율이 비-gpt-5.5 대비 약 33.6배였다. 월별로 exact-516 클러스터링이 급증했는데(Feb 0.11% -> May 53.30%) 동시에 평균 reasoning 토큰이 하락했다(Feb 268 -> May 106.9). 516에서 끝난 실행이 틀린 답을 반환한 관련 이슈도 있다. 516이 512+경계처럼 보이는 고정값이라 자연 분포가 아니라 임계값 boundary로 읽히며, HN에서 다수가 "6월 이후 5.5 신뢰성 저하"를 증언했고 "OpenAI가 추론 비용을 절반으로 줄였다"는 루머와 연결됐다. 앞의 NEWS 항목과 함께 폐쇄형 프론티어 모델의 신뢰성/이식성 문제를 정량으로 제기한다.
AI로 실제 소프트웨어를 짓다
이 클러스터의 공통 원칙은 "사람이 코드를 검증 못 해도 남이 쓴 테스트/oracle로 정직하게 유지한다"이다.
C&C Generals 엔진을 Claude Code로 Apple 네이티브 포팅
2003년 실제 Command & Conquer Generals: Zero Hour 엔진을 ARM64로 네이티브 컴파일해(에뮬레이션 아님) Apple Silicon Mac, iPhone, iPad에서 캠페인/스커미시를 실행한 사례다. 렌더링 경로는 DirectX 8 -> DXVK -> Vulkan -> MoltenVK -> Metal이다. EA의 GPL v3 소스 릴리스와 fbraz3/GeneralsX 포트 위에 iOS/iPadOS 포팅과 엔진 수정을 더했고, 게임 자산은 배포하지 않고 사용자가 소유한 Steam 복사본을 스크립트로 가져오는 구조라 라이선스 문제를 회피한다. 핵심은 엔지니어링을 Claude Code(Fable 모델)가 담당하고 Ammaar Reshi가 실기기에서 방향 설정과 플레이테스트를 했다는 점, 그리고 실패모드/근본원인/수정 전체 로그가 PORTING_PLAYBOOK.md로 편집 없이 공개됐다는 점이다. 알려진 제약은 iPad 장시간 세션에서 약 3GB+ 메모리 상주 시 iOS가 강제 종료한다는 것이다.
Rust 모르고 만든 PHP 엔진, 공식 테스트 17% 통과(Phargo)
Hacker News · ekinertac/Phargo
Rust를 모른 채 AI에게 목표만 주고("looks good, continue") PHP 인터프리터를 Rust로 작성한 프로젝트다. PHP 자체 22,037개 .phpt 테스트 중 3,844개(17.4%)를 통과했고 현실적 상한은 40~45%다. 방법론이 핵심인데, "AI가 자기 숙제를 채점하게 두지 마라"는 원칙으로 PHP 내부팀이 30년간 쓴 테스트를 oracle로 삼아 통과율을 자동 생성했다. 함정도 생생하다 - CRLF 정규화 누락으로 수 주간 멀티라인 테스트가 대량 실패하다 한 줄 수정으로 수백 개가 통과했고, 생성기 테스트가 전 RAM을 먹어 개발머신이 하드 재부팅됐다. clone이 NULL을 평가하고(DateTimeImmutable 전부 조용히 깨짐) unset()이 no-op인 "Potemkin builtin"이 다수 발견됐다. WordPress 프론트와 /wp-admin/을 렌더하지만 실제 PHP 대비 약 55배 느리다(7.1s vs 126ms). HN 반응은 "17%도 놀랍다"와 "블로그/일화까지 전부 AI 생성, 자기 지성을 넣어라"로 갈렸다.
자폐 아들 위한 개인화 소통 앱을 2시간 vibe-code로
자폐 비언어 아들을 위해 2시간 만에 vibe-code로 개인화 AAC(보완대체의사소통) 웹앱을 만든 사례다. 기존 AAC는 마비 성인용 gaze 선택 기반이라 언어 이해 자체가 어려운 아동에 부적합했는데, 추상 심볼(빨간 팔각형=stop) 대신 "그의 실제 치즈 베이글" 사진과 좋아하는 애니 스타일 이미지 수백 개(ChatGPT), 아빠 목소리 클론을 넣었다. 2주 만에 타일-단어 인식이 2배+, 발화가 5배+ 늘었고, 기존 AAC에 없는 메트릭/티칭 모드를 내장했다. 핵심 통찰은 범용 AAC가 아니라 "아이 본인의 삶을 스토리북처럼 배치"한 개인화가 결정적 차이였다는 점이다. $9.99/월(음성 클론 포함 $19.99)을 목표로 하는데 기존 하드웨어 AAC는 $7,000+다. HN 반응이 압도적으로 긍정적이었다.
비개발자가 Cowork로 만든 스페인어 앱, 첫 1달러
비개발자가 Claude(주로 Cowork)만으로 완성한 멕시코 스페인어 학습 웹앱이 첫 후원 1달러를 받은 사례다. 유럽 스페인어에 편중된 기존 앱들의 공백(멕시코 어휘, 슬랭, 발음)을 메우려 시작했다. 규모가 인상적이다 - 84개 일일 레슨(12주 커리큘럼), 130,800줄 코드(약 652,000단어), 커리큘럼 스펙 문서만 14,806단어, MS Azure 파이프라인으로 생성한 5,606개 멕시코 스페인어 오디오 클립. Claude에게 학습 목표 기반 12주 커리큘럼을 짜게 한 뒤 인터랙티브 일일 레슨, spaced-repetition 플래시카드, 진도 추적으로 분해했고, Claude Design으로 브랜딩/UI, Cowork가 Azure 오디오 파이프라인/GitHub/배포까지 안내했다. 비개발자가 AI 도구 체인만으로 상당 규모의 실사용 제품을 배포하고 수익화 신호까지 얻은 구체적 증거로, upvote 1,055/댓글 92의 최상위 반응을 얻었다.
반대 신호: 3D 게임 바이브코딩은 여전히 dogwater
앞의 성공 사례와 정반대 신호다. Claude(Fable 5)로 3D 게임을 바이브코딩하는데 그래픽/메커닉이 계속 형편없이 나온다는 좌절 토로로, Godot 4.7, GDScript, Blender 5.1, Python(bpy), WebAssembly, ElevenLabs, Jolt Physics 등 상당한 스택을 갖췄음에도 결과가 안 나온다고 물었다(댓글 54개). 텍스트/웹앱 도메인에서는 바이브코딩이 실제 제품을 뽑아내지만, 3D 게임처럼 시각/물리 품질이 핵심인 도메인에서는 여전히 벽에 부딪힌다는 현장 한계를 드러낸다. 바이브코딩이 어디까지 되고 어디서 막히는지의 균형을 보여준다.
AI 노동시장 재편과 남는 역량
NEWS-20/15와 SNS-05/06/14가 같은 질문("AI가 코딩을 대체하면 무엇이 남는가")을 노동/창업/역량 각도에서 다룬다.
주니어 프로그래머 시장 붕괴 - 타이틀은 죽고 일은 확산
Laurie Voss(npm 공동창업자)가 풍부한 데이터로 "K자형" 개발자 시장을 논증한다. Stanford Digital Economy Lab(ADP 데이터) 기준 2225세 개발자 고용이 2022년 말 정점 대비 19% 하락한 반면 4149세는 14% 상승했다. 그러나 전체는 성장해서 소프트웨어 개발자는 2022-05 153만 -> 2025-05 169만(+10%)이다. 타이틀별로는 "computer programmer" -16%, web developer -11%인 반면 data scientist +12%, systems analyst +4.4%다. 핵심 통찰은 사라지는 건 "명세대로 코드 쓰는 일"이고 성장하는 건 "어떤 코드가 존재해야 하는지 판단하는 일"이라는 것이다. 긴 꼬리 신규 개발자는 headcount가 아니라 모든 직무로 퍼지는 capability로 나타났다(GitHub 3600만 신규 계정, Vercel 바이브코딩 사용자 63%가 비개발자). 위험 신호로 AI 생성 코드 45%가 OWASP 기본 실패, 시니어 육성 사다리 붕괴(IBM은 신입 3배 채용 vs Salesforce는 작년 엔지니어 0명 채용)를 짚는다.
1인 창업자의 시대 - AI가 채용을 대체
Stripe가 인구조사국/다국적 등록/자사 결제 데이터를 교차해 "AI가 채용을 필요하게 만들던 역량 공백을 메우며 1인 창업을 가속한다"고 주장한다. 100만 달러 초과 1인 창업자는 2025년이 2023년의 2배+이고, 500만/1000만 달러 돌파는 각각 약 3배다. 사기가 아니라는 근거 3종을 제시하는데, Stripe pay-in 데이터(2025 코호트의 1년 내 100만 달러 도달 비중이 2023 대비 30%+), 다국적 확산(호주 40%/핀란드 70%/프랑스 80% 증가), Delaware 법인 40% 성장이다. 과거 사업이 집단으로 만들어진 이유가 "한 사람이 시장평가/코딩/가격책정/마케팅/영업을 다 못 해서"였는데 AI가 그 공백을 메운다는 것으로, Sam Altman은 "revenge of the idea guys"라 표현했다. 앞의 주니어 시장 붕괴와 정확히 같은 현상(AI의 노동 대체)을 창업 각도에서 본다.
사라지는 일과 남는 역량 - 위험도별 위임
LinkedIn · Python Developers Community, LinkedIn · 신수정
LinkedIn의 대형 커뮤니티와 국내 리더십 인플루언서가 같은 질문을 다뤘다. Python Developers Community는 사라질 위험 직무를 구체적으로 나열했다 - 주니어 수동 QA, 기본 프론트엔드 템플릿 코딩, 단순 CRUD 앱, 루틴 코드 변환, 보일러플레이트 API, 저수준 스크립팅, 기본 기술 문서. 대비법은 시스템 설계로 이동, AI 생성 코드 디버깅/리뷰 집중, DSA/아키텍처/API 기초 강화다. 별도 게시물은 AI 위임을 위험도로 나눴다 - 저위험(스크립트/프로토타입/보일러플레이트)은 AI가 대부분, 중위험(기능/통합)은 AI 초안+사람 리뷰, 고위험(보안/결제/헬스케어/인프라/법률)은 사람 전문가가 전부 검증. 신수정은 "AI 시대 일 잘한다는 것"의 본질이 세 축(문제정의/해법설계=전략, 사람을 움직이는 영향력=피플, 실행력)으로 안 바뀐다고 답하되, 무게추가 이동한다고 정리했다. AI가 해법 설계를 상당 부분 하므로 문제 발견/정의력이 중요해지고, 실행도 에이전트가 하지만 실행설계와 불굴의 의지력, 품질 판별력이 희소해진다는 것이다.
구현 능력 없던 사람이 직접 만든다
LinkedIn · 신수정, Threads · myoons.k, Threads · moment.ryan
앞이 역량론의 이론이라면 이 항목은 실전 증거다. 신수정은 은행에서 팀장까지 갔지만 조직에서 크게 두각을 못 낸 채 명예퇴직한 지인이 AI로 직접 프로토타입을 만들어 "제2의 커리어"를 열었다는 사례를 소개했다. "예전엔 아이디어가 있어도 외주를 주거나 사람을 뽑아야 했는데 지금은 직접 최소 프로토타입을 만들 수 있고, 그걸로 고객 사전 미팅을 하니 반응이 훨씬 좋다"며 실제로 과거 근무했던 은행에 솔루션 적용을 확정했다. "제2의 커리어가 제일 막막한 사람이 큰 조직 관리에만 능숙했던 대기업 임원 출신"이라는 관찰이 날카롭다. 콘텐츠 제작 쪽에서는 myoons.k(136 likes)가 컷편집만 하던 개인이 Claude와의 채팅만으로 고퀄리티 다큐를 만들었다며 "영상 편집기 하나 안 켰다"고 밝혔고, moment.ryan(157 likes)은 AI 에이전트가 주제/구조/색보정/자막/그래픽까지 전부 편집한 릴스를 한 달간 올려 9개 릴스로 약 58만 뷰를 기록했다.
"왜 낮은가"를 먼저 물어라 - 프로덕트/학습 사고법
LinkedIn · 이승민, LinkedIn · Suphan Fayong
역량론이 강조하는 "문제 정의력"의 실무 버전이다. 이승민은 예약 서비스에서 날짜까지 고른 유저의 완료율이 낮을 때, 쿠폰/리마인드/단계 축소 같은 솔루션 백로그를 ICE Score로 매기기 전에 "왜 낮은가"를 먼저 물어야 한다고 짚는다. 나쁜 순서는 "지표 낮음 -> 올려야 -> 뭘 바꿀까"이고, 나은 순서는 "지표 낮음 -> 왜 낮을까 -> 어떤 가설 -> 뭘 바꿀까"다. 좋은 분석은 특별한 인사이트가 아니라 문제를 조금 더 선명하게 만드는 것이라고 정리했다. Suphan Fayong은 역발상을 제시한다. LLM을 이해하려면 챗봇/RAG/에이전트 같은 LLM 프로젝트(LLM을 블랙박스로 다룸)보다 ML 프로젝트가 낫다는 것으로, LLM이 가중 평균과 비선형 변환 같은 단순 ML 요소를 쌓아 스케일한 것이기 때문이다. Mike X Cohen의 "50 ML Projects To Understand LLMs"가 6개 핵심(토큰화, 임베딩, 어텐션, MLP, 트랜스포머 출력, 출력 로짓)으로 분해한다고 소개했다.
문서와 검색을 텍스트 너머로
멀티모달 임베딩과 구조적 출력 - OmniSearch, IFStruct
LinkedIn · Prajjwal Yadav, LinkedIn · M. Shojaei
검색과 데이터 처리의 "텍스트 우선" 전제를 깨는 연구/도구다. OmniSearch는 "기록된 대부분은 텍스트가 아니라 검색 불가능하다"는 문제의식에서, Wikipedia 문서를 생물/물리/역사/예술/지리/기술에 걸쳐 각 4가지 형태(텍스트, 대표 이미지, 음성, 매칭 비디오 클립)로 만들고 모두 Google의 gemini-embedding-2로 하나의 공유 벡터 공간에 임베딩했다. 그 결과 "Sahara"가 위키 발췌문, 사막 사진, 나레이션 음성, 모래언덕 영상으로 모두 서로 옆에 위치해 모달리티 간 상호 검색(음성->위키 문단, 텍스트->비디오, 이미지->문서)이 가능하다. Weaviate Playground에서 3D로 탐색할 수 있다. Liquid AI의 IFStruct 벤치마크는 다른 아픈 지점을 겨냥한다. 4B급 소형 모델이 JSON을 출력하며 불필요한 설명을 붙이거나 중괄호를 빠뜨리는 문제는 로컬 에이전트에서 곧 시스템 실패인데, IFStruct는 제약 디코딩(constrained decoding)이라는 목발 없이 raw 구조적 준수를 테스트하며 중첩 스키마와 이상한 이스케이핑을 검증한다. Stanford CS25 게스트 강연 "From Language Models to Native Multimodal Intelligence"도 온라인 공개됐다.
로컬 VLM 파인튜닝으로 messy-PDF 46%->91.1%
지저분한 PDF에서 구조화된 데이터를 뽑는 VLM 파인튜닝 사례다. base 모델을 OmniDocBench 46% -> 91.1%로, Parsebench 46% -> 79%(2위)로 끌어올렸다. 핵심 개선은 대부분의 파서가 무너지는 테이블(다중 컬럼, 병합 셀)로, LoRA와 몇 가지 아키텍처 변경으로 해결했다. 셀링 포인트는 완전 로컬 구동(문서를 외부 API로 보내지 않음)과 near-zero hallucination(존재하지 않는 행이나 숫자를 지어내지 않음)이다. RAG 파이프라인에서 문서 파싱이 병목인 팀에 실전 후보이며, 데이터를 밖으로 보내지 않는 로컬/프라이버시 우선 흐름과 맞닿는다.
MCP와 도구 설계의 성숙
Safari MCP 격리 vs 커뮤니티 실제 세션 접근
Apple의 Safari MCP 서버가 17개 툴만 노출하고 격리된 webdriver 세션 안에서만 도는 반면, 커뮤니티 safari-mcp 구현은 약 96개 툴에 기존 브라우저 세션과도 연동된다는 대조다. Apple은 MCP를 에이전트에게 실제 브라우저 상태를 주는 통로가 아니라 clean-room 디버깅 환경으로 취급하는 것으로 보인다. 브라우저 자동화 툴링이 여전히 chromium-first인 상황에서 "브라우저 MCP는 격리돼야 하는가, 실제 세션 접근이 더 유용한가"라는 설계 논쟁을 제기한다.
"툴 많이"에서 "안전 경계+최소 노출"로
r/mcp에서 같은 시기 여러 글이 하나로 수렴한다 - MCP 서버가 툴을 너무 많이 노출해 에이전트가 무엇이 안전한지 추측하게 만드는 실패 모드를 어떻게 막을 것인가. Foreman은 AI가 API 통합/스키마 생성은 잘하지만 capability boundary, 인가, side effect, idempotency, confused deputy, failure mode 같은 안전 설계는 놓친다는 문제의식의 에이전트 스킬 겸 레퍼런스로, 저자 책이 Amazon Australia 생성AI 부문 1위를 찍었다. TRAECNclaw MCP와 Gemini Web MCP는 툴 서피스를 public/ops/full 또는 기능별 프로파일(model/chat, history, account-read 등)로 나눠 모든 에이전트에 모든 운영/디버깅 툴을 기본 노출하지 않는 설계를 실험한다. SigMap은 소스 코드 전체를 컨텍스트에 넣는 대신 symbol lookup/관계/repo map을 MCP로 노출하는 repository intelligence 실험이다. MCP 생태계가 "많은 툴 = 좋다"에서 "안전 경계와 최소 노출"로 성숙하는 전환점을 보여준다.
shadcn/ui 기본값 Base UI 전환 - 마이그레이션을 LLM skill로
기술 결정(Radix -> Base UI)보다 "라이브러리 마이그레이션을 codemod가 아닌 LLM skill로 배포한다"는 방법론 전환이 주목점이다. 2026-07부터 shadcn/ui 기본 컴포넌트가 Base UI(주 600만+ 다운로드)이고, 신규 프로젝트가 Base UI를 Radix 대비 2:1로 선택한다. Radix는 deprecate하지 않고 마이그레이션도 불필요하다(shadcn init -b radix로 유지). 마이그레이션은 skill로 제공되는데(pnpm dlx skills add shadcn/ui, "migrate accordion to base-ui"), 컴포넌트별로 진행하며 프로젝트를 항상 green 유지한다(60+ 컴포넌트 약 25분, 컴포넌트당 약 10k 토큰, 1커밋). 이유는 "codemod는 안 건드린 컴포넌트는 처리하지만 커스터마이징한 것은 깨지므로, 지식을 배포해 에이전트가 사용자 변경을 파악해 이관"한다는 것이다. HN에서는 "codemod 시대가 끝나가는지도"라는 반응이 나왔다.
보안: 신뢰 경계가 무너질 때
YouTube Ask Studio 프롬프트 인젝션 - 비공개 영상 제목 유출
사용자 생성 콘텐츠(댓글)를 신뢰할 수 없는 데이터로 분리하지 않으면 AI 기능 자체가 공격 벡터가 된다는 사례다. YouTube Studio의 Ask Studio AI가 댓글을 요약할 때 공격자가 댓글에 넣은 지시문을 모델 지시처럼 따르는 저장형 프롬프트 인젝션이 가능하다. PoC로 "YouTube support staff" 사칭 댓글을 통해 응답 앞에 [IMPORTANT NOTICE FROM YOUTUBE]를 삽입하는 데 성공했고, 추천 AI 프롬프트를 클릭만 해도 전체 댓글이 AI에 전달돼 체인이 실행된다. 페이로드가 채널 데이터를 URL에 넣게 하면 크리에이터 클릭 시 비공개 영상 제목이 공격자 서버로 유출된다. 트러스트 모델 위반의 핵심은 크리에이터가 신뢰하는 대상이 낯선 댓글 작성자가 아니라 Google 자체 AI 제품이라는 점인데, Google은 "social engineering 필요, 추적할 보안 버그 아님"으로 응답해 논란이 됐다.
KDE Plasma 샌드박스 탈출 - app_id 검증 부재
리눅스 데스크톱 샌드박스(Flatpak 등)의 격리를 우회하는 취약점이다. KDE Plasma의 창 관리 동작 때문에 샌드박스 앱이 사용자 클릭을 계기로 호스트 임의 바이너리를 실행할 수 있다(PoC 확인). 근본 원인은 KWin이 앱 제공 app_id를 신뢰하고 실제 .desktop 파일 매칭 없이 /proc/PID/cmdline 기반 실행 경로가 잔존하기 때문이다. 앞의 YouTube 인젝션과 마찬가지로 "시스템이 입력/식별자를 검증 없이 신뢰한다"는 공통 결함을 공유한다.
AI 도구 붐 노린 서드파티 확장 경고
NotebookLM 관련 브라우저 확장 프로그램이 서브레딧에서 다수 광고되는데 대부분 오픈소스가 아니며, 언제든 데이터 탈취/판매나 크립토 마이너(Monero) 실행 위험이 있다는 경고다. 오픈소스 + 고가치 + 나쁜 평판 없음이라는 세 조건을 모두 만족할 때만 설치를 고려하라는 실용 기준을 제시했다. AI 도구 붐을 타고 우후죽순 나오는 서드파티 확장의 보안 리스크를 짚은 커뮤니티 경고다.
연구와 시스템 최적화 신호
등변성 신경 연산자 EqGINO와 GPU 병목
LinkedIn · Sungwon Kim, LinkedIn · PyTorch
ICML 2026 시즌을 맞아 수치가 붙은 연구/시스템 신호가 올라왔다. Sungwon Kim(KAIST & LG Electronics)의 EqGINO 논문은 "3D 신경 연산자가 물리를 배우는가, 좌표를 외우는가"를 묻는다. 같은 차를 180° 회전하면 GINO의 압력 예측이 완전히 바뀌는데, 이는 모델이 좌표 프레임을 지름길로 학습했다는 증거다. 해법은 등변성을 설계로 강제하는 것으로, EqGNO는 상대 거리 ‖x-y‖로만 커널을 조건화해 설계상 불변이고 EqFNO는 구면 궤도당 가중치를 공유해 복잡도를 O(K³)에서 O(K)로 줄인다. Zero-shot OOD 회전에서 GINO 오차가 9.3배 증가하는 동안 EqGINO는 불변이었다. 시스템 쪽에서는 NVIDIA B200 GPU의 SFU(Special Function Units) 최적화 문제가 대규모 학습 성능 저하 원인으로 지적됐고(B300에서 해결), PyTorch는 하드웨어 무관 커널 DSL인 Helion을 vLLM에 통합해 LLM 추론 성능을 개선했다(AOT 오토튜닝 + 세밀한 런타임 디스패칭).
팔지 않아야 팔린다 - 마케팅과 그로스
바이럴, 심리 세일즈, 제도 설계, 리텐션
LinkedIn · Seulki Kang, LinkedIn · 이장규, Threads · growthzip
이번 주 마케팅 담론은 "직접 팔지 않고 사람이 스스로 움직이게 설계한다"로 수렴했다. Seulki Kang의 "팔지 않아야 팔린다"가 대표적이다. 링크드인 글을 문체만 바꿔 올리던 Threads 계정에서 힘을 빼고 일상(바퀴벌레 퇴치 고수를 '퇴바사'라 부른 일화)을 올리자 월 조회수 182만 회를 찍었다. 남편 식당 소세지 온라인 주문 급증을 자기 글 덕분이라 여겼는데 알고 보니 인플루언서 @gimbobo의 릴스 후기 때문이었고, 그 사실 자체를 올린 글이 다시 조회수 4.4만 회로 바이럴되며 주문 폭주로 이어졌다. 세스 고딘("사람들은 상품이 아니라 관계와 이야기, 약간의 마법을 산다")을 인용해 AI가 실력을 상향평준화한 지금 대체 불가능한 건 파는 사람의 취향/진정성이라 결론지었다. 이장규는 "피자집 사장에게 3초 만에 클로징당한" 경험을 심리 프레임으로 해부했다 - 마지막 자리+뒤에 줄(희소성), "추가 주문 안 돼요"(손실 회피), "보통 남자분들은 한 판씩 드세요"(사회적 증거) 3단계에 걸려 2판을 시켰고, B2B로 옮기면 "이거 사세요" 대신 "비슷한 상황의 다른 회사들은 이렇게 해요", "이 조건은 이번 분기까지만"이 된다. 양소영은 대만 통일발표(영수증 복권) 제도를 분석했다 - 1951년부터 탈세를 막으려 소비자에게 "영수증=복권"(최고 당첨금 한화 약 4억, 7/25 발표) 보상을 걸어 소비자가 스스로 감시자가 되게 했다. growthzip은 듀오링고 CEO의 리텐션 5원칙(진짜 문제는 '안 오는 것', 스트릭은 '잃기 싫은 것', 습관은 하나로, 돌아온 유저엔 진도, 16,000번 A/B 테스트)을 정리했다.
1인 사업 실전 수익화 - 바이브코딩, 토스 제휴
Threads · vibemak2r, Threads · minepick.kr, Threads · minsoo.draft
앞의 마케팅 원리가 실행으로 옮겨간 클러스터다. vibemak2r는 바이브코딩으로 월 600만원 불로소득(앱개발+릴스 자동화 400, 예전 프로그램 월유지비 200)을 얻으며 이 시스템까지 3년 걸렸다고 밝혔고, "AI 코딩으로 돈 벌게 해준다며 강의 파는 건 다 사기"라 단언했다. 그는 Claude Code로 meta 광고를 분석하는 5단계도 공유했다(meta MCP 설치 -> 랜딩에 meta 픽셀 설치 -> 픽셀/소재 연결 -> 매일 9시 소재별 이탈/결제 이벤트 확인 -> 전환 캠페인). 토스 플랫폼발 사례가 둘이다. minepick.kr은 토스 미니앱 '마크(마인크래프트) 서버 만들기'로 릴스 조회수 150만 회, 가입자 1.5만 명, 하루 이용자 1만 명을 넘겨 서버비 감당이 어려워 광고 제휴를 공개 모집했다. minsoo.draft는 1인 사업자로 토스 PG 가입비+유지비 33만원이 부담돼 0원 레거시 PG로 시작했는데, 트래픽이 나자 토스가 먼저 "가입비·유지비 지원"을 제안해왔고 전환 후 결제 전환율이 10~15% 상승했다.
콜드 이메일 아웃바운드 1년 실전: $12k -> $47k MRR
혼자 컴플라이언스 SaaS를 운영하며 1년간 직접 콜드 이메일을 돌린 미화 없는 월별 로그다. 인바운드로 $12k MRR에서 정체 후 콜드 이메일로 $47k(ACV 약 $18k)까지 도달했다. 첫 달 메인 도메인 발송으로 bounce 11%, 2주 만에 도메인 blacklist, 고객지원 이메일 deliverability까지 손실이라는 값비싼 교훈을 얻었다. 이후 별도 발송 도메인 3개 분리(SPF/DKIM/DMARC, Mailscale 3주 워밍업), Sales Navigator 수동 리스트, Prospeo(정확도 82-85%)+MillionVerifier로 bounce 2% 미만을 달성했다. 가장 반직관적인 발견은 개인화된 첫 문장을 매일 쓰려다 자정까지 일하게 되자 트리거 이벤트 기반 4개 템플릿(신규 컴플라이언스 채용/최근 펀딩/규제 변화/EU 진출)으로 전환했더니 reply rate가 오히려 2.8% -> 3.1%로 올랐다는 점이다. 최종 시스템은 5개 도메인 로테이션(도메인당 하루 25통 이하), 하루 80-100통, reply rate 3.2%, positive reply 1.4%, 월 5-6콜, close rate 25%, 미팅당 $70-80, 연간 툴 비용 $4,500이다.
국내 AI 생태계의 두 축
국방 해커톤, AX 인재전쟁, 대기업 GEO
LinkedIn · 안재희, Threads · careerhackeralex, LinkedIn · Hyoseok Lee
국내 AI 생태계가 "현장 문제 해결"과 "조직 정치"라는 두 실전 축으로 굴러간다. 안재희는 최강근 대표가 주도한 국방 해커톤 D4D(Deploy for Defense)에 심사위원으로 참여하며 징병제가 뜻밖의 국가적 자산이 된다고 주장했다. 개발자들이 군 현장을 이해하고 군사용어에 익숙해 솔루션을 빠르게 만들 수 있는 것이 강점이며, 클로드/제미나이급 파운데이션 모델을 직접 개발하긴 어려워도 그걸 활용한 솔루션 개발은 경쟁력이 있다는 것이다. 미군/우크라이나군이 미래기술이 아닌 현재 상용 기술로 전투를 치른다는 점을 근거로 현장 문제 해결형 개발을 제안했다. careerhackeralex는 'AX인재전쟁' 해커톤 후기에서 핵심 3요소를 짚었다 - Problem Solving/Roadmapping, 로드맵을 AI로 scaffold, 검증 단계(human-on-the-loop) 설계. "AI 좀 써봤다"는 사람은 2시간이면 제출할 만하지만 사회초년생에겐 어려운데, 그 이유가 "AI를 못 써서가 아니라 문제 푸는 법을 안 배워서"라는 관찰이 날카롭다. Hyoseok Lee(리드젠랩)는 대기업 GEO 프로젝트의 숨은 병목이 사내정치와 부서 간 알력이라며, 임원들이 GEO를 단순 검색 최적화가 아니라 2~3년 내 브랜드 명운을 좌우할 'AI 시대 생존 문제'로 인식한다고 전했다.
마인드셋: 최정상의 사고방식
조코비치가 말하는 습관, 환경, 자기 재발명
기술 소식은 아니지만 습관 형성과 환경의 힘에 대한 밀도 높은 인터뷰다. 조코비치는 어떤 습관을 바꾸려면 뇌가 새 뉴런을 만들고 재프로그래밍하기까지 최소 21일이 걸린다고 짚으면서도, 진짜 변수는 시간이 아니라 환경이라 말한다. 인간은 부족(tribal) 중심적 존재라 공동체에 속하고 싶어 하는데 그 사회적 본능이 오히려 변화를 방해하므로, 새로운 선택을 지키는 일은 "끊임없이 자신을 재발명하는 것"이라는 것이다. 그는 세계 1위와 윔블던 챔피언이라는 꿈을 "이틀 안에" 동시에 이뤘다(윔블던 우승 당일 랭킹 1위). 그러나 19세 첫 그랜드슬램 우승 후 3년간 슬램 무관 기간을 겪으며 페더러/나달에게 매 빅매치마다 패했고, 라켓/팀을 바꿔도 안 되다가 영양 개혁이 전환점이 됐다("모든 것이 위로 향하기 시작했다"). 코비 브라이언트의 "진 경기의 특정 구간이라도 그 쥐어짜는 느낌을 견디며 봐야 배운다"는 조언, "충분하지 않다는 느낌"이라는 근원적 동력, 올해 38세로 "한계는 보통 우리 마음속의 구성물일 뿐"이라는 관점을 이야기한다. 은퇴 이후로는 15년 넘게 최대 관심사였던 건강/웰니스/웰빙 생태계를 다음 무대로 지목했다.
기타 주목할 콘텐츠
Anna's Archive, Google Books 스캔 확보에 $200,000 현상금
Anna's Archive가 Google Books에 스니펫으로만 노출되는 전체 스캔 도서를 확보하기 위해 $200,000 현상금을 걸었다. 이미지 없이 OCR 텍스트만 반출해도 절반을 지급하고, Google 내부 접근권자도 대상이다. 흥미로운 지점은 "AI 기업들이 모은 희귀 도서 컬렉션"도 명시적으로 대상에 포함된다는 것으로, AI 학습 데이터로 수집된 대규모 서적 코퍼스가 아카이빙 진영의 표적이 되고 있음을 보여준다(전체 아카이브 규모는 약 1.5PB).
회의실 CO2가 의사결정 품질을 떨어뜨린다
"팀이 전략적으로 사고 못 한다"고 결론 내리기 전에 가장 싼 환경 변수(공기)를 먼저 배제하라는 주장이다. 닫힌 회의실은 첫 1시간 내 1,000ppm에 도달할 수 있고(실측 사진 2,143ppm), Lawrence Berkeley National Laboratory 연구에서 1,000ppm이면 9개 의사결정 지표 중 6개가 유의미하게 하락했다. Harvard 연구는 손실이 가장 큰 영역이 전략/계획/압박 속 정보 활용(회의가 필요한 바로 그 영역)임을 보였다. 대응은 CO2 측정기 + 창문/문 개방이다.
Starlink 아프리카 확산 - 경쟁 촉발로 요금 인하
Starlink의 가장 중요한 사회적 역할이 "직접 연결 제공"보다 "안일한 통신 산업에 경쟁을 자극해 데이터 요금을 낮춘 것"이라는 관점이다. Starlink는 27개 아프리카 국가에서 서비스하며 내년 초 대륙 내 100만 가입자가 전망된다. 유선 광케이블은 아프리카인 1% 미만이 쓰는데(나이지리아 한 곳만 광케이블 9만 km 부족), 현재 Starlink는 모바일보다 비싼 임시방편이지만 기존 통신사가 고객 이탈을 우려해 투자를 늘리는 촉매로 작동한다.
미 상무부 DAO 216-26이 차등 프라이버시 금지
CS 이론 커뮤니티가 강하게 반발한 정책 이슈다. 2026-06-04 미 상무부 DAO 216-26이 BEA/Census Bureau의 공개 통계 보호를 1970년대 기법(coarsening: 반올림/집계/범위화)으로 제한하고 differential privacy, noise infusion, swapping 같은 현대 기법을 금지했다. 핵심 논증은 "coarsening만으로는 유용성과 기밀성을 동시에 못 지킨다"는 것으로, 양조장 예시에서 지리/업종/소유형태별 집계값을 결합하면 고교 수준 대수(5식 4미지수)로 개별 사업체가 완전히 재구성된다. DP 창시자 Cynthia Dwork(Harvard) 등이 공동 서명했고, Census Act가 개인 식별 가능 공개를 범죄로 규정하는데 DAO가 행정 절차를 우회했다는 비판이 붙었다.
버튼은 입력을 버퍼링해야 - 상황적 파워유저
Hacker News · unsung.aresluna.org
UX 원칙("입력을 버리지 말고 버퍼링하라")을 상황적 접근성 프레임으로 확장한 글이다. iPhone은 이미지 회전 탭을 버퍼링(진행 중 애니메이션 뒤 다음 회전 실행)하지만 Nothing Phone/Android는 애니메이션 중 탭을 무시한다. "situational disability"와 "situational power user-ness" 프레임으로, 여러 문서를 회전시켜야 하는 상황처럼 캐주얼 UI도 충분히 큰 모집단에선 파워유저를 만난다는 통찰이다. 규칙은 "절대 사용자가 애니메이션 끝나길 기다리게 하지 마라"(빠른 입력이 안전기능을 우회한 THERAC-25 참조).
실용 팁 묶음: AWS 절감/보안, 무료 AI 리소스
Threads · owel.dev, X · CoderDaMing
바로 써먹을 실무 팁과 무료 리소스 모음이다. owel.dev의 AWS 팁 5가지가 구체적이다 - (1) ARM CPU(t3->t4g)로 20% 저렴+성능 향상, (2) CPU가 상시 40%를 넘으면 t 계열에서 m 계열로 전환, (3) 루트 계정은 MFA+결제 확인용으로만 두고 작업은 IAM으로, (4) SSH 대신 SSM Session Manager(포트 오픈 불필요+감사 기록), (5) 퇴사자 SSH Key는 authorized_keys에서 직접 삭제(콘솔 삭제만으론 접속 유지). 무료 리소스로는 prettyshisya(1026 likes)의 "영구 무료 AI API 모음 GitHub repo", 제미나이 무료 100만 토큰/하루 1500 요청, 로컬 실행 OCR 도구(PDF/Word/PPT/Excel -> Markdown, 외부 전송 없음), CoderDaMing(5106 likes)의 "합법이지만 불법처럼 느껴지는 사이트 50선"(cobalt.tools, photopea, temp-mail, tinywow, archive.org)이 큰 반응을 얻었다.
런칭 단신: Gemma 4 31B, 폰 스캔 워크스루
LinkedIn · Cerebras, X · bigaiguy
수치가 붙은 짧은 런칭/데모 신호다. Cerebras는 Google DeepMind의 멀티모달 모델 Gemma 4 31B를 Public Preview로 제공하기 시작했다 - 1,800 TPS 이상으로 일반 GPU 엔드포인트보다 35배 빠르며(Artificial Analysis 측정) computer use와 이미지 기반 에이전틱 워크플로를 지원한다. bigaiguy(1418 likes)는 한 개발자가 폰으로 집 전체를 스캔해 업로드하자 앱도 VR도 없이 브라우저 탭에서 방마다 걸어다닐 수 있게 됐다며 부동산 워크스루 업계가 위협받는다고 전했다. Krafton 인턴십의 PUBG Ally(AI Companion) 캐릭터 Ella 데뷔, Agentic Arena 2026 882명 중 3위(OncoAssist로 Best Pitch) 소식도 나왔다.
이번 주 생명과학 3종
Hacker News · Texas A&M, Hacker News · Loma Linda University, Hacker News · Marine Biological Laboratory
tech digest의 곁가지지만 하나로 묶어둔다. 모두 과장/한계를 경계하는 댓글이 붙었다는 공통점이 있다. Texas A&M 팀은 2회 투여로 뇌 염증을 줄이고 기억을 회복시키는 비강 스프레이를 개발했다(hiPSC-NSC 유래 extracellular vesicles가 NLRP3 inflammasome, cGAS-STING 경로 억제) - 단 18개월령 생쥐 대상이라 HN 최상위 댓글이 즉각 "in mice"를 지적했다. Loma Linda University의 39,498명 코호트(추적 15.3년)에서는 주 5회+ 계란 섭취군의 알츠하이머 위험이 낮았지만(HR 0.73), 관찰 연구라 역인과 가능성이 지적됐다(콜린 기전 가설). Marine Biological Laboratory 연구는 해파리(Clytia hemisphaerica)가 작은 상처를 수 분, 큰 상처를 1시간 미만에 흉터 없이 치유하는 2단계 기전(lamellipodia + actomyosin cable)을 밝혔는데, 이 상피세포 치유 기전이 포유류에도 보존된다.
교차 분석
서로 다른 섹션의 콘텐츠가 같은 현상을 다른 각도에서 본다. 다섯 갈래로 정리한다.
-
좋은 모델이 왜 오래 안 갈 것 같은가 = 경제성. Fable 5의 "종료 임박" 정서(Fable 5 열풍 섹션)와 Perplexity Pro 구독 반발, "$200 구독이 API 30배 값어치"라는 인식(컨텍스트를 이미지로 섹션)은 같은 뿌리다. 모델 제공사가 손해를 보며 서비스하고 IPO 전 수익화 압박이 커지니, 사용자는 개방 창이 닫히기 전에 최대한 쓰려 하고 절감 기법(pxpipe, Azure Foundry 우회)에 매달린다. 하이프와 절감이 한 사건의 양면이다.
-
하네스가 모델을 조용히 망친다. 에이전트 운영 섹션의 "하네스가 slop을 조용히 수리한다"는 이상이, 프론티어 모델 섹션의 Opus 4.8 스키마 위반과 GPT-5.5 516토큰 클러스터링에서 실제 증상으로 나타난다. 지배적 하네스(Claude Code)로 post-training될수록 다른 하네스가 그 특이성을 물려받아야 하는 walled garden 위험, 추론 비용 절감이 조용한 성능 저하로 이어지는 정황이 겹친다. "루프가 핵심"이라는 낙관과 "세션 기록 인덱싱은 무용"이라는 회의론이 나란히 굴러가는 것도 하네스 성숙의 두 얼굴이다.
-
AI의 노동 대체는 같은 힘의 세 얼굴. 노동시장 섹션(주니어 붕괴 vs 1인 창업 폭증)과 소프트웨어 제작 섹션(C&C 포팅, 자폐 아동 앱, Cowork 스페인어 앱)은 "AI가 명세대로 코드 쓰는 일을 대체하고 개발을 headcount가 아니라 모든 직무의 capability로 확산시킨다"는 동일 현상이다. 타이틀(computer programmer)은 죽고 판단하는 일(data scientist)은 성장하며, 구현 능력 없던 개인이 직접 제품을 찍어낸다. 단 3D 게임 좌절 사례가 "어디까지 되고 어디서 막히는가"의 경계를 그어준다.
-
데이터를 밖으로 안 보낸다는 공통 가치. 오픈/로컬 추론 경제 섹션(로컬 하드웨어, 소비자 GPU 에이전트)과 문서 처리(로컬 VLM PDF), 보안(비오픈소스 확장 경고), 프라이버시 정책(차등 프라이버시 금지)이 "데이터를 외부 API/공개로 넘기지 않는다"는 축을 공유한다. CUDA 해자 약화가 이 로컬 전환에 하드웨어 근거를 대준다.
-
무엇을 신뢰하고 무엇을 노출하나. 보안 섹션(YouTube 인젝션, KDE app_id 무검증)과 MCP 설계 섹션(Safari 격리, 최소 노출)은 같은 축에 있다. 시스템이 입력/식별자를 검증 없이 신뢰하면 공격 벡터가 되고, 툴을 무분별하게 노출하면 에이전트가 안전을 추측하게 된다. 신뢰 경계를 명시하고 노출을 최소화하는 설계가 두 진영 모두에서 성숙의 방향으로 제시된다.
Powered by skim