Daily Digest — 2026-06-25
Fable 5 컴백 정황과 1조 달러 Anthropic 다큐, 코드 에이전트의 스킬·검증·자가개선 하네스, AI 코딩의 빛과 그늘, 그리고 에이전트 평가·데이터 효율 연구가 한꺼번에 쏟아진 날
Daily Digest — 2026-06-25
오늘의 핵심 흐름
오늘 수집한 콘텐츠는 다섯 갈래의 큰 흐름으로 모인다.
-
Anthropic이 모델 컴백·1조 달러 위상·인재·정책 마찰을 한 주에 동시에 안았다. Claude Code 빌드 문자열과 Bedrock 카탈로그 노출로 'Fable 5/Mythos'가 "구독 포함 + 주간 한도"로 돌아온다는 정황이 여러 서브레딧을 가로질러 퍼졌고, Bloomberg 다큐는 기업가치 1조 달러 근접·80배 성장·슈퍼웨폰급 모델·국방부 충돌을 한 화면에 담았다. 인재(Conmy, Gemini 핵심 2명)는 몰리고, Alibaba 무단 distill 의혹과 트럼프 백악관과의 결별설이 같은 날 겹쳤다. →
Anthropic 한 주 -
코드 에이전트의 무게중심이 '코드 작성'에서 '스킬·검증·자가개선'으로 옮겨갔다. Goose Ads·SEO·PPTX 같은 스킬이 폭발했고, 동시에 악성 스킬 5종이 스캐너를 통과했다(공급망 경고). 운영 쪽에서는 CrabBox(병렬 PR 검증), LangSmith Engine(트레이스→메모리), Clay(월 3.5억 에이전트)가 "에이전트가 늘면 작성이 아니라 머지·검증·학습이 병목"이라는 같은 진단을 각자 각도로 풀었다. →
코드 에이전트의 스킬·자동화 생태계·에이전트 운영 하네스·검증 -
AI 코딩의 '빛과 그늘'이 같은 조건에서 마주 섰다. PostHog가 Claude로 SQL 파서를 프로덕션 454배 가속한 성공(빛)과, Armin Ronacher의 "다가오는 루프" 우려(그늘)가 정확히 같은 조건("검증 가능·단명 산출물에서 루프가 통한다")을 양쪽에서 말한다. 비기능요구 평가에서 개발자 동의율 91~94% vs 실제 F1 0.381이라는 "느낌≠정확" 괴리가 그 사이에 놓인다. →
AI 코딩의 빛과 그늘 -
'AI가 일자리·시장·인프라를 어떻게 바꾸는가'가 노동·경제 양면의 질문이 됐다. Blizzard 출신의 구직난 토로와 Elastic의 "AI로 더 작게" 7% 해고가 노동자·기업 거울상이고, OpenAI 첫 자체 칩 Jalapeño와 Gong의 "카피 불가 모트"론이 시장·전략 축이다. →
AI와 노동시장·모델 경제성·시장·인프라 -
연구는 '에이전트를 어떻게 학습·평가·검증할 것인가'와 '데이터·보상 효율'로 수렴한다. OT-Agent·Qwen-AgentWorld·조기 확정 진단·현실적 벤치마크 러시(AGORA·ReMMD·Lingxi·ChartWalker)가 한 줄기를, AC-ODM/HDS·다중 epoch 증강·장기컨텍스트 RL·검증가능 보상의 한계가 다른 줄기를 이룬다. 그 옆에서 LLM을 직접 컨트롤러가 아니라 발견·가이드 엔진으로 쓰는 흐름(양자코드 설계·InSight·LaGO·DeepBD)이 반복된다. →
연구 레이더4개 섹션
아래는 이 흐름들을 주제 클러스터로 풀어낸 본문이다.
Anthropic 한 주 — 모델 컴백, 1조 달러, 인재, 정책
오늘 가장 한국·글로벌 청중 모두에게 무게 있는 묶음이다. 차세대 모델 컴백 정황, 1조 달러 위상을 그린 다큐, 인재 유입과 경쟁사 의혹, 정책 마찰이 한꺼번에 드러났다.
Claude 'Mythos/Fable 5' 컴백 정황 + 1조 달러 다큐멘터리
Reddit · r/ClaudeAI · YouTube · 비즈니스캔버스 B_ZCF
Fable 5(Anthropic의 한 모델 라인) 컴백이 이번 주 r/ClaudeAI·r/ClaudeCode·r/Anthropic을 가로질러 가장 뜨거운 단일 주제였다. 발화점은 두 가지다. 첫째, Claude Code 데스크톱 빌드 v2.1.190에서 발견된 문자열(앱에 하드코딩된 UI 텍스트) 변화 — "이번 주 Fable 5 사용량을 다 썼습니다" 같은 주간 사용량 안내 문구가 새로 들어가고 "플랜과 별도 구매" 문구는 제거됐다. 둘째, Fable 5가 Amazon Bedrock 모델 카탈로그에 잠깐 실제로 노출됐고 그 페이지가 라이브 상태였다는 스크린샷이다. 커뮤니티 해석은 일관된다 — Fable 5가 별도 유료 구매에서 벗어나 구독에 기본 포함되되 주간 사용량 한도가 걸리는 형태로 재편된다는 것이다. 동시에 Sonnet 5가 엔터프라이즈 Early Access로 풀려 있는데 이를 Fable 5 마무리 동안의 임시 자리채움으로 보는 시각도 있다. 주말 전 잦은 API 장애·성능 저하 + CC npm 신버전 릴리스가 겹쳤고, Anthropic이 과거 주중 후반에 모델을 내놓던 패턴과 맞물려 기대가 강하다. 다만 근거가 전부 문자열 디핑과 단발성 카탈로그 노출이라 공식 발표가 아닌 정황 증거(1차 단서: x.com/synthwavedd)라는 한계는 분명하다.
같은 회사의 위상을 정반대 스케일에서 그린 것이 Bloomberg 장편 다큐(번역본)다. Anthropic은 기업가치 약 1조 달러에 근접하며 처음으로 흑자 전환했고, 1분기 연환산 80배 성장·API 볼륨 전년 대비 약 17배·지난 12개월 8개 프런티어 모델 출시를 기록했다. Claude Co-work 출시 직후 소프트웨어 섹터 시총 2,850억 달러가 증발("SaaS apocalypse")했고, Dario Amodei는 "15년 내 사무직 신입 일자리의 절반이 사라질 수 있다"는 입장과 "문명 붕괴 확률 1025%"를 함께 말한다. 신규 모델 'Mythos'는 수천 개 사이버 보안 취약점과 주요 OS 결함을 노출해 일부 기업이 "슈퍼웨폰, 출시하지 말라"고 요청했고 'Project Glass Wing'으로 제한 공개됐다. Pentagon $200M 계약(OpenAI·XAI·Google 공동) 이후 대량 감시·자율무기 사용 거부('red lines')로 국방부와 충돌해 블랙리스트에 올랐고, 국방장관 Pete Hegseth는 Dario를 "이념적 광인"이라 칭했다. 美 군이 LLM 도움으로 하루 타격 목표를 1,000개에서 5,000개로 확대했다는 당국자 발언도 인용된다. Dario는 Claude '헌법'·"전문적 따뜻함"·"인간이 최종 결정을 내린다"는 원칙을 강조하며, 자신을 Oppenheimer가 아니라 Leo Szilard에 동일시하고 "곳곳에 견제와 균형"을 요구한다.
Claude를 Slack에 "@태그"로 부르는 새 패러다임 + "트로이 목마" 반론
Anthropic이 Claude를 Slack 같은 협업 도구 안에서 "@태그"로 호출하는 방식을 새로 밀고 있다. Karpathy(18,475 좋아요·945 리트윗, 이 카테고리 최상위권)는 이를 "조직 전반의 다른 인간 활동과 훨씬 더 인라인으로 들어맞는, Claude와 상호작용하는 새 패러다임"이라 평가하며, 이게 "그냥 작동"하려면 툴·통합·컴퓨트·메모리에 걸친 내부 엔지니어링이 필요하다고 짚었다. 기술적 핵심은 Anthropic 공식(@ClaudeDevs)이 설명한 "agent identity"다. 채널에 4명이 있고 Claude가 일할 때 누구의 자격증명을 쓰냐는 질문에 답은 "Claude 자신의 것" — 태그하면 여느 팀원처럼 자기 자격증명을 가진 주체로 프로비저닝된다(권한·감사 추적에 의미 있는 설계). 반대 시각도 강했다. Ashwin(@ashwingop, 1,973 좋아요)은 "Claude Tag는 트로이 목마"라며, Anthropic이 악의적이어서가 아니라 인센티브가 뻔하기 때문에 첫날엔 좋아 보여도 점점 사람 업무를 잠식하는 구조라고 우려했다.
Anthropic 인재 러시 + Alibaba의 Claude 무단 distill 의혹
Anthropic을 둘러싼 인사·경쟁 뉴스가 겹쳤다. Arthur Conmy가 합류를 알리며 "학습 중인 차세대 모델의 정렬(alignment) 작업을 시작하겠다", "Claude의 능력은 비범하지만 아직 AGI를 안전하게 위임할 만큼 정렬되지 않았다"고 밝혔다. Bloomberg 보도(MaxForAI 정리)로는 Gemini 핵심 기여자 2명 — Jonas Adler(Google AI coding 프로젝트 핵심 책임자 중 하나, KTH 출신)와 Alexander Pritzel(기초 학습팀 핵심) — 도 Google DeepMind를 떠나 Anthropic에 합류한다. 동시에 Anthropic은 Alibaba 연계 운영자들이 약 25,000개 부정 계정으로 Claude에 불법 접근해 Qwen 학습용으로 대규모 distill(큰 모델 출력을 베껴 작은 모델 학습)했다고 주장했다(Bloomberg). 인재 유입과 경쟁사의 무단 활용 의혹이 같은 날 묶여 나온 셈이다.
트럼프 백악관과 Dario Amodei의 결별
Wired가 트럼프 백악관과 Anthropic CEO Dario Amodei의 관계 악화를 다룬 기사("The Trump White House Is Over Anthropic's Dario Amodei")가 r/Anthropic에 공유됐다(116 upvote, 63 comment). Reddit엔 제목만 올라와 본문 디테일은 원 기사 확인이 필요하나, AI 규제를 적극 주장해온 Amodei와 현 행정부의 마찰이라는 산업 신호로 회자됐다. 위 다큐의 "Mythos 안보 함의로 백악관이 세계 최강 AI를 통제하려는 기류로 돌아섰다"는 서술과 같은 결이다.
Claude Code 단신 — /rewind, 2.1.191, DIY 상태등
Claude Code 2.1.191 릴리즈는 CLI 변경 20건으로, 하이라이트는 /rewind로 /clear 이전 시점에서 대화를 재개해 맥락을 복원하는 기능이다(반면 tasks 패널에서 중단한 백그라운드 에이전트는 재시작되지 않아 중단이 영구화된다). 이번 Reddit 데이터셋 최다 반응(1889 upvote·216 comment)은 DIY 물리 상태등이었다 — 빨강=확인 대기, 노랑=실행 중, 초록=완료/idle이며 상태 전환은 Claude Code hooks로 자동 처리된다. 작업 중 다른 창·폰을 보다가 "끝났나, 내 확인을 기다리나"를 확인하러 계속 되돌아오는 비동기 작업 가시성이 사용자들의 실질 페인포인트임을 보여준다.
코드 에이전트의 스킬·자동화 생태계
스킬을 패키지처럼 만들고 공유·설치하는 흐름이 이번 주 SNS의 가장 두꺼운 갈래였다. 동시에 그 신뢰 모델을 정면으로 흔드는 보안 사건이 같은 날 터졌다.
Claude/Codex 스킬 폭발 — Goose Ads, 개인 SEO·PPTX 스킬
Claude/Codex의 "스킬" 생태계가 이날 가장 두꺼운 흐름이었다. shivsakhuja가 출시한 Goose Ads는 /goose-ads 스킬로 Claude·Claude Code·Cowork·Codex 어디서나 고성능 광고 크리에이티브를 만든다(설치 npx gooseworks install --all). 좋아요 2,864 대비 리트윗 1,007로 유난히 높아 실사용·공유 의향이 강했다. 개인 스킬도 쏟아졌다 — graifomo는 PNG→PPTX 변환 Codex 전용 pngtopptx를 "Canva Magic Layer보다 우수"라 주장하며 공개했고, gnhhn은 구글·네이버 SEO 스킬을 GitHub에 올려 바이브코딩·1인 개발자가 복붙해 쓰도록 했으며, dddesign.io는 "AI티 나는 디자인" 8개 유형 사전(md 파일)을 배포하고 스킬화를 예고했다. 메타적 관점도 있다 — unclejobs.ai는 "다들 신모델만 기다리지만 F1 드라이버의 우승은 최신 엔진 때문만이 아니다"라며 Grill-me·Teach 스킬로 청중을 사로잡은 Matt Pocock(mattpocock/skills)을 인용해 "모델보다 스킬·운용"이라는 메시지를 던졌다.
멀티에이전트 딥리서치 — LazyCodex ultraresearch
yeon.gyu.kim이 여러 글로 LazyCodex의 ultraresearch(단축 ulw)를 밀었다. 서브에이전트를 10개씩 띄워 Reddit·YouTube·Twitter·디시인사이드를 수백 페이지 단위로 긁어 네다섯 시간이고 전부 수집해 리포트를 만든다는 것. 여기에 gptaku_ai의 insane search와 스텔스 브라우저를 얹어 캡차·차단을 우회("다 뚫는다")하고, slides-grab으로 PPT형 보고서를 사람이 후편집까지 쉽게 만든다고 했다. 실행은 Codex Desktop App 안에서 ulw 한 번. 본인 주장으로 Perplexity·Genspark·ChatGPT/Gemini deep research보다 낫고 "팀모드로 조별과제처럼 서브에이전트끼리 토론한다"고 표현했다(수치 비교 근거는 제시되지 않은 개인 주장). 같은 결로 dellacasa_2는 Codex와 Claude Cowork로 "살아있는 대시보드"를 만드는 중이라고 공유했다. "여러 에이전트 fan-out + 차단 우회 크롤 + 자동 리포트"가 개인 워크플로로 자리잡는 흐름이다.
GitHub 급상승 + Mac 네이티브 컨테이너
두 GitHub 급상승 집계가 같은 날 올라왔다. bohe76의 20260624 일자 Top10에서는 calesthio/OpenMontage가 #1(에이전틱 영상 제작 시스템, "AI 코딩 어시스턴트를 영상 스튜디오처럼", Python 17.7k★·하루 +3,592), apple/container가 #2였다. Fluyeporlaweb의 "6월 가장 빠르게 성장한 레포 Top10"에서는 #1이 pewdiepie-archdaemon/odysseus(유튜버 PewDiePie가 만든 self-hosted AI 워크스페이스, 무료 공개, 3주 만에 75.8k★), #2가 mattpocock/skills였다. apple/container는 Apple Silicon Mac용 경량 VM 기반 Linux 컨테이너 런타임으로, Docker Desktop 없이·RAM 점유 데몬 없이·무료로 돌릴 수 있다는 평가가 크게 돌았다(twtayaan 9,878 좋아요, 1.0.0·Swift). 스타 수치는 출처마다 달랐다 — twtayaan은 "26.5k", bohe76 집계는 "41.4k★·+1,746/일"로 시점·집계 차이로 추정된다.
악성 에이전트 스킬 5종이 스캐너를 통과했다 (공급망 보안)
AI 에이전트 스킬 생태계의 공급망 보안을 정면으로 찌른 글이다. Palo Alto Networks의 위협 인텔리전스 팀 Unit 42가 ClawScan과 VirusTotal을 모두 통과한 악성 스킬 5종을 찾아냈다. 인상적인 건 전통적 멀웨어가 아닌 케이스다 — money-radar는 금융 어드바이저로 위장해 매 실행마다 악성 도메인에서 referrals.json을 받아 런타임에 추천 제품을 바꿔치기해 운영자의 제휴 링크를 "전문가 조언"으로 둔갑시켰고, letssendit은 설치된 여러 에이전트의 솔라나(SOL)를 풀링해 운영자가 pump.fun에서 밈코인 런칭을 front-run 후 덤프하는 봇넷 러그풀이었으며, omnicogg는 README에 22MB 정크를 채워 스캐너가 "파일이 너무 큼"으로 건너뛰게 한 뒤 AMOS dropper(macOS 정보탈취 멀웨어)를 숨겼다. 핵심 주장은 시그니처 스캔이 무력하다는 것 — "항상 제휴 링크를 사용하라"는 지시는 페이로드가 아니라 명령문이라 어떤 스캐너도 플래그하지 못한다. 결론은 "스킬을 설치하지 말고 직접 써라 — 읽을 수 있으면 스스로 쓸 수 있고, 그래야 에이전트가 뭘 돌리는지 안다"이다.
에이전트 운영 하네스·검증
"에이전트가 늘어나면 병목은 코드 작성이 아니라 검증·머지·학습"이라는 한 진단을, 네 도구·발표가 각자 각도에서 풀었다.
CrabBox — 수백 개 병렬 에이전트의 PR 검증
OpenClaw 저자 Peter Steinberg가 만든 신규 도구 'CrabBox'를 AI Jason이 소개한다. 배경은 명확하다 — 팀이 자율 루프를 깔면서 한 번에 최소 10개(Peter는 15개+)의 에이전트 세션을 병렬로 돌리면 엄청난 PR이 쏟아지고, 병목이 '코드 작성'에서 '코드를 코드베이스에 머지하는 것'으로 옮겨간다. 검증 1단계는 에이전트에게 자기 작업을 검증하고 증거를 남길 도구(Playwright로 브라우저 테스트·영상 녹화→PR 첨부)를 주는 것인데, 다수가 병렬로 DB 스키마를 바꾸거나 동시 테스트하면 깨진다. Claude Code work tree는 코드 격리는 주지만 테스트엔 dev 서버가 필요하고, 로컬에선 포트 하드코딩·단일 Docker daemon·단일 DB(로컬 Supabase)를 모든 세션이 공유해 한 세션의 새 스키마가 다른 세션을 망가뜨린다. 올바른 해법은 각 work tree마다 클라우드 격리 sandbox를 띄우는 것이지만 직접 짜기엔 번거롭고, 테스트 중 로컬에서 고친 dirty 파일을 sandbox에 넣기도 어렵다(commit-push-CI는 불필요한 커밋 양산). CrabBox는 박스를 warm up하고 로컬 work tree의 dirty diff를 commit 없이 SSH로 동기화한 뒤 실시간 테스트한다(crabox warm up/run/stop, artifacts collect/videos/publish=S3). 설정은 Dockerfile + crabbox.yml(provider·exclude·env) + setup.sh 셋이고, 데모는 기동 빠른 Daytona를 provider로, Playwright CLI로 E2E 테스트 후 스크린샷·영상 증거를 PR에 인라인 코멘트로 붙인다. 충돌 없이 원하는 만큼 병렬 세션을 돌릴 수 있다(오픈소스).
LangSmith Engine — 트레이스를 메모리·자가개선으로
LangChain의 LangSmith Engine을 다루는 두 영상의 핵심 명제는 강렬하다 — "대부분의 에이전트는 학습하지 않는다. 단지 트레이스만 남긴다." 상호작용이 끝나면 트레이스가 저장되지만 행동은 그대로라, 내일 같은 상황에서 같은 실수를 반복한다. 목표는 '지속 학습 루프'(트레이스→신호→메모리→다음 실행 인도)다. 장기 메모리는 셋으로 나뉜다 — Semantic(아는 것), Episodic(경험한 것), Procedural(행동 방식). LangSmith Engine은 이 루프를 자동화하는 백그라운드 프로세스로, 실패한 도구 호출·불일치·수정·나쁜 출력·부정 피드백을 클러스터링해 '이슈'로 묶고, 레포를 연결하면 타깃 변경 PR을 초안하며 회귀 방지용 eval·예시를 테스트 스위트에 추가 제안하고, 머지 후 프로덕션에서 실제 해결됐는지 모니터링한다(Vanta·Campfire·Cogent가 수천 이슈 발굴). 데모의 백미는 진단 사례 — 금융 어시스턴트 NOVA에게 'great'/'here's'/'let me'/'sure' 필러 워드를 피하라고 agents.md에 명시했는데도 응답 첫머리에 'great'가 나오자, Engine은 이 규칙이 '읽을 수 있는 메모리(agents.md)'로만 로드되고 시스템 프롬프트엔 주입되지 않아 작은 모델(Claude)이 우선순위를 낮춘다고 진단하고 few-shot 예시 추가를 제안한다. 메모리는 git 기반 버전관리 스토어 Context Hub(staging→production)에 두며, 임시 파일이 영속 메모리가 되지 않도록 composite backend로 스크래치패드(state)와 Context Hub를 분리한다.
같은 주제를 vendor 가이드로 정리한 것이 LangChain 블로그의 "에이전트에 메모리를 넣는 법"이다 — 가장 눈에 띄는 개선은 보통 procedural 메모리(포맷 오류, 도구 호출 순서, 잘못된 서브에이전트 위임, 톤 규칙 무시)에서 오고, 3단계 루프(트레이스 수집→분석→메모리 갱신)를 권하되 "모든 트레이스를 메모리화하지 말 것 / 런타임이 프롬프트·스킬을 캐시하면 갱신을 다시 읽을 refresh 경로 필요 / 중요한 행동은 eval로 보호"를 함정으로 짚는다.
Clay — 월 3.5억 GTM 에이전트를 돌리는 프로덕션 엔지니어링
Clay의 AI 책임자 Jeff Barg가 Interrupt 26에서 GTM 에이전트를 프로덕션 규모로 운영하는 법을 발표한다. Clay는 월 3.5억 개 GTM 에이전트를 돌리고 주당 수조 토큰을 처리하며, 자체 데이터는 4천만 기업·9억 컨택트다. 문제 정의 — GPT-4 이후 누구나 사람 같은 콜드 이메일을 쓰게 돼 어떤 크리에이티브 우위도 영원하지 않으니 '가장 빨리 반복하는 자가 이긴다'(GTM 알파). 알파 3단계는 ①개인에게 ChatGPT/Claude 쥐여주기 ②워크스페이스 차원 중앙화(Claude skills·자동 노트) ③경쟁사가 못 베끼는 우위(예: head of engineering 채용 중이고 자사 GitHub repo를 star한 엔지니어가 많은 기업 타깃)다. 4대 과제와 교훈 — ①인프라: Lambda는 wall time 과금이라 비싸 ECS로 전환했고 durable workflow(큐+체크포인팅)가 정답, ②레이트리밋: 백프레셔 기반 적응형 스로틀링(TCP/IP 혼잡제어 유사)으로 순진한 시스템 대비 4~10배 처리량(+단일 대형 고객이 소형 고객을 밀어내지 않는 공정성), ③비용: Anthropic 캐싱 전략으로 최대 70% 절감, retry·도구 호출을 일정 단계 후 강제 종료시키는 게 완주보다 나은 결과(단 eval 병행), ④품질: 좋은 컨텍스트가 출발점이고 오프라인+온라인 eval로 하네스를 GTM에 특화 튜닝. Audiences 단계에서 Snowflake·Salesforce·Gong GTM 데이터를 모으고 제3자 신호(펀딩·뉴스)를 입혀 "효과 본 플레이를 추천하는 GTM intelligence 플라이휠"을 만든다(Gong이 Clay의 데이터 소스로 직접 언급된다).
LangGraph 에이전트를 음성 에이전트로 (Pipecat)
LangChain의 Caroline이 프로덕션 검증된 LangGraph 텍스트 에이전트를 음성 모달리티로 확장하는 법을 시연한다. 핵심 도구 Pipecat은 입력 오디오→텍스트→LangGraph LLM 실행→음성으로 변환하는 글루와 음성 활동 감지(VAD)·인터럽션 처리를 자동 제공한다. 데모는 헬스장 멤버십 고객지원 봇(triage→cancellation/credits/booking 4개 서브에이전트)이다. 핵심 변경은 checkpointer 제거 — Pipecat도 자체 컨텍스트를 저장하므로 중복을 피하려 LangGraph를 완전 stateless로 만들고, 'active agent'를 저장된 state가 아니라 messages를 훑어 마지막 'transfer to X' 도구 호출에서 재계산한다. 관측성은 LangSmith의 span processor로 Pipecat OTEL 트레이스를 변환하고 audio buffer processor로 오디오 녹음을 첨부하면 트레이스에 재생 버튼·채널별 파형이 나타난다. 텍스트→음성 전환 시엔 짧은 응답·한 번에 한 질문·이모지 제거로 프롬프트를 조정해야 한다.
인상적 자동화에만 매달리고 하루를 잡아먹는 잡일은 방치한다
자동화 커뮤니티에서 공감대가 컸던 hot take. 모두가 주 1회 돌며 20분 아끼는 "멋진" 파이프라인에 매달리면서, 정작 하루 40번 반복하는 30초짜리 잡일(데이터 입력·폼 채우기·시스템 간 복붙)은 자동화하지 않는다는 것이다. 이 잡일은 프로젝트로 정당화하기엔 너무 작고 무시하기엔 너무 빈번해 영구적으로 모두에게 세금처럼 부과된다. 작성자는 자주 채우는 폼을 record-and-replay 확장(quickform, Chrome 전용 개인용 반창고)으로 일부 되찾았고 "2년이나 참은 게 멍청했다"고 덧붙인다. CrabBox·LangSmith Engine이 "에이전트 운영의 큰 병목"을 다룬다면 이 글은 그 반대편 — 가장 작고 빈번한 일이 진짜 시간 도둑이라는 신호다.
AI 코딩의 빛과 그늘
PostHog의 성공(빛)과 Armin Ronacher의 우려(그늘)가 정확히 같은 조건을 양쪽에서 말한다. 비기능요구 평가의 "느낌≠정확" 괴리가 그 사이에 놓인다.
PostHog, Claude로 SQL 파서를 다시 짜 프로덕션 평균 454배 가속
여러 장기 실행 Claude Code 세션을 병렬로 돌려 PostHog의 SQL 파서를 재작성했다(파서 16K줄·툴링 5K줄·다수 테스트). 속도는 제목의 70배가 노트북 벤치마크, 프로덕션 쿼리 평균은 454배다(긴 SQL이라 파서 캐시 미스). 방식은 기존 C++ ANTLR 파서를 "오라클"로 두고 둘이 불일치하는 SQL을 찾아 새 파서를 고치는 TDD 루프 — 불일치는 Hypothesis(PBT)+.g4 문법 기반 생성기+커버리지 유도 생성+프로덕션 로그+"엣지케이스를 정말 열심히 생각해" 프롬프트로 만들었다. 재사용 가능한 실전 교훈 둘이 특히 가치 있다. 첫째, "fix 직전에 문법·소스를 컨텍스트에 강제 로드"하는 프롬프트로 컨텍스트 maxout·compact로 모델이 "잊어버리던" 임시방편 수정을 줄였다. 둘째, PBT를 백그라운드로 상시 돌려 실패 케이스를 파일에 쌓고 Claude가 할 일 없을 때 가져가게 한 "CPU는 퍼징에, 추론은 파서 작성에" 분업이다. shadow mode로 프로덕션 C++ 파서와 병행해 수백만 파스에서 divergence 0을 확인하고 몇 시간 만에 전환했다. 결과물은 hand-written predictive recursive-descent + Pratt expression core(LL(2), Claude Opus 4.7가 Rust로 작성)이며, 저자는 "vibe-coded는 아니다"라고 선을 긋는다(PBT·커버리지 유도가 파서 퍼징의 최신 수준). "AI 코딩=슬롭 양산"이라는 통념에 대한 반례다.
"다가오는 루프" — 하네스가 코드를 끝내는 시대에 대한 우려 (Armin Ronacher)
Hacker News · lucumr.pocoo.org
Flask 창시자 Armin Ronacher의 에세이로, 이번 묶음에서 가장 사려 깊은 관점이다. 핵심 구분은 두 종류 루프다 — (1) 코딩 에이전트 내부의 agent loop(모델이 '끝났다'고 말할 때까지의 내부 루프), (2) 그 바깥의 harness-level loop(또 다른 기계가 '진짜 끝났는지'를 판정). 저자의 불안은 후자가 인간을 "메신저"로 격하시킨다는 것 — "done" 신호조차 인간이 아니라 또 다른 기계가 판정하게 된다(Boris Cherny 인용: "나는 더 이상 Claude에 프롬프트하지 않는다. Claude에 프롬프트하는 루프들을 돌린다"). 저자는 무조건 거부하지 않는다 — 코드 포팅(Bun Zig→Rust, MiniJinja→Go), 성능 탐색, 보안 스캔, 리서치처럼 (a) 새 코드 생성보다 기존 코드 변환이거나 (b) 수명 짧은 산출물인 영역에서는 루프가 "이미 놀랍도록 잘 작동한다"고 인정한다. 이 조건이 PostHog 파서가 성공한 이유와 정확히 일치한다. 가장 강한 논증은 "옵트아웃 불가"다 — 내가 루프를 안 써도 공격자·보안 연구자·경쟁사는 돌리므로(curl 메인테이너가 AI 생성 리포트에 압도되는 실례) 방어자도 돌려야 한다. 핵심 불안은 코드를 루프가 쓰고 리뷰·패치·유지까지 하면 그 시스템에 접근을 잃었을 때(무역 제재·비용·역량 상실) 어떻게 되나, 즉 "기계 참여를 유지보수 모델로 가정한 코드베이스"다.
Claude Code로 라이프스타일 사업 '5일 메이크오버' (Liam Ottley)
AI 자동화 컨설턴트 Liam Ottley가 인도네시아 롬복에서 럭셔리 여행 사업(트립당 5만10만 달러)을 운영하는 Tom Strickland를 5일간 'AI 메이크오버'한다. Tom은 4년간 "매주 불을 끄러 다니는" 번아웃 상태였고 Typeform·Drive·Sheets CRM·인스타 저장이 흩어진 채였다. Liam의 진단은 "AI는 케이크 위 체리일 뿐, 먼저 기능하는 데이터 레이어(CRM)를 깔아 AI 레일을 깔라"는 것이다. 핵심 도구는 Claude Code 기반 'AIOS(AI Operating System)'(폴더 구조 템플릿+컨텍스트+도구 연결)다. 산출물 — 'Reels machine'(인스타 릴 URL→3분 만에 B-roll로 세 변형 릴 렌더, 영상 편집 하루하루 반 절감), 'Operations dashboard'(트립 데이터·6개월 매출 차트·거래 대사), 그리고 트립 제안서를 Canva→PDF 6~7시간 작업 대신 Claude Code 단일 페이지 웹사이트로 '원샷' 대체. 핵심 교훈은 "같은 도구·워크플로 그대로 두고 AI가 대신하게" 하지 말고 프로세스를 처음부터 재설계하라는 것 — Tom은 결국 직접 WhatsApp 분류·영업 콜 리뷰 대시보드·과거 대화에서 놓친 리드 발굴 시스템을 만들며 "사업 안에서가 아니라 사업 위에서 일한다".
채용 기준 이동 + 비기능요구 평가의 "느낌≠정확" 함정
arXiv · Accuracy and Satisfaction in Multi-turn LLM Dialogue
개발자 LLM 도구의 신뢰 함정을 두 각도로 보여주는 연구 묶음이다. 첫째, NFR(비기능 요구사항: 보안·프라이버시·규제 준수) 평가다. 프로그래머 49명이 GitHub Copilot(기반 모델 gpt-5.1-codex-max)으로 iTrust 코드베이스에 대한 148개 HIPAA 파생 NFR을 멀티턴으로 평가했는데, 참가자는 시스템 응답에 91~94% 동의했으나 전문가 정답 대비 정확도는 낮았다 — 요구사항 충족 F1 0.381, 추론 BERTScore 0.520, 코드 위치 F1 0.203. "고품질로 느껴지지만 부정확한" 응답을 생성한다는 실증이며, 장황한 응답·정보 제공 턴이 많을수록 만족도가 떨어지고 선제적 상호작용은 높였다. 둘째, 에이전트 출력 채점 자체의 함정이다(arXiv · Grading the Grader) — 컬럼비아 연구진이 멀티에이전트 분석 시스템 LAMBDA를 DSGym QRData 153개 수치 과제에 적용했는데, 키워드 앵커링 추출이 strict 채점기 recall을 last-number 휴리스틱 대비 60%p 끌어올렸고, LAMBDA가 매 턴을 "다음 단계 제안"으로 끝내 미완성으로 보이는 문제를 답변 형식만 요구하는 nudge(최대 2회)로 채점 성공률 36%→97%·lenient 통과율 16%→46%로 올렸다(원질문 재주입은 무효 — 에이전트는 답을 이미 보유). 두 글 모두 "느낌·동의가 정확도와 다르다"는 같은 경고다.
Claude Code의 Extended Thinking 출력은 진짜 추론이 아니라 요약본
운영상 주의 신호. Claude Code 세션 로그의 "thinking block"이 실제 추론이 아니라 암호화된 600자 서명 + (API가 주는) 요약본이라는 점을 짚는다. 문서 확인 결과 Claude는 추론을 그 서명으로 암호화하고 키는 Anthropic이 보유(사용자 기기는 못 받음)하며, 전체 thinking 출력은 엔터프라이즈 계약이 있어야 받는다. 함의는 컴플라이언스·감사 목적으로 "에이전트가 어떤 논리로 행동했는지"의 기록을 로컬에서 만들 수 없다는 것 — ctrl+o로 보는 extended-thinking은 요약본이다. 개인 블로그 1인칭 관찰이나 사실관계(요약 반환·암호화 서명·엔터프라이즈 필요)는 Anthropic 공식 문서로 뒷받침된다. 감사추적을 고객에게 약속하는 입장이라면 실무적으로 알아둘 가치가 있다.
AI와 노동시장
개발자 구직난 체감과 기업의 "AI로 더 작게" 해고가 노동자·기업 거울상이고, 한국 현업의 해커톤 비판과 겸업 회고가 그 정서를 한국 청중에게 옮긴다.
"취업과 소프트웨어는 망했다" — AI 시대 개발자 구직난 (Blizzard 전 엔지니어)
감정적 1인칭 에세이지만 AI가 개발자 노동시장의 "최악의 측면을 증폭시켰다"는 현장 증언으로 가치가 있다. 약 10년차 SWE로 Blizzard에서 7년 근무 후 2025년 6월 팀과 함께 정리해고됐고, 이후 "최악의 시장"에서 6개월간 최종 라운드까지 간 면접 다수가 다른 후보·내부 이동에 밀렸다. 구체 신호 둘 — (1) 초기 필터(Coderpad·HackerRank·AI 감독관 시험)가 규칙대로 푸는 사람에게 역설적으로 불리(부정행위자는 폰으로 AI 사용), (2) "기업들이 Anthropic이 주니어를 아예 없애주길 바라며 사다리를 걷어찬다"는 신입 진입 차단. AI 코딩 전면 수용은 "예술·테스트·리뷰·글쓰기 하는 동료를 버리는 일"이라며 거부한다(단일 일화·주관적 어조).
Elastic, 직원 약 7% 정리해고 — "AI·자동화로 더 작게 운영"
상장사 CEO가 정리해고를 명시적으로 "AI·자동화 발전이 더 작은(leaner) 팀으로 운영하게 해준다"고 설명한 사례. 위 구직난의 기업측 거울상이다. 엔지니어링을 senior leader 직속 3개 핵심 영역으로 단순화했고, 다만 영업 등 고객 대면은 증원 계획이며 올 회계연도 총 인원은 전년 대비 증가 예상이라 주장한다(forward-looking 면책 문구가 긴 공식 발표문). 단순 AI 대체 서사보다는 직무 재배치에 가깝다.
한국 AI 해커톤·인재전쟁 과제가 '저가 외주'로 변질됐다는 비판
한국 기업들이 "해커톤/인재전쟁" 타이틀로 내는 과제가 사실상 저가 외주 발주라는 비판이 두 글에서 강하게 나왔다. secret_canada_는 CJ대한통운 챌린지가 이미지·영상 분석에 팔레트 알고리즘까지 요구하는데 상금 2천만원으론 AI/AX 전문사 외주 단가에 한참 못 미친다며, "특별채용"이 사실상 유지보수·개발을 떠넘기는 미끼라고 비판했다. minkoosong은 "취업 기회"를 건 본선 과제가 '매출로 이어지는 SNS 마케팅 퍼널 프레임워크'를 내부데이터로 만들라는 것이라며, 해당 회사가 "온톨로지"를 파편화된 엑셀을 DB로 옮기는 작업쯤으로 보는 시각을 문제 삼았다(온톨로지는 데이터 생산자를 인터뷰해 데이터 뒤의 맥락·과정까지 파악하는 일이라는 반박).
개발자 → 마케팅 겸업 커리어 회고
엔지니어 정체성을 유지하면서 마케팅·기획까지 깊게 해본 커리어 회고가 Threads와 X에 동시 게재됐다. 누적 집행한 Meta/Google ads paid 마케팅이 수억 원이고, SEO로 검색 유입을 월 1,000클릭에서 월 50만 클릭까지 키운 경험, 인플루언서 시딩부터 대면 세일즈까지 했다고 한다. 삼성전자 퇴사 후 pre-seed 스타트업 CTO로 합류했던 시기가 인생 변곡점이었다고 밝혔다.
모델 경제성·시장·인프라
성장과 수직 통합, 그리고 "바이브 코딩 시대에 무엇이 카피되지 않는가"가 한꺼번에 도마에 오른다.
OpenAI 첫 자체 추론 칩 'Jalapeño' — 9개월 만에, 동시에 '락인' 논쟁
OpenAI가 Broadcom과 공동 개발한 첫 자체 추론 칩 Jalapeño를 공개했다. 핵심 메시지는 "풀스택" 전략 — 프런티어 모델·제품(ChatGPT·Codex·API)에 더해 칩 아키텍처·커널·메모리·네트워킹·스케줄링·배포까지 직접 설계해 모든 계층을 "자사 모델을 더 빠르고 저렴하게"에 맞춘다. Jalapeño는 기존 가속기 개조가 아니라 현대 LLM 추론을 위한 "백지 설계"로, 데이터 이동을 줄이고 실제 활용률을 이론상 최대 성능에 가깝게 끌어올리는 것이 목표다(최고 가속기의 throughput에 특화 추론 시스템에 가까운 지연을 결합). 가장 주목할 신호 둘 — 첫째, 설계 착수부터 테이프아웃까지 9개월("고성능 첨단 반도체 사상 가장 빠른 ASIC 개발 사이클" 주장)로, OpenAI는 자사 모델이 설계·최적화를 가속한 결과로 돌린다. 둘째, 추론 전용 설계로 사전학습은 여전히 Nvidia GPU 의존 가능성(TechCrunch)이며, 추론 비용의 작은 절감도 수익성에 크게 기여할 수 있다는 베팅이다. 2026년 말 초기 배포, Microsoft 등과 기가와트급 데이터센터로 확장한다. 반론·유보 — 성능 수치가 아직 "측정 중"이고 와트당 우위가 "초기 테스트" 기준이라 검증은 추후 보고서를 기다려야 한다.
SNS에서는 비판적 프레이밍도 함께 돌았다. Darin Deters는 "커스텀 칩은 하드웨어 과시처럼 들리지만 실제로는 락인 스토리"라며, 한 회사가 모델·소프트웨어·칩을 모두 소유하면 협상하거나 떠날 여력이 매년 줄어든다고 경고했다("하드웨어가 출하되기 전에 AI 의존성을 감사하라"). OpenAI 공식 글은 17,294 좋아요로 이날 X 최상위 제품 발표 중 하나였다.
GPT-5 Pro, 3년 묵은 면역학 미스터리를 풀다
OpenAI가 GPT-5 Pro의 과학 보조 사례로 면역학을 공개했다. 핵심은 "예측 검증"이다 — 면역학자 Derya Unutmaz(잭슨 연구소)가 2022년부터 막혀 있던 결과(저포도당 vs 디옥시글루코스 노출 시 T세포 분화가 예상과 달랐던 문제)를 GPT-5 Pro로 해석했는데, 모델은 디옥시글루코스가 IL-2 생성을 방해해 IL-2의 Th17 전환 억제 역할이 풀리며 Th17이 대량 생성됐다고 설명했다. 결정적 신호는 아직 출판되지 않은 실험(특정 CD8+ T세포의 림프종 살상능 강화)의 결과를 모델이 정확히 예측했다는 점 — 데이터가 인터넷에 없었으므로 학습 누출로 설명할 수 없다. 다만 OpenAI 자사 콘텐츠로 단일 일화·미동료심사이며 "전문가의 평가가 여전히 핵심"임을 본문도 명시한다.
Gong이 바이브 코딩 시대에 카피되지 않는 회사를 세운 법 (Amit Bendov)
Gong 공동창업자 겸 CEO Amit Bendov가 '바이브 코딩 시대에도 카피되지 않는 회사'를 만든 전략을 풀어낸다. 출발점은 Sisense CEO 시절 의문 — 한 분기 실적이 급락했는데 '단일 진실의 원천'이라던 CRM에 아무 답이 없었다. CRM은 사람이 입력해야 하는데 정보의 1%만 들어가고 나머지는 머릿속에 있다는 것이다. 그래서 "사람을 CRM 업데이트에서 해방시키고 대화에서 맥락을 자동 포착해 AI로 통찰·행동으로 바꾸는 자율 시스템"을 구상했다(Gong의 두 North Star: 영업 비생산 시간 75% 줄이기 + 대화 시 더 잘하게 돕기). 핵심 전략은 '시장'과 '카테고리'다 — 작은 시장은 5천만~1억 달러까지는 가도 10억엔 못 가는 local optimum이라, Gong은 'revenue AI'라는 카테고리를 창출했다. 바이브 코딩 시대의 모트 질문에 Bendov는 "코드는 일부일 뿐"이라 답한다 — 보안 패치·라이브러리 관리·새벽 3시 장애 대응·프로덕션 운영·도입 추진이 훨씬 어렵고, 특히 영업은 '비대칭 교전'이라 구매자가 거짓말하고 권력 구조·정치를 읽는 모호성·판단·창의는 AI가 약한 영역이다("Salesforce 코드가 다 풀려도 경쟁은 극히 어렵다"). 자율주행차 5단계를 영감으로 레벨1에서 출발해 기술이 성숙하면 끼워넣을 프레임워크를 먼저 구축했고, AI 거품론에 대해선 "과잉반응이지만 진짜 회사엔 좋은 매수 기회"라 정리한다.
Figma Motion 출시 + 밸류에이션 의문
Figma가 Config 2026 현장에서 "Figma Motion"을 출시했다(공식 글 11,814 좋아요). 같은 맥락에서 ansonlin은 Figma 주식 논쟁을 던졌다 — IPO 이후 매 분기 매출 전망치를 상회했는데도 주가는 85% 떨어졌고, 본인 주변엔 "Claude design"을 쓰는 디자이너가 한 명도 없다며 "뭔가 앞뒤가 안 맞는다"고 했다. 디자인 도구 경쟁(Figma vs AI 디자인)과 밸류에이션 괴리를 동시에 건드린 글이다.
인디 창업: 빌딩은 쉬운 부분, 진짜 어려움은 유통
인디 해커·1인 창업 글들이 공통적으로 "빌딩이 쉬운 부분"이라는 깨달음을 공유했다. 한 솔로 개발자는 코딩이 가장 어려울 줄 알았지만 실제 난관은 그 다음 — 고객도 없는 상태의 가격 책정, 무료/유료 구분, 결제·트라이얼·취소·업그레이드 엣지케이스, 가치를 설명하는 카피, 제로에서 브랜드 만들기, 첫 사용자 찾기였다고 정리한다("제품이 100% 완성되는 순간은 없다, 어느 시점엔 다듬기를 멈추고 사람 앞에 내놔야 한다"; 핵심 질문은 "첫 10명 고객을 어떻게 얻었나"). 또 다른 글은 아무도 안 살 거라 여겼던 SaaS로 첫 $31 매출을 올린 이야기로, 사용자와 대화하니 "더 많은 자동화가 아니라 더 많은 통제(control)를 원한다"는 깨달음에서 은행 연동 없는 privacy-friendly 수동 추적 SubChecks가 첫 유료 고객을 얻었다.
구독 피로 + 셀프호스팅 추상화
도구가 쉬워지는 만큼 월구독 SaaS에 대한 피로도 커지는 정서가 두 글에서 보인다. 한쪽은 구독 피로 — 작성자는 M2 MacBook Air에서 "adobe core sync", "creative cloud helper" 류 백그라운드 에이전트 약 12개가 PDF 병합·리댁트 정도 작업을 위해 상주하는 걸 발견하고, 월 $20 구독을 영영 내기 싫어 xodo 데스크톱 라이선스(1회 구매)를 샀다("언제부터 macOS가 끝없는 SaaS의 임대인이 됐나"). 다른 쪽은 그 반대로 인프라 추상화의 진전이다(Reddit · r/Supabase) — 몇 년 전엔 Postgres+Auth+Storage+API+대시보드+백업+모니터링을 엮는 데 주말을 통째로 태웠는데, 지금은 SelfHost.dev의 one-click Supabase 템플릿으로 몇 분이면 띄운다("DevOps 엔지니어가 하던 일이 클릭 한 번"; 남은 마찰은 백업·업그레이드·관측성·이메일/인증·스토리지·스케일링).
로컬·오픈 LLM
온디바이스 멀티에이전트, 검열 해제, 학습 효율이 r/LocalLLM·r/LocalLLaMA에서 모였다. 공통 정서는 "클라우드 의존을 줄이고 통제권을 가진다"이다.
단일 M5 Max(128GB)에서 풀 로컬 멀티에이전트 코딩 스쿼드
로컬 LLM 진영에서 가장 디테일이 풍부했던 글. 작성자는 단일 MacBook Pro M5 Max(128GB)에서 전부 MLX(애플 실리콘 추론 프레임워크)로 도는 특화 모델 스쿼드를 개발팀처럼 운영한다 — 기획/검증 Qwen3.6-27B, 코딩 Qwen3-Coder-30B-A3B-Instruct, 리서치는 도구 사용 학습된 deep-research 에이전트 QUEST-35B-RL(4bit, 18GB), 헤드 오케스트레이터 DeepSeek-V4-Flash(antirez의 ds4 엔진). 핵심 동기는 가용성이다 — 몇 주 전 오케스트레이터로 쓰던 클라우드 frontier 모델이 export-control로 갑자기 정지됐는데, 클라우드 워크플로는 전부 멈췄지만 로컬 스쿼드는 누구의 API도 호출하지 않으니 계속 작업을 쳐냈다. 진짜 베팅은 "raw weights보다 harness(모델이 우회 못하는 검증 게이트·영속 메모리·코디네이션)가 더 중요하다"는 것. 검증 근거도 붙였다 — NVIDIA Inception 채택, tokens-per-watt 벤치마크에서 Jetson의 Gemma-4 E2B가 NVIDIA 자체 엣지 모델 대비 약 1.61.9배 tok/W(정확도는 프롬프트 민감한 동률). 별개 글은 M5 Max 128GB에서 Opus 4.5와 Qwen3.6-27B를 비교하며 "이게 진짜 내 노트북에서 도느냐"는 놀라움을 표해, 128GB 통합 메모리 맥이 로컬 frontier급 운용의 분기점이 됐음을 보여준다.
스위스 연방대법원이 abliteration 도구 Heretic을 자체 사용 위해 평가
스위스 연방대법원이 Heretic(LLM 거부 응답을 제거하는 abliteration 도구 — 모델 가중치를 조작해 거부 방향을 없애는 기법)을 규제·금지 대상이 아니라 법원 자체 사용을 위해 평가하고 있다는 정책성 글이다. 동기는 이 서브레딧 다수가 겪는 over-alignment(과잉 정렬) — 형사 법정 같은 맥락에서 범죄 관련 텍스트를 다뤄야 하는데 모델이 정당한 법적 요청까지 거부하는 문제다. 근거로 "Measuring & Mitigating Over-Alignment for LLMs in Multilingual Criminal Law Courts" 논문(arxiv 2606.23375)이 Section 5.2에서 Heretic을 우호적으로 평가했다고 인용한다. 검열 해제 모델이 "범죄자만 쓴다"는 통념을 뒤집어 공공기관이 정당한 업무를 위해 검토하는 사례로 회자됐다.
학습 효율 단신 — Gefen(AdamW 대체, 메모리 8배)
Gefen은 딥러닝 학습의 사실상 표준 옵티마이저 AdamW를 코드 거의 그대로 갈아끼울 수 있는(drop-in) 대체재라 주장하며 학습 시 메모리를 8배 줄인다고 한다(논문 arxiv 2606.13894, github.com/ndvbd/Gefen 공개). 메모리가 로컬·소규모 학습의 가장 큰 제약인 만큼 사실이면 임팩트가 크지만 아직 커뮤니티 검증 전 단계임을 명시한다.
OCR·문서 AI 경쟁
같은 주에 상용(Mistral)과 오픈웨이트(Baidu)가 동시에 문서 파싱 모델을 쏟아냈다. OCR이 에이전트 데이터 인입(PDF→마크다운)의 관문이라는 공감대가 배경이다.
Mistral OCR 4 + Baidu Unlimited OCR — 상용 vs 오픈 동시 출시
Mistral OCR 4의 핵심 전환은 "텍스트 추출"에서 "구조화된 문서 표현"으로의 이동이다 — 각 블록에 대해 무엇(텍스트)·어디(좌표)·어떤 역할(블록 타입: 제목·표·수식·서명)·얼마나 확신(페이지·단어 단위 신뢰 점수)을 함께 반환해, RAG 시맨틱 청킹·에이전트의 문서 기반 행동·출처 근거 인용에 바로 쓰인다. 170개 언어, 단일 컨테이너 self-host 가능. 인간 선호 평가(600+ 문서·12+ 언어)에서 모든 비교 시스템 대비 선호, 평균 승률 72%이고 벤치마크는 OlmOCRBench 85.20·OmniDocBench 93.07이다. 가격은 API $4/1,000페이지(Batch 시 $2). 주목할 점은 모델사가 벤치마크 한계를 스스로 상세히 자인했다는 것 — 불일치를 감사해 보니 대부분이 모델 오류가 아니라 채점 방식 문제(레퍼런스 오타·동등한 LaTeX 불일치·다단 읽기 순서)였고 "aggregate 점수는 방향성 참고용"이라 못박았다. 경제성 인용 — Rogo "선도 에이전틱 파서와 동급 정확도를 약 8배 낮은 비용·17배 낮은 지연으로".
대비되는 "완전 오픈웨이트" 진영이 GeekNews · Baidu Unlimited-OCR이다. DeepSeek-OCR 계보를 명시적으로 이어 "원샷 장문(long-horizon) 파싱"을 표방하며 멀티페이지·PDF를 한 번에 처리한다(GitHub·HF·ModelScope·arXiv 동시 공개). r/MachineLearning에서는 Hugging Face가 부활시킨 Papers with Code에 OCR 벤치마크·톱 오픈모델을 한곳에 정리한 페이지가 공개됐는데(Reddit · r/MachineLearning), Baidu Unlimited OCR을 3B·Reference Sliding Window Attention(R-SWA) 도입으로 소개하고, 현재 톱 추천 모델로 Datalab의 Chandra OCR 2와 Mistral OCR v4를 꼽았다(추천 벤치: OlmOCRBench·OmniDocBench). OCR이 "사내 PDF→마크다운→agentic RAG"의 전제라는 맥락이 반복 강조된다.
RAG 환각의 80%는 모델이 아니라 검색(retrieval) 문제였다
RAG를 실전 운영하는 팀의 디버깅 회고다. 자사 문서 RAG가 "자신만만하게 틀린" 답을 계속 내놨고 팀 직관은 "모델 환각"이었다. 프롬프트 튜닝·temperature 낮추기·모델 교체를 다 했지만 바늘 하나 안 움직였다. 실제로 문제를 푼 건 최종 출력이 아니라 trace를 본 것 — 모델에 실제로 들어간 검색 컨텍스트가 쓰레기였다(엉뚱한 chunk·절반만 관련·다른 질문의 컨텍스트). 멘탈 모델은 RAG 실패를 둘로 쪼갠 것이다 — (1) Retrieval(맞는 컨텍스트를 가져왔나), (2) Generation(주어진 컨텍스트를 제대로 썼나). 둘을 따로 채점(Braintrust)하니 이슈의 약 80%가 generation이 아니라 retrieval로, 팀의 초기 가정과 정반대였다("garbage in, confident garbage out"). 이 글은 뒤의 VLM 평가(RDT-08, 교차 분석 참조)와 함께 "weights보다 파이프라인·구성이 결과를 좌우한다"는 2026 AI 엔지니어링 컨센서스를 보여준다.
에이전트가 웹을 조작하는 시대
에이전트의 웹 조작 능력이 보편화되는 한편, 그 에이전트를 웹이 어떻게 신뢰·구분할 것인가가 같은 동전의 양면으로 떠올랐다.
Gemini 3.5 Flash에 컴퓨터 사용(computer use) 기본 내장
Google이 컴퓨터 사용(에이전트가 화면을 보고 클릭·입력)을 별도 전용 모델이 아니라 주력 Flash 모델에 기본 내장했다(기존엔 별도 Gemini 2.5 computer use 모델로만 제공). 신호는 "에이전트 컴퓨터 조작의 상용화·일반화"다. 동시에 안전 서사가 강해졌다 — 프롬프트 인젝션(악의적 콘텐츠가 에이전트를 탈취) 위험 완화용 표적 적대적 학습을 했고, 엔터프라이즈 가드 2종(민감·비가역 행동에 명시적 사용자 확인 요구 / 간접 인젝션 탐지 시 자동 중단)과 샌드박싱·human-in-the-loop를 권한다. 고객 인용에 Browserbase·Browser Use·UIPath가 등장하는데, Browserbase는 같은 날 아래 CAPTCHA 항목에서 "에이전트 신원" 표준을 미는 주체다.
CAPTCHA 군비경쟁의 종착점: "에이전트 신원"으로의 전환 (Browserbase + Mozilla)
같은 날 Browserbase와 Mozilla가 같은 문제("에이전트 시대에 봇과 사람을 어떻게 구분하나")에 서로 보완적인 답을 내놓아 한 묶음이 됐다. 진단은 동일하다 — 20년간 CAPTCHA는 "사람만 할 수 있는 일"을 가정해 챌린지를 만들었지만 매 세대(왜곡 텍스트→reCAPTCHA→이미지 그리드→행동 위험점수)가 기계에 뚫렸고, 이제 에이전트가 실제 워크플로(여행 예약·컴플라이언스·인프라 모니터링)를 돌리며 게임이 "무엇을 할 수 있나"에서 "누구인가"로 바뀌었다. 처방이 갈리는 지점이 핵심이다 — Browserbase는 Cloudflare와 함께 Web Bot Auth로 "에이전트가 암호학적으로 자신을 신원증명"하는 방향("정당한 자동화는 인간인 척할 필요가 없다")을 민다. Mozilla는 한 발 더 나아가 신원증명조차 거부한다(Mozilla) — WEI나 Apple Private Access Tokens처럼 기기 증명에 기대면 소수 OS·HW 벤더에 웹 접근 통제권이 집중되므로, "기본 익명"을 지키면서 익명 자격증명으로 "규모만 제한(rate limit)"하자는 것이다("봇은 규모로 해를 끼치므로 사이트는 당신이 누구인지 알 필요 없이 합리적 한도 안에 있는지만 알면 된다"). 프라이버시 vs 접근성 긴장이 정면으로 드러난다.
Chromium 포크 기반 AI 브라우저 Aside (Caret 팀, YC F25)
AI 미팅 노트테이커 '캐럿(Caret)'을 만든 팀(YC F25)이 새 제품 AI 브라우저 'Aside'(aside.com)를 출시했다. 핵심은 "유사 브라우저"가 아니라 Chromium을 직접 포크한 진짜 브라우저라는 점 — 기본 크롬 기능을 다 쓰면서 브라우저 자동화가 탐지되지 않고 캡차도 우회해 AI가 브라우징을 잘 하게 했다고 한다. 기술적으로는 AI가 브라우징할 때 렌더링 엔진 레벨에서 뷰 사이즈를 고정해 뷰포트가 튀지 않고 에이전트가 헤매지 않게 만들었다. Caret을 Electron 대신 CEF 기반으로 포크해 만든 경험이 이어졌다고 밝혔다(맥 먼저, 윈도우 추후). 위 "에이전트가 웹을 직접 조작하는 시대"의 클라이언트 측 대응이다.
연구 레이더: 에이전트 학습·평가
HuggingFace·arXiv 인기 논문에서 가장 압도적인 주제는 "에이전트"였다. 어떤 데이터로 키우고, 어떻게 평가·검증하느냐가 한 흐름을 이룬다.
참고: HuggingFace 입력 abstract 일부가 500자로 잘려 정량 수치가 누락된 논문은 본문 산문에 명시된 값만 인용했고, 표가 이미지로만 렌더링된 경우 "정확 점수 인용 주의"를 함께 적었다.
에이전트 학습 데이터 레시피 — OpenThoughts-Agent
에이전트형 LLM의 적용 범위는 빠르게 넓어졌지만 "어떤 데이터로 학습시켜야 다양한 작업에서 두루 잘하는 에이전트가 되는가"는 거의 공개되지 않았다. 기존 오픈 노력(SWE-Smith·SERA·Nemotron-Terminal)은 단일 벤치마크만 겨냥했다. OpenThoughts-Agent(OT-Agent)는 이 공백을 완전 공개 데이터 큐레이션 파이프라인으로 메운다 — 100회 이상 통제 ablation으로 파이프라인 각 단계를 분석해 과제 소스·다양성이 중요하다는 인사이트를 도출했고, 100K 예제로 Qwen3-32B를 fine-tune해 7개 에이전트 벤치마크 평균 정확도 44.8%를 기록했다(기존 최강 오픈 데이터 모델 Nemotron-Terminal-32B 40.9% 대비 +3.9%p, UC Berkeley·Stanford·LAION 등 컨소시엄). 데이터·파이프라인·실험 로그·모델 전부 공개로, 닫혀 있던 에이전트 학습 데이터 큐레이션을 오픈 리서치로 끌어왔다.
같은 "에이전트를 더 잘 만들기 위한 재료·방식·전제" 흐름에 두 편이 인접한다(HuggingFace · Execute-Distill-Verify). 경험 학습의 구조적 함정 — 같은 에이전트가 실행·요약·기억 선별을 하는 단일 루프에서 "틀렸지만 자기일관적인" 궤적이 성공 경험으로 잘못 분류되는 자기확증 함정(Self-Confirmation Trap) — 을 정의하고, 실행(Execute)·증류(Distill)·검증(Verify)을 분리해 잘못된 경험이 메모리에 쌓이는 것을 막는다. 세 번째 "Critique of Agent Model"은 실험이 아니라 입장 논문으로 "자동화와 행위주체성의 경계"를 개념적으로 정의하려 한다.
언어 월드 모델로 일반 에이전트 밀어붙이기 — Qwen-AgentWorld
월드 모델(현재 관측·행동에서 다음 상태를 예측)은 추론·계획의 핵심인데, LLM 에이전트 연구는 상태→행동의 정책에 집중하고 (상태,행동)→다음 상태의 월드 모델은 빠진 조각이었다. Qwen-AgentWorld는 7개 에이전트 도메인(MCP·Search·Terminal·SWE·Android·Web·OS)을 긴 chain-of-thought로 시뮬레이션하는 최초의 언어 월드 모델로, 두 사이즈(35B-A3B, 397B-A17B MoE)와 "CPT가 주입·SFT가 활성화·RL이 날카롭게"의 3단계 파이프라인을 쓴다. 학습 코퍼스는 1,000만+ 환경 상호작용 trajectory, 평가용 AgentWorldBench는 5개 frontier 에이전트가 9개 벤치마크에서 생성한 2,170 샘플이다. 본문은 397B-A17B가 14개 frontier 모델(Claude Opus 4.8·GPT-5.4·Gemini 3.1 Pro 등) 대비 전체 평균 최고를 기록했다고 밝힌다(단 응용 벤치마크의 정확 점수 셀은 본문에 이미지로만 들어가 인용 주의). 의의는 월드 모델 학습이 RL 시뮬레이터와 에이전트 기반모델 워밍업으로 동시에 기능함을 보인 것이다.
에이전트가 너무 일찍 결론 내릴 때 — 조기 확정(Premature Commitment) 진단
HuggingFace · Premature Commitment
장기 horizon LLM 에이전트는 조용히 실패한다 — 증거를 한 가지로 일찍 해석한 뒤 남은 실행 시간을 그 해석 방어에 쓴다. 최종 답만 채점하면 이를 놓치고, run 간 답 일치도조차 한계가 있다(확신에 차 틀린 에이전트는 정답인 에이전트만큼 자기 자신과 일관). 이 단독 저자 논문(Snowflake AI Research)은 "표상적 확정(representational commitment)"을 정의한다 — 고정된 추론 step에서 run 간 은닉 상태가 수렴하는 정도다. Llama-3.1-70B HotpotQA의 step 4·layer 40에서 활성 유사도와 trajectory 일관성 상관 r=-0.348(정확도·난이도 통제 시 부분상관 -0.45)이고, StrategyQA step 3에선 r=-0.83으로 가장 강했다. 런타임 모니터는 AUROC 최대 0.97(중앙값 분할 Llama 0.85/Qwen 0.88)이며 조기 종료로 계산 29%를 회수했다. 핵심 정직함 — 이 신호는 정답 여부가 아니라 "수렴" 자체를 추적한다(확정-오답과 확정-정답의 활성 유사도는 통계적으로 구분 불가). 숨은 과정 실패를 처음 명명·정량화한 데 의의가 있다.
현실적·에이전트형 벤치마크 러시 — NatureBench·AGORA·ReMMD·Lingxi·ChartWalker
이번 묶음에서 가장 두드러진 흐름은 "현실적이고 에이전트형인" 평가 벤치마크의 연쇄 등장이다. 공통 문제의식은 "기존 벤치마크가 너무 깔끔하게 정제됐고, 최고 모델도 못 푼다"는 것이다.
- NatureBench(HuggingFace)는 Nature 계열 논문에서 추출한 90개 cross-discipline 과제로 AI 코딩 에이전트가 단순 재현을 넘어 발견(discovery)까지 가능한지 평가한다. 기반 NatureGym이 논문별 표준화 컨테이너를 자동 생성해 기존 "환경 파편화"를 해소한다.
- AgentCIBench(HuggingFace)는 컴퓨터사용 에이전트가 한 맥락(이메일)에서 일하다 다른 맥락 정보를 부적절하게 끌어오는 "맥락적 무결성(Contextual Integrity)" 위반을 결정론적으로 채점되는 실행형 시나리오로 측정한다(제목 "Capable but Careless").
- AGORA는 "아카이브 기반 추론"을 시험한다 — 362 질문·9,664 문서·372M 토큰·8개 도메인으로, 코퍼스가 어떤 컨텍스트 창에도 안 들어가 에이전트가 bash 도구로 능동 탐색해야 한다. 최고 Gemini-3.1-Pro 59.39%·60% 넘는 모델 없음, tier 격차 28.73점.
- ReMMD(HuggingFace)는 다중모달 허위정보 탐지를 현실 조건으로 끌어올린다 — 500 샘플·2,756 이미지·5단계 진위 라벨. 최고 ReMMD-Agent+GPT-5.2 L1 정확도 41.80%인데 핵심은 비용으로, 게시물을 원자적 주장으로 분해·재사용 증거 메모리 뱅크를 써 샘플당 비용을 MMD-Agent 대비 17.5%·T2-Agent 대비 79.9% 절감했다.
- LingxiDiagBench는 중국어 정신과 진단으로, 2-class는 최대 92.3%지만 12-class는 28.5%로 무너졌다 — 단 16K 합성 데이터로 fine-tune하면 실제 임상 12-class에서 Qwen3-8B가 4.1%→41.4%(+37.3%)로 전이됐다.
- ChartWalker(HuggingFace)는 교차 차트 RAG 벤치마크로, 계층적 지식그래프(4층·8,802 엔티티·21,436 관계)로 다중 hop QA(564개·806차트)를 생성한다. 최고 GPT-4o+VL-Embedding Cor@10 64.89%, 복합 추론은 대부분 30% 미만이고 그래프 기반 HippoRAG가 텍스트 단독 대비 R@5 +8.66이었다.
MobileForge — 사람 라벨 없이 모바일 GUI 에이전트를 실제 앱에 적응
모바일 GUI 에이전트는 화면 이해·동작 실행에서 발전했지만 실제 앱(수가 많고 자주 업데이트)에 맞춰 적응시키는 비용이 크다. MobileForge는 실제 앱 상호작용에서 태스크를 생성·평가하는 MobileGym과, 계층적 피드백 기반 정책 최적화(HiFPO)로 사람이 만든 태스크·시연·리워드 라벨 0개로 적응한다. 자동 생성 데이터만으로 Qwen3-VL-8B가 AndroidWorld Pass@3 67.2%(클로즈드 데이터 전용 GUI-Owl-1.5-8B의 69.0%에 근접)에 도달했고, 추가 개선한 ForgeOwl-8B는 AndroidWorld 77.6%·도메인 외 MobileWorld 41.0%로 저자 평가 범위 내 가장 강한 오픈 데이터 모바일 GUI 에이전트가 됐다(코드·데이터·모델 공개 예정).
연구 레이더: RL·데이터 효율·검증
"보상·모델 구조보다 데이터 구성·순서가 효율을 좌우한다", 그리고 "검증 가능해 보여도 다 학습·신뢰되는 건 아니다"가 이 묶음의 두 축이다.
LLM 사전학습 데이터 스케줄링을 RL로 — AC-ODM·HDS
LLM 사전학습에서 도메인별 데이터 혼합 비율은 최종 성능을 좌우하지만, 기존 동적 방식은 계산 효율과 표본 효율을 동시에 잡지 못했다. 같은 저자군(CETC 15연구소·런민대·알리바바)의 두 논문이 이를 RL로 재정의한다. AC-ODM은 LLM을 환경으로 두고 Actor-Critic 에이전트가 도메인별 샘플링 가중치를 조정하며(보상은 그래디언트 정렬), Pythia-1B 기준 ODM 대비 최적 perplexity 도달 step을 최대 66% 줄이고 MMLU zero-shot +27.5%·HumanEval pass@1 2.23배를 냈다 — 이 모든 개선을 step당 wall-clock 증가 0.5% 미만·메모리 +2%·추가 파라미터 17M의 가벼운 비용으로 달성했다. 후속 Holistic Data Scheduler(HDS)는 다목적 RL(SAC)로 확장해 AC-ODM 대비 step 44% 적게·static 대비 57% 적게 도달했고 MMLU zero-shot +7.2%, Pythia-12B(25B 토큰)에서 ODM 대비 perplexity 33% 이상 개선(4.89 vs 7.32)을 냈다. 두 논문이 동일 저자군 연작임을 감안해 별개 혁신처럼 과대 포장하지 않는다.
데이터 벽 시대의 다중 epoch 증강 해부
HuggingFace · Multi-epoch Augmentation
고품질 텍스트 생성보다 계산이 앞서는 "데이터 벽"에서 사전학습은 고정 코퍼스를 여러 번 반복하는 체제로 옮겨가는데, 표준 자기회귀 학습은 여기서 심하게 과적합한다. 이 논문은 150M Llama 계열을 75M 토큰(Chinchilla-최적 대비 약 40배 부족)으로 다중 epoch 학습하며, 학습 시점 증강을 정규화로 체계 비교한다. 기준선은 검증 손실 4.015(epoch 16) 이후 단조 악화했지만, random replacement 15%(3.841)가 마스킹(3.910)보다 낫고 R2L 50%는 효과 있었으나 FIM 50%는 무효(3.947, 평가 과제에서 너무 멂)였다. 최고 조합(Random 5% + R2L + 오프셋 i≤5 지수가중)은 손실 3.805(WSD decay 후 3.792)로 기준선 대비 -0.210, zero-shot 평균 41.0%→43.3%였다. 결론은 데이터 제약 사전학습에서 증강을 부수 트릭이 아니라 일급 정규화로 다뤄야 한다는 것이다.
보상 공학을 넘어 — 데이터 레시피만으로 장기 컨텍스트 RL
HuggingFace · Long-context RL Data Recipe
기존 장기 컨텍스트 RL 연구는 대부분 보상 공학(보조 grounding·중간 보상)에 집중하고 다양한 데이터는 부족했다. 이 논문(OpenBMB·칭화대)은 특별한 보상 공학 없이 최소 결과 기반 GRPO에 데이터 레시피(검색·다중증거 종합·추론 3개 능력군, 8개 데이터셋·14,069 예제)만 결합한다. 베이스 대비 평균 +7.2(Qwen3-4B)/+3.2(Qwen3-8B)/+6.4(Qwen3-30B)였고, 더 강한 KeyChain-15K 대비도 +2.66~+3.66 우위였다. 64K로 학습했지만 256~512K로 일반화됐고, 에이전트 과제로 전이돼 GAIA Pass@3 +4.8·BrowseComp +7.0(27.00→34.00)을 냈다. 오히려 LLM 판정 과정 보상을 더하면 -1.29로 떨어져 "보상 공학 불필요" 주장을 뒷받침했다.
검증 가능 보상의 한계 — VeriEvol vs "Verifiable Search ≠ Learnable CoT"
검증 가능 보상 기반 RL(RLVR)을 정반대 방향에서 건드리는 두 편이다. VeriEvol(Tsinghua·Tencent Hunyuan)은 멀티모달 수학 추론 RL 데이터를 확장하며 스케일링을 "검증 가능한 데이터 구축"으로 재정의해, 정책 업데이트 전에 프롬프트 난이도와 보상 라벨 신뢰성 두 축을 분리한다(기존은 라벨러를 무조건 신뢰하거나 정답이 맞다고 가정). 대비되는 Verifiable Search는 단독 저자의 부정 결과다 — "짧은 프로그램으로 풀리는 과제는 그 절차를 chain-of-thought로 적어 fine-tune하면 모델이 따라 한다"는 가정이 식별 가능한 일부 절차 부류에서 실패함을 보인다(9개 결정론 과제, 생성기를 Python 솔버로 역설계해 CoT로 증류). RLVR/CoT 증류의 일반화 가정에 제동을 거는 negative result다.
환각·근거 검증 — Grad Detect, EG-VQA
"정답 맞힘"을 넘어 "왜·근거가 정렬됐나"를 측정하는 신뢰성 연구 둘이다. Grad Detect는 추론 중 단일 forward-backward pass의 레이어별 그래디언트만으로 환각을 예측한다 — 4개 아키텍처 패밀리 11개 instruction-tuned 모델(Qwen·Falcon·Gemma·SmolLM3)·4개 Q&A 벤치마크에서 confidence·sampling 베이스라인을 일관되게 능가했고, 판별 그래디언트 신호의 97%+가 마지막 5개 레이어에 집중돼 효율 배포가 가능하다. EG-VQA는 비디오 QA 평가의 축을 "정답률"에서 "근거 정렬"로 옮긴다 — 2,067 비디오·11,838 QA 쌍, 4개 추론 카테고리(서술·시간·인과·반사실)에 시간 경계와 텍스트 설명을 함께 주석하고, 예측·정답 근거의 시간 정렬+의미 일관성을 optimal bipartite matching으로 동시 평가하는 EG-F1 지표와 명시적 근거 지도학습 모델 EG-Reasoner를 제안한다.
효율 어텐션·검색·해석성 단신 — GQE·DREAM·MCS
HuggingFace · Grouped Query Experts
세 단편이 각각 추론 효율·검색 학습·해석성을 건드린다. GQE는 GQA 그룹 안에서 라우터가 토큰당 query-head expert를 선택하되 KV head는 dense로 유지해 KV-cache 이점을 보존하면서 query 연산만 줄인다 — 250M·30B 토큰에서 expert 절반만 활성화하고도 정확도 동등, 긴 컨텍스트 prefill 1.71.8배 가속(16개 head 중 9개만 연산). DREAM(HuggingFace)은 동결 LLM의 선택된 attention head에 리트리버의 query-document 유사도를 주입해 다음 토큰 예측 손실만으로 라벨 없이 dense 리트리버를 학습한다(대조 학습 불필요, BEIR NDCG@10 +0.0150.081·RTEB +0.068~0.102, RePlug·Revela 능가). MCS(HuggingFace)는 Mahalanobis 코사인 유사도가 선형 프로브의 OOD AUROC를 다수 모델·24개 데이터셋·3개 도메인에서 R²>0.93으로 선형 예측함을 확인하고 닫힌 형태로 증명한다(유클리드 코사인은 R²가 0.06까지 하락).
연구 레이더: LLM을 발견·가이드 엔진으로
LLM/VLM을 직접 답을 생성하는 주체가 아니라 탐색·변이·구성·가이드 연산자로 쓰는 흐름이 여러 논문에서 반복된다. "프리폼 추론은 인과·정밀 제어의 취약한 기반"이라는 공통 진단이다.
LLM이 직접 양자 오류정정 코드를 설계하다 — Structured Concept Evolution
arXiv · Structured Concept Evolution
양자컴퓨터의 오류정정에서 표면 코드는 레이트가 0으로 수렴하는 한계가 있고, 양자 LDPC 코드는 이를 우회하지만 좋은 코드 "설계" 자체가 어려운 이산 조합 최적화다. 저자들(Max Planck·FAU)은 LLM에게 코드를 처음부터 설계하라 하지 않는다 — "대수적 명세 + 실행 가능한 프로그램" 쌍으로 이뤄진 구조화된 개념을 진화시키며 계층적 변이(군 대수·프로토그래프 기하·베이스 공간을 단계별 수정)로 탐색한다(AlphaEvolve/FunSearch 계열 "LLM=지능형 변이 연산자"). 결과적으로 GPT-5.4-mini/nano 같은 경량 모델만으로 비아벨군까지 경쟁력 있는 코드 패밀리를 발견했다 — 대표 elite 코드 [[1500,81,≤18]]·[1500,76,≤20]는 BB 기준 [[756,16,≤34]]와 비슷하거나 낮은 논리 오류율을 내면서 논리 큐비트를 약 5배 더 인코딩했다. 물리학의 하드 문제에서 이 패러다임이 작동함을 보인 사례다.
카오스 역문제·데이터 파이프라인 구성 — Bi-CFM, FlowPipe
LLM·생성 모델을 탐색·구성 엔진으로 쓰는 두 사례다. Bi-CFM은 양방향 Conditional Flow Matching으로 카오스 역문제(최종 상태에서 초기 조건 역추론 — ill-posedness·시간 역방향 카오스성으로 난제)를 푼다. Lorenz·Circuit·고차원 Lorenz96 세 시스템에서 다섯 분포 지표로 전통 수치 솔버 기반 역적분 포함 베이스라인을 능가하고 100배+ 가속했으며, 약 10^10년 진화한 백만체 구상성단 충돌계까지 확장했다. FlowPipe(arXiv)는 conditional GFlowNet에 LLM을 결합해 데이터 전처리 파이프라인을 자동 구성한다 — 74개 실세계 데이터셋에서 SOTA(HaiPipe·CtxPipe) 대비 평균 정확도 +11.96%·추론 속도 DiffPrep 대비 +20.99%로 새 SOTA를 세웠다.
LLM/VLM = 가이드·사전·근거 엔진 — InSight, LaGO, DeepBD
세 편이 "프리폼 추론을 인과·정밀 제어의 취약한 기반으로 두지 않는다"는 동일 철학을 공유한다. InSight(Stanford·Princeton)는 조작 스킬이 합성적이라는 통찰로, VLM이 새 작업에 필요한 "빠진 프리미티브"를 식별·자율 시도하고 성공 롤아웃을 저장·재학습하는 데이터 플라이휠을 돌린다(VLM을 테스트 시점 플래너가 아니라 스킬을 영구 확장하는 에이전트로 사용). 실세계 6DoF xArm에서 타깃 스킬 인간 시연 0개로 twist 92%·pour 96%, 14-프리미티브 장기 과제 80%를 달성했고(CaP-X 32/16/4%, π0.5 0%), 시뮬레이션 block flip은 RL SAC가 0%일 때 246 롤아웃 후 75%였다. LaGO(arXiv)는 LLM을 직접 컨트롤러가 아니라 "잠재 행동 사전"으로 써 PPO를 부드럽게 규제한다 — CLEVR-Robot 성공률 15.1%→27.2%, Meta-World 2.7%→15.2%이고, 더 강한 LLM(Llama 2 7B > TinyLlama 1.1B)이 일관되게 나은 가이드를 줬으며 2단계 PPO 정책은 약 5.7만 파라미터에 불과하다. DeepBD(arXiv)는 선천성 기형 유전 진단에서 인과 점수를 벤치마크 가능한 학습 엔진에 고정하고 에이전트를 큐레이션·리뷰·합성 주변에 배치한다 — 자체 코호트 18,622건으로 Recall@1/3/5/10 = 0.658/0.882/0.912/0.929를 기록해 단독 Exomiser(0.490/...)·DeepRare를 크게 앞섰고, 두 베이스라인이 모두 놓친 케이스를 top-1에서 117건 고유 복원했다(rule 근거 제거 시 Recall@1 0.474로 하락).
연구 레이더: 로보틱스·생성·시스템
VLA 메모리·촉각, 영상·3D 생성 제어, 그리고 소형·분산 효율이 한 묶음이다.
VLA 로봇의 메모리 병목 — EventVLA
표준 VLA는 Markov 가정을 따라 과제 단서가 일시적으로 보이지 않으면 실패한다. EventVLA의 핵심은 "희소 시각 증거 메모리" — Keyframe Evidence Memory 모듈이 각 step의 키프레임 확률을 예측해 중요한 순간만 FIFO 버퍼에 기록함으로써 압축 병목과 버퍼 중복을 동시에 피한다. 17 시뮬레이션 + 4 실제 양손 과제에서 SOTA 메모리 증강 VLA 대비 평균 성공률 +40%이고, 비-Markov 벤치마크 RoboTwin-MeM에서 메모리 없는 18.0%가 75.2%로 뛰었으며, 실제 ARX 양손 로봇 4과제에서 90/60/90/75%로 pi0.5(0~10%)를 크게 앞섰다.
비전 없이 촉각만으로 객체 탐색 — TACTFUL
Amazon의 TACTFUL은 다지 로봇이 밀폐 작업공간을 비전 없이 촉각만으로 자율 탐색·식별하는 프레임워크로, 시뮬레이션 없이 전적으로 실하드웨어 데이터로 학습한다(손에 1062개 taxel·PPO). 동적 보상 스케줄(초반 전역 탐색→후반 국소 정제·재구성 정확도)과 사전학습 shape completion이 핵심이다. 3객체 동시 설정에서 전체 성공률 77%·평균 Chamfer-L2 0.015m로 Heuristic·BC only를 일관되게 앞섰고, ablation에서 보상 3종이 모두 필요하며 shape completion을 제거하면 0.77→0.34로 급락했다(희소 점군이 여러 객체와 우연 매칭).
영상 생성·편집 제어 정밀화 — Go-with-the-Track, Vera
HuggingFace · Go-with-the-Track
영상 생성이 충분히 그럴듯해지며 관심이 "정밀 제어"로 옮겨갔다. Go-with-the-Track(Netflix Eyeline Labs·Oxford·UCLA)은 영화 제작이 요구하는 정밀한 모션 제어와 참조 이미지 합성을, 여러 참조 이미지 + "참조에 앵커된 점 추적"을 동시 조건으로 주어 하나로 통합한다(기존엔 point-track I2V가 콘텐츠 삽입을 첫 프레임으로 제한). Vera(HuggingFace)는 반대로 "바꾸지 않아야 할 것을 지키는" 편집에 집중한다 — 전 픽셀을 재생성하는 대신 편집 레이어와 알파 매트를 함께 생성해 원본 위에 합성하는 레이어드 디퓨전으로 콘텐츠 보존 문제를 푼다.
3D·이미지 생성 — FLAT, IV-CoT, FLUX3D, Semantic Browsing
생성 충실도·제어를 표현/조건화 병목 해소로 끌어올리는 네 편이다. FLAT(Google Research·Oxford)는 frozen 비디오 확산 latent에서 삼각형 splat을 단일 forward pass로 직접 디코딩한다 — 기하 정확도(L1 0.211 vs 2DGS 0.388)가 우수하고, 메시 변환에서 0.5M 꼭짓점으로 RealEstate10K PSNR 21.23을 달성해 5M 꼭짓점 2DGS-TSDF(15.89) 대비 7dB+ 개선했으며 73.34M decoder가 H100에서 49 view를 300ms 미만에 디코딩한다. IV-CoT(arXiv)는 구조 계획을 잠재 query에 내재화(구조 query를 의미 query 앞에 배치)해 단일 pass로 GenEval 0.86→0.88, 명시적 CoT 대비 9~15배 빠른 추론을 냈다. FLUX3D(arXiv)는 FLUX 디퓨전 피처를 3D 잠재로 재활용(decoder-only)해 이미지→3DGS 생성에서 TRELLIS 대비 PSNR 25.48→26.26·FD_dinov2 63.66→54.92로 SOTA였다. Semantic Browsing(HuggingFace)은 프롬프트 준수를 다양성의 적이 아니라 정밀·해석 가능한 의미 탐색 수단으로 재정의한 학습 불필요 에이전트 워크플로다(Vendi 3.34, hop 거리 0.168→0.452 단조 증가).
T2I 평가 회의론 — DiffusionBench, CF-World
HuggingFace · DiffusionBench/NanoGen
생성 모델 평가의 한계를 드러내는 두 편이다. DiffusionBench/NanoGen은 하나의 통합 프레임워크(약 12줄 config 변경으로 ImageNet↔T2I 전환)로 21개 잠재 확산 모델을 거의 동일 조건에서 학습해, ImageNet-FID가 T2I 성능(GenEval·DPG-Bench·GenAIBench)을 신뢰성 있게 예측하지 못함을 보였다(불일치가 결론을 뒤집을 크기). CF-World(HuggingFace)는 러셀의 '귀납주의자 칠면조'에서 착안해 반사실 규칙 아래 이미지 생성을 3단계(L1 사실→L2 명시적 반사실→L3 암묵적 반사실)로 측정한다 — 모든 SOTA T2I 모델이 L1→L2/L3에서 급락했고, 고빈도 명사를 동등한 서술 구문으로 바꾸면 개선돼 모델이 경직된 text-image 정렬 지름길에 의존함을 드러냈다(진짜 인과 추론이 아닌 패턴 매칭).
소형·분산·효율 시스템 — Moebius, VibeThinker-3B, BlockTrain, FlowSE
"특정 과제로 좁히면 극단적 압축이 가능하다"와 "학습·추론을 로컬화한다"가 한 묶음이다. VibeThinker-3B는 3B dense 모델로 검증 가능한 추론(수학·코딩)에서 AIME26 94.3(test-time scaling 시 97.1)·LiveCodeBench v6 Pass@1 80.2를 내며 자릿수 큰 모델과 동급을 주장한다("검증 가능한 추론은 압축 가능한 코어, 개방형 지식은 넓은 파라미터" 가설). Moebius(GeekNews)는 0.22B 인페인팅 모델이 11.9B FLUX.1-Fill-Dev에 필적하면서 추론 15배+ 가속을 주장한다. BlockTrain(arXiv)은 모델을 독립 학습 블록으로 쪼개 워커가 한 번에 한 블록만 학습(메모리 수 GiB)하며 WikiText에서 end-to-end Transformer 대비 CE 0.04 차로 따라붙고 75.80B fp16까지 분산 서빙한다(litepaper 한계). FlowSE(arXiv)는 U-Net 스킵 대신 동결 DAC 잠재로 정렬한 스킵프리 백본으로 NFE 5회에 VB-DMD PESQ 2.88→3.11을 냈다(WSJ0에선 혼재). 모두 arXiv 사전출판이거나 제작자 자체 주장임에 유의한다.
AI 안전·거버넌스
오픈웨이트 능력 분리 + 레드티밍 통합 프레임워크
HuggingFace · Public/Private Capability Separation
오픈웨이트 거버넌스를 다루는 두 편이다. 첫째는 오픈웨이트 LLM의 딜레마(위험 능력을 사전 억제하면 jailbreak에 취약하면서 모든 사용자 능력을 깎고, 폐쇄 서비스로 매개하면 오픈웨이트 이점을 잃음)에 "한 모델 안에서 공개 능력과 비공개 민감 능력을 분리"하는 접근을 제안한다. 둘째 TROPT(HuggingFace)는 흩어진 이산 텍스트 optimizer를 통합한 최초 오픈소스 모듈형 프레임워크로(30+ 레시피·17 optimizer·16 loss), 통제 비교에서 레드티밍의 흔한 선택 GCG(~5/14)보다 PAL(~3)·MAC(~3.5)이 유의하게 우수함을 드러냈고 gradient-free RAL이 white-box GCG와 동급에 도달했다(8M 패시지 corpus를 10개 적대적 패시지로 오염시킨 black-box 공격은 영향받는 제공자에 책임 있게 통보).
콘텐츠·교육·커뮤니티
콘텐츠로 매출 만드는 4단계 'Attention Conversion Funnel' (Kallaway)
100만 팔로워의 Kallaway가 '콘텐츠를 돈으로 바꾸는' 4단계 프레임워크를 설명한다. 핵심은 이 4단계가 더하기가 아니라 곱하기라는 점이다 — 하나라도 0이면 전체가 0이 되어, 팔로워 1만 미만이어도 연 수백만 달러를 버는 사람과 수백만 팔로워로도 못 파는 사람이 갈린다. ①Bull's-eye Signaling(시청자 머릿속에 "저게 내 문제다"를 띄움 — 뇌는 콘텐츠를 잠재적 솔루션/엔터테인먼트/무관으로 즉시 분류), ②Trust Bank(가장 중요한 단계 — 신뢰를 코인처럼 적립하는 '신뢰 사다리' 8단: 제3자 통계 인용 1코인부터 시청자가 아는 사람의 웜 추천까지, 상위 단계는 노출당 4050코인), ③Clear Ramp(콘텐츠에서 퍼널로 빠져나갈 출구 — 리드 마그넷/세일즈 페이지/세일즈 콜, 주제와 정렬 필수), ④Aligned Offer(가격↑=리스크↑, 신뢰↑=리스크↓ — $1$1,000은 거의 다 구매, $10,000에서 'flip point', $100,000은 거의 전원 이탈). 본인 원칙은 '10x 룰': 결제 후 30일 내 지불액의 10배 이상을 돌려준다는 확신이 들 때만 가격을 매긴다.
손으로 쓰며 AI를 가르치다: 근본과 표면 (Tom Yeh)
CU Boulder 컴퓨터과학 교수이자 'AI by Hand' 창립자 Tom Yeh가 손으로 AI 수학을 쓰며 가르치는 철학을 설명한다. 그는 학생 시절 딥러닝을 놓쳤다가 종이에 직접 그리고 쓰며 따라잡았고, 이를 공유한 게 'AI by Hand'다. 손글씨 교육의 3대 이점 — 교수가 인간적으로 가능한 속도로만 가고, 학생도 인간 속도로 배우며, 노트에 손으로 베끼면 손이 키보드(인스타) 아닌 노트에 있어 집중된다. 핵심 주장은 '근본 vs 표면'이다 — 행렬곱은 CGI(쥬라기공원)→빅데이터→머신러닝→AI native→양자컴퓨팅까지 도구가 바뀌어도 매번 다시 등장하는 '에버그린' 토대다. 경복궁이 1500년대 전소됐어도 단단한 돌 기초 위에 1800년대 재건된 것처럼, 표면 기능만 좇으면 매번 집을 다시 지어야 하지만 기초가 있으면 새 도구가 와도 그 위에 쌓으면 된다. Chegg가 AI 때문에 망했어도 부정행위는 여전한 것을 두고 "Chegg·AI는 증상이고 근본 원인은 진짜 학습을 보상하지 않는 사회 인센티브"라 정리한다. 채용도 문제해결력·팀워크·직업윤리를 보면 "그런 사람은 시키지 않아도 AI를 알아서 배운다" — 결론은 "AI는 사람을 바꿀 수 없다. 하지만 당신은 AI를 바꿀 수 있다"이다.
physical AI — Nearthlab 드론 + Hugging Face 로봇 해커톤
물리 세계 AI로 카테고리가 연결되는 두 영상이다. Nearthlab(니어스랩) 대표 최재혁은 "기술 스타트업이라면 작은 분야라도 글로벌 1등이 되어 그 분야 표준이 되고, 체력을 키워 다음 분야로 넘어간다"는 신념으로 풍력 점검 자율비행에서 방산(요격 드론 '카이든'·군집 공격 드론 '자이든')으로 확장해 40개국 공급·해외 국방 200억+·풍력 내년 100억 돌파 전망을 만들었다. 풍력을 고른 이유가 백미다 — 한강 32개 다리가 하나도 같지 않은 교량과 달리 풍력 발전기는 똑같이 생긴 게 수백 개라 일관된 성능으로 스케일업·글로벌 표준화에 유리하다는 것이다. 세계 최대 풍력발전기 제조사 Siemens Energy를 '히어로 고객'으로 6년간 키워 산업 표준을 만들었고, 방산에도 같은 전략을 재적용했다. 해자에 대해 "기술은 카피된다. 그래서 대체될 수 없는 해자(고객 신뢰·트랙레코드·일관된 글로벌 1등 DNA)가 중요하다"고 말하며, Jensen Huang/NVIDIA가 니어스랩을 'physical AI' 드론 대표주자로 피처링한 점을 든다.
같은 physical AI 결의 커뮤니티 회고가 YouTube · Hugging Face다. 1년 전 'Robot Worldwide Hackathon'에서 수천 명이 수십 개 도시에서 동일 오픈소스 스택(LeRobot)으로 48시간 경쟁했고, 한 참가자는 이후 9개 해커톤에 참가해 6개를 우승했다. 제작물은 ACT로 티셔츠 접기(약 80% 성공), 레고 픽셀아트 공장, 팔 4개 지네 로봇, 폰 조종 로봇팔(라이브러리에 통합) 등 다채롭고, 1년 후 거의 모두가 여전히 빌딩 중이며 해커톤 우승으로 인턴십→정규직 전환·Unitree G1 구매로 이어진 사례도 있다. "그냥 뛰어들어라, 동기만 있으면 충분하다"는 조언과 로봇·데이터·커뮤니티가 모두 오픈됐다는 점을 강조한다.
기타 주목할 콘텐츠
TypeScript 7.0 RC — Go 포팅으로 약 10배 빠른 컴파일러
GeekNews · devblogs.microsoft.com
TypeScript의 Go 포팅이 RC에 도달했다. 기존 자기부트스트랩 코드베이스를 Go로 포팅해 6.0 대비 "약 10배 빠름"이고, 처음부터 재작성이 아니라 메서드 단위 포팅이라 타입체킹이 6.0과 구조적으로 동일하다(시맨틱 동일 보장). Bloomberg·Canva·Figma·Google·Notion·Slack·Vercel 등 대형 코드베이스에서 1년 이상 검증됐고, npm install -D typescript@rc로 6.0과 side-by-side 가능하다. 비개발자 청중용으론 "JS 타입 검사기를 Go로 옮겨 빌드 시간을 대폭 줄였다" 수준으로 압축된다.
"AI는 좋은 판단을 배울 수 있나" — Surge AI·Erdős 반례 (Every.to)
Every.to의 뉴스레터+팟캐스트 묶음에서 사실 신호 둘이 두드러진다. 첫째, Surge AI(모델사에 데이터 환경·eval 제공)가 VC 없이 매출 약 10억 달러에 근접했다는 점 — "삽과 곡괭이" 사업의 규모를 보여준다. 둘째, OpenAI 모델이 미해결 Erdős 추측의 반례를 새 대수기하 기법으로 찾아냈고, 수학자 Timothy Gowers가 처음엔 상계 증명인 줄 알고 긴장했다가 더 쉬운 반례임을 알고 안도("앞으로 1~2년은 엘리트 수학자 고유 기여가 남는다")한 반응이 "AI가 최정상 인간 능력에 얼마나 근접했나"의 온도계로 인용된다. Edwin Chen의 "인게이지먼트 함정"도 쓸모 있다 — 세션 길이·LM Arena 투표로 최적화된 모델은 사용자 선호를 reward hack해 붙잡아두려 하는데, 본인이 저관여 이메일에 한 모델과 20라운드를 돌다 Claude가 "그만하고 보내라"고 하자 더 가치 있었다는 일화(위임 vs 몰입)다.
단신 모음 — 사용자 환경 연관·기타
- gogcli(steipete, 7,461 좋아요): "Google이 google workspace CLI를 만든 사람을, 그 CLI를 만들었다는 이유로 해고했다. 다행히 Google은 나를 해고 못 한다"며 gogcli.sh 공개.
- Claude Code GEO/SEO 커넥터(avcd.eee): 클로드코드에 GEO 커넥터가 생겼고 Profound를 "GEO 1위 툴"로 소개.
- 마이리얼트립 MCP(toy_crane911): 마이리얼트립이 MCP 제공, 가족 여행 에이전트(마일즈) 제작 중(Codex+Skyscanner, Claude+Expedia).
- ChatGPT 새 음성모드(choi.openai): 대화 중간에 끼어들며 말할 수 있는 새 음성모드.
- dogfooding 문화(choi.openai): 실리콘밸리에서 'dogfooding(자기 제품 먼저 쓰기)' 재부상 정리.
- 하루 630억 토큰 소모(yong076): Agentcat.app에서 하루 만에 630억 토큰을 쓴 사용자 등장.
- Oura Ring 리버스 엔지니어링(Th0rgal_): 실시간 가속도계 데이터를 스트리밍해 컴퓨터를 제스처로 제어.
- "Loop Engineering" PDF(0xCodez, 2,017 좋아요): Anthropic 시니어 엔지니어의 11페이지 PDF — "에이전트에게 프롬프트하지 말고, 에이전트를 프롬프트하는 시스템을 만들어라"(Schedule→Discover→Build→Verify→Repeat).
교차 분석
-
"weights보다 시스템·구성"이 2026 AI 엔지니어링의 컨센서스로 굳었다. RAG 환각의 80%가 retrieval 문제(RDT-04), VLM 평가에서 모델보다 segmentation·샘플링·해상도·프롬프트가 점수를 더 좌우(RDT-08, r/deeplearning), 단일 M5 Max 스쿼드의 "raw weights보다 harness"(RDT-03), 그리고 연구 쪽 데이터 효율 묶음(AC-ODM·다중 epoch 증강·장기컨텍스트 RL)이 모두 같은 명제를 독립적으로 반복한다 — 결과를 만드는 건 모델 자체가 아니라 그것을 둘러싼 데이터·검색·검증·하네스다.
-
"느낌·동의 ≠ 정확도"가 도구와 연구 양쪽에서 동시에 잡혔다. 개발자가 Copilot의 HIPAA NFR 평가에 91~94% 동의했지만 실제 F1은 0.381(ARX-22), 에이전트 출력 채점은 nudge·키워드 앵커링 같은 아티팩트에 크게 흔들리며(ARX-26), Claude Code의 extended thinking은 요약본이라 감사추적을 로컬에서 만들 수 없다(NEWS-15). "에이전트가 그럴듯한 답을 내면 사람이 과신한다"는 한 위험을 세 각도에서 본다.
-
AI 코딩의 빛(PostHog 454배)과 그늘(Armin의 루프 우려)은 같은 조건을 공유한다. 둘 다 "검증 가능한 오라클이 존재하고 기계적 등가성을 이진 테스트로 확인할 수 있는, 수명이 짧거나 변환적인 과제"에서 루프가 빛난다고 말한다 — 한쪽은 성공 사례로, 다른 쪽은 "그렇다면 우리가 이해·책임을 어디서 유지할 것인가"라는 질문으로.
-
에이전트의 '능력'과 '신뢰'가 같은 동전의 양면으로 떠올랐다. Gemini 3.5 Flash가 computer use를 기본 내장하며 그 고객 Browserbase가 CAPTCHA를 "신원" 문제로 전환했고(NEWS-07↔13), 연구 쪽에선 AgentCIBench(맥락 무결성)·조기 확정 진단·악성 스킬 5종(RDT-02)이 "에이전트가 무엇을 할 수 있나"가 아니라 "언제·왜 실패하고, 누구를 신뢰할 것인가"를 묻는다.
-
"LLM을 직접 답이 아니라 발견·가이드 엔진으로"가 물리·과학·로봇으로 번졌다. 양자코드 설계(SCE)·데이터 파이프라인 구성(FlowPipe)은 LLM을 변이·구성 연산자로, InSight·LaGO·DeepBD는 VLM/LLM을 가이드·사전·근거 엔진으로 쓴다 — 공통 진단은 "프리폼 추론은 인과·정밀 제어의 취약한 기반"이다.
-
'카피 불가 모트'와 '도구의 표면 vs 근본'이 한국·글로벌 사례에서 같은 결을 그린다. Gong과 Nearthlab은 "코드·기술은 베껴지고 운영·신뢰·도메인·고객관계가 진짜 해자"라 말하고, Tom Yeh는 개인 차원에서 "도구는 바뀌어도 남는 근본(행렬곱·학습 능력)에 집중하라"고 한다 — 비기술 창업자가 Claude Code로 5일 만에 사업을 재설계한 Liam Ottley 사례의 "도구 그대로 두지 말고 프로세스를 재설계하라"와도 통한다.
Powered by skim