Daily Digest - 2026-07-01
Anthropic이 Fable 5 재배포/Sonnet 5/Claude Science를 하루에 쏟아낸 날, 업계 담론은 '에이전트를 코드로 오케스트레이션하고 어떻게 신뢰할 것인가'로 수렴했다.
Daily Digest - 2026-07-01
오늘의 핵심 흐름
오늘 하루를 관통한 다섯 가지 흐름이다.
-
Anthropic의 하루. 6월 12일 수출 통제로 막혔던 Fable 5/Mythos 5가 6월 30일 해제되며 7월 1일 전 세계 재배포됐고, 같은 날 Opus 4.8에 근접한 Sonnet 5, 과학자용 워크벤치 Claude Science가 공개됐다. Amazon/MS/Google과의 jailbreak 심각도 공동 프레임워크까지 붙었다. 다만 커뮤니티 반응은 마냥 우호적이지 않았고(Sonnet 5 "실망" 스레드가 공식글보다 추천이 높음), Claude Code 스테가노그래피 마커/스파이웨어 의혹 같은 미검증 신뢰 논란도 같이 돌았다. ->
Anthropic의 하루,안전/프라이버시/거버넌스 -
오케스트레이션을 에이전트 머릿속에서 코드로. LangChain이 Deep Agents에 dynamic subagents(6패턴)를 냈고, LATAM 항공의 프로덕션 사례, STORM 리서치 스킬, pi-subagents/Go Micro 하네스가 같은 흐름을 다른 각도에서 다뤘다. Andrew Ng의 "Loop engineering" 담론이 이를 개념화했다. ->
AI 에이전트 오케스트레이션 -
에이전트를 어떻게 안전/효율적으로 운영/신뢰하나. 실행 격리(WASM+QuickJS), 메모리(Wiki Memory/CTX/OKF), 컨텍스트 압축(코드베이스 그래프), 그리고 "에이전트가 자기 무능/불확실을 아는가"(OSWorld 2.0 20.6%, Agentic Abstention, RLMF)가 벤치마크와 논문 물결로 왔다. ->
에이전트 실행 격리/메모리/컨텍스트,에이전트 신뢰성/정지 판단,코딩 에이전트 학습/평가 -
RLVR/보상 신호의 정교화, 그리고 규모 회의론. GRPO advantage를 역할/스텝/선호 단위로 쪼개는 논문(TRIAGE, MRPO, FPL, CRAFT, GR2, Evo-PI)이 쏟아졌고, 반대편에서는 "모델을 키우지 말고 전처리/컨텍스트를 튜닝하라"(SearchCast, CHERRY, STEB의 소형 인코더)가 반복됐다. ->
RLVR/보상 신호 설계,모델/벤치마크 라운드업 -
AI가 실제 산출물/시장 구조를 바꾼다. 계산생물학 벤치(GeneBench-Pro), 실제 발사된 로켓(RocketSmith)/wet-lab(ProtoPilot)/엑사스케일 표현형(ORNL) 에이전트, 우주 데이터센터(SpaceX)/산업디자인(Vizcom)/AI 사이버공격 민주화(Nebulock), 바이브코딩 실전 매출까지 산업 신호가 넓게 잡혔다. ->
AI for Science/엔지니어링,비즈니스/시장/보안 신호
로컬/온디바이스 추론(ZINC/audio.cpp/SLM RAG), 개발 관행 변화(AI-first 엔지니어링, YAGNI 재해석), 대량의 비전/생성/로보틱스 논문은 각 섹션과 연구 레이더에 정리했다.
Anthropic의 하루
Fable 5/Mythos 5 재배포와 jailbreak 심각도 공동 프레임워크
Anthropic · 공식, Reddit · r/ClaudeAI, Threads · unclejobs.ai
6월 12일 미국 정부가 Fable 5와 Mythos 5에 수출 통제를 적용하며 외국 국적자 접근을 막아야 했고, 실시간 국적 검증이 불가능해 전 사용자 접근이 즉시 차단됐던 사건이 6월 30일 해제로 마무리됐다. Fable 5는 7월 1일(수)부터 Claude Platform/Claude.ai/Claude Code/Claude Cowork에서 전 세계 재개되고, Pro/Max/Team/일부 Enterprise는 7월 7일까지 주간 사용 한도의 최대 50%까지 Fable 5를 포함한 뒤 이후 usage credit으로 전환된다. Mythos 5는 6월 26일 정부 승인 후 미국 일부 조직에 복원됐고 AWS/Google Cloud/Microsoft Foundry는 순차 재개된다.
발단은 Amazon 연구진이 Fable 5의 안전장치를 우회해 소프트웨어 취약점을 식별하게 하고 1건은 익스플로잇 시연 코드까지 생성하게 한 보고였다. 그러나 Anthropic 재검증 결과 Opus 4.8, GPT-5.5, Kimi K2.7 같은 덜 강력한 모델도 동일 취약점을 식별했고 시연도 Haiku 4.5/Sonnet 4.6/Opus 4.6/4.7/4.8/GPT-5.4/5.5/Kimi K2.7까지 재현 가능해, Mythos급 고유 능력이 아닌 경계 사례로 결론냈다. 개선된 분류기로 해당 기법을 99% 이상 차단(차단 시 Opus 4.8로 전환)했고 CAISI가 "extraordinarily strong"으로 동의했다. 정책 신호는 두 가지다. Amazon/MS/Google 등 Glasswing 파트너와 jailbreak 심각도를 채점하는 공동 프레임워크 초안(4기준: 능력 상승폭, 적용 범위, 무기화 난이도, 획득 용이성)을 만들기 시작했고, 6월 2일 행정명령에 근거해 정부 사전 릴리스 평가/정보공유 등 4대 협력을 명문화했다. Reddit에서는 "Fable 5 is coming back!"이 3206 upvotes로 이날 AI 관련 최상위 화제였고, roofv.ai 개발자는 Fable 5 종료 후 Opus+Codex로 이어 개발했다는 실사용 영향을 증언했다.
Claude Sonnet 5 - Opus 4.8 근접, 도입가 $2/$10, 커뮤니티 온도차
Anthropic · 공식, Reddit · r/ClaudeCode, X · markksantos
"지금까지 가장 agentic한 Sonnet"으로 출시됐다. 성능은 Opus 4.8에 근접하되 가격은 낮아 도입가가 8월 31일까지 입력 $2/출력 $10(백만 토큰), 이후 표준가 $3/$15로 전환된다(Opus 4.8은 $5/$25). Free/Pro 기본 모델이며 API 식별자는 claude-sonnet-5. 벤치마크는 BrowseComp/OSWorld-Verified에서 effort별 비용-성능 곡선으로 제시됐고 고effort에선 일부 태스크가 Opus 4.8과 대등하다. 사이버 능력은 Opus보다 현저히 낮아 Firefox 익스플로잇 평가에서 완전한 익스플로잇 0% 성공, 6월 30일에는 BrowseComp 차트를 표준 방법론(10M 토큰 예산, compaction, programmatic tool calling)으로 갱신해 과소평가를 정정했다.
커뮤니티 반응은 갈렸다. Reddit 공식 발표글(673 upvotes)보다 "This is genuinely disappointing" 실망 스레드(998 upvotes/211 comments)가 더 높은 추천을 받았고, techdrumboy의 "car wash" 추론 테스트에서는 High effort만 항상 정답, Low는 대부분 오답, Medium은 가끔만 정답이라 "low/medium effort로는 쓸 가치가 없다"는 결론이 나왔다. 실측 후기 쪽에선 markksantos가 동일 프롬프트로 Sonnet 5 입력 20.9k/출력 14.2k 토큰, 총 $3.36, 2분 11초를 공개했고(Opus 4.8 수치는 원문 잘림), groundcode.io는 "토큰 넉넉한 fable-5 같다"고 평했다.
Claude Science - 과학자용 AI 워크벤치 베타
PubMed/Jupyter/R/클러스터 터미널로 파편화된 연구 도구를 단일 환경으로 묶어 문헌 분석부터 다단계 실행, 그림/원고 편집까지 처리하고 모든 산출물에 재현 이력을 붙인다. generalist 코디네이팅 에이전트가 60개 이상의 큐레이션 skill(genomics/single-cell/proteomics 등)에 접근하고, citation과 계산을 검증하는 reviewer 에이전트가 오류를 flag한다. compute는 자체 HPC(SSH)나 Modal로 GPU 1개~수백 개 스케일하며 민감 데이터는 랩 인프라에 상주한다. 실사용 사례로 Allen Institute의 Jérôme Lecoq는 약 20개 커스텀 skill로 멀티에이전트 "computational review template"을 만들어, 기존 리뷰 1편에 최대 2년 걸리던 것을 100페이지 넘는 리뷰 약 10건으로 늘렸고, UCSF의 Stephen Francis는 germline workup을 기존의 약 1/10 시간에 수행했다.
Desktop Linux/Managed Agents와 스킬 생태계 급성장
X · bcherny, X · ClaudeDevs, X · mattpocockuk
공식 릴리스로 Claude Desktop on Linux가 나왔고, Claude Managed Agents에 streaming session event deltas, per-session agent overrides, 신규 webhook event types, reverse pagination, credential injection scoping이 추가됐다(마지막 항목은 세션/에이전트별 자격증명 주입 범위를 좁혀 운영 보안에 신호). 서드파티 쪽에선 Claude for WordPress(사이트 연결만으로 포스트/미디어/SEO 운영), Claude Code for Marketing(AI 검색 가시성 보강)이 홍보됐다. 스킬 생태계도 도메인별 패키지로 유통됐다. mattpocockuk의 writing-great-skills(npx skills add mattpocock/skills --skill writing-great-skills), NateHerk의 STORM 리서치 스킬, Vox 스타일 광고 제작 스킬(보이스오버+타임스탬프 클립+Arcads MCP)이 대표적이고, Anthropic은 "AI 에이전트만으로 회사 세우기" 워크숍을 무료 공개해 에이전트 오케스트레이션을 공식 교육 콘텐츠로 격상시켰다.
신뢰/투명성 논란 (모두 미검증/저자 주장)
X · IntCyberDigest, GeekNews · thereallo.dev
두 건 모두 사실로 단정할 수 없는 주장이다. 첫째, IntCyberDigest 계정이 "Anthropic이 Claude Code에 스파이웨어 유사 코드를 심어 중국 사용자를 타깃하고 timezone/proxy/AI Lab 정보를 프롬프트에 주입한다"는 "BREAKING" 게시글을 올렸고 좋아요 12,853으로 바이럴됐으나, 단일 계정의 미검증 폭로이며 기술적 근거가 확인되지 않았다(주장/미검증). 둘째, thereallo.dev 개발자가 Claude Code 2.1.196 바이너리를 리버스 엔지니어링해, ANTHROPIC_BASE_URL이 비-Anthropic 엔드포인트이고 타임존이 Asia/Shanghai/Asia/Urumqi일 때 시스템 프롬프트의 아포스트로피/날짜 구분자를 은밀히 바꾸는 함수를 발견했다고 주장했다. 도메인/키워드 리스트는 XOR(키 91)+base64로 난독화됐고 중국 lab 키워드(deepseek/moonshot/minimax 등)와 프록시 도메인을 타깃한다는 것이다. 저자는 리셀러/무단 게이트웨이 탐지 의도로 보되 "명시적 telemetry로 공개했어야 한다"고 비판했다(3자 블로그 저자 주장, 검증 미상태).
AI 에이전트 오케스트레이션
dynamic subagents - 오케스트레이션을 코드로 옮기는 6패턴 (LangChain)
기존 subagent가 context isolation(각자 context window에서 작업 후 결과만 반환)을 줬다면, dynamic subagents는 에이전트가 코드를 직접 작성해 서브에이전트를 프로그래밍적으로 spawn/coordinate하게 한다. 요청에 workflow 키워드를 넣으면 트리거되고, 구현은 code interpreter middleware(경량 in-memory sandbox+eval tool)와 task global(await task(description, subagent_type, response_schema)로 typed 결과)로 이뤄진다. 6패턴은 각각 LangSmith trace로 시연됐다. Classify and Act(라우팅), Fan Out and Synthesize(커버리지, 5개 파일에서 48건 발견), Adversarial Verification(2패스 검증, 26건 중 22건 confirmed), Generate and Filter(GCRA가 승자), Tournament(pairwise 대결), Loop Until Done(중복 제거하며 완전 탐색). 이 6패턴은 원래 Anthropic이 dynamic workflows 연구에서 명명한 것으로, 이번 배치 에이전트 항목들의 뼈대다.
LATAM 항공 - 프로덕션에서 에이전트를 스케일로 운영
YouTube · LangChain Interrupt 2026
라틴아메리카 최대 항공사(작년 8700만 명 수송, 마진 3~5%, 운영비 31%가 제트 연료)가 LangGraph 기반 super agent 패턴으로 B2C 에이전트 Concierge를 운영한다. 베타 첫 달 52,000 유저, 현재 일 약 4,000명. 최적화 두 가지가 핵심이다. 초기엔 각 스페셜리스트가 structured 응답을 담당해 매 스텝 15% latency/token overhead가 났는데, tool-per-agent 패턴으로 재설계해 supervisor만 최종 포맷을 담당하니 같은 품질에 15% 비용을 절감했다. 또 메시지 13%가 "out of context"로 분류됐으나 LangSmith로 파보니 95%가 정당한 승객 니즈(체크인, 수하물, LATAM Pass)여서 customer care 에이전트를 통합하자 return rate가 6.6%p 개선됐다. 상위 파이프라인 Compass는 비정형 데이터를 ontology 기반으로 파싱해 UX 인터뷰 수천 건 처리를 "몇 주 -> 며칠", 문서 한 건당 1센트로 줄였다.
STORM 리서치 스킬 - 5개 관점 + 6개 검증 (Nate Herk)
Stanford STORM 방법(peer-review상 차선책 대비 25% 더 조직화)을 무료 Claude 스킬로 패키징했다. practitioner/academic/skeptic/economist/historian 5개 관점 에이전트가 각기 다른 각도로 리서치하고 서로의 구멍을 찾은 뒤, 6개 에이전트가 fact/citation을 검증한다. 산출물은 self-contained HTML 브리핑으로 reliability 랭크와 소스 confirmed/corrected/demoted 표기를 담고, 브리핑이 스스로 "놓친 6번째 관점(현장 직원)"까지 지적한다. Claude Code 네이티브 deep research가 103개 에이전트를 spawn하고도 결과가 얕고 rate limit에 걸린 반면, STORM은 약 12개 에이전트로 빠르고 저렴했으며 Codex에 둘을 비교시키자 6개 카테고리 전부에서 STORM이 우세로 판정됐다. 발표자 강조: subagent는 서로 대화 못 하고, agent team/council은 합의까지 argue하지만 훨씬 비싸다.
음성 에이전트 - Gemini Live + Deep Agent (LangChain)
음성 에이전트는 자연스러움(speech-to-speech)과 정확성(STT->텍스트 에이전트->TTS sandwich) 사이 선택을 강요당했다. 이 데모는 대화는 Gemini Live로, 리서치는 Deep Agent로 처리해 Deep Agent를 voice agent의 tool로 둔다. 핵심은 non-blocking async ack - research tool 호출 시 즉시 "looking into it"으로 unblock해 대화를 이어가고, Deep Agent가 async task로 실행 후 완료되면 별도 function response로 결과를 반환한다. YT-01의 task global과 개념적으로 연결되는 구성이다.
Loop engineering 담론 (Andrew Ng)
Boris Cherny(Claude Code 제작자)와 Peter Steinberger(OpenClaw 제작자)의 언급 이후 바이럴된 "Loop engineering"을 Andrew Ng이 뉴스레터에서 정리했다(좋아요 4,804). 루프가 이제 AI 에이전트를 길게 반복(iterate at length)시켜 소프트웨어를 만들게 하는 핵심 방식이 됐다는 요지로, 위 dynamic subagents/STORM의 "반복 팬아웃" 흐름과 방법론적으로 맞물린다.
서브에이전트 하네스 - pi-subagents / Go Micro
GeekNews · pi-subagents, GeekNews · Go Micro
pi-subagents는 Pi 하네스가 focused child 에이전트(scout/researcher/planner/worker/reviewer/context-builder/oracle/delegate 8종)에 위임하게 하는 확장으로, pi install npm:pi-subagents 한 줄이면 되고 권장 루프는 clarify->planner->worker->fresh reviewers->worker다. child-safety 경계를 런타임에서 강제해 child는 기본적으로 subagent 툴을 받지 않는다. Go Micro는 Go 서비스 엔드포인트가 자동으로 typed tool(MCP Gateway)과 A2A 대상이 되게 하고 micro run --prompt "..."로 서비스/에이전트를 생성하며, 모든 추상화가 Go 인터페이스라 교체 가능하다.
데이터/웹 접근 - Agent Reach, Aside 브라우저
X · sharbel, Threads · bieup.c
Agent Reach는 단일 CLI로 Twitter/Reddit/YouTube/GitHub/Bilibili/샤오홍슈를 읽으며 API 요금/계정/키가 전부 필요 없고, 에이전트에 한 줄 붙이면 자동 설치된다(좋아요 1,378). Aside는 브라우저를 직접 제어하는 에이전트 도구로 이제 brew install aside로 설치되며, bieup.c는 Aside를 DeepSeek v4 flash API로 물려 browsing/research/interview/plan/analysis 스킬을 커스텀하니 디자인 시스템 추출/인터랙션 역설계 정확도가 크게 올랐다고 평했다. nooby.devy는 "Aside가 playwright MCP를 대체한다"는 강한 주장을 폈다.
에이전트 실행 격리/메모리/컨텍스트
Deep Agents 인프라 3부작 - WASM 격리 실행, Wiki Memory, Harbor eval (LangChain)
LangChain · untrusted code, LangChain · Wiki Memory, LangChain · Harbor
첫째, Deep Agents의 dynamic subagent가 스크립트로 서브에이전트를 오케스트레이션하는데, 프롬프트 인젝션이 미해결이라 에이전트 코드가 언젠가 허용되지 않은 일을 할 것이라 가정하고 실행 격리/능력 격리/durable pause로 제약한다. 실행 격리는 WebAssembly(별도 선형 메모리로 host 포인터 역참조 불가), 그 안의 실행 엔진은 QuickJS(C 작성, WASM으로 깔끔히 컴파일)다. 능력 격리는 Meta의 "rule of two"(인젝션 미해결 시 위험 조합 중 최대 2개만)를 인용한다. 둘째, Wiki Memory는 raw 소스를 압축된 지속형/agent-readable 지식층으로 변환하는 패턴으로, 쿼리 시 chunk를 검색하는 RAG와 달리 상위 합성을 미리 계산한다(예: Cognition DeepWiki, Karpathy의 LLM Wiki, Factory AutoWiki). 셋째, Harbor는 Environment(Dockerfile)+Instruction(Markdown)+Evaluation script(test.sh)로 태스크를 구성하는 eval harness 통합이다.
에이전트 메모리 - CTX, Memora, OKF
GeekNews · CTX, Reddit · r/Rag(OKF)
세 접근이 "무엇을 저장하는가"와 "어떻게 인덱싱/접근하는가"를 분리하는 방향으로 수렴한다. CTX(MIT)는 Claude Code 세션 간 persistent memory와 4개 트리거 기반 라우팅을 결합하고 의존성 쿼리엔 코드 import 그래프를 BFS로 순회한다. BM25 대비 Token-Efficiency Score 1.9배를 토큰 5.2%만으로 달성하고 IMPLICIT_CONTEXT 쿼리 Recall@5=1.0(BM25 0.4)을 내지만, text-to-code 시맨틱 검색은 BM25에 못 미친다(R@5 0.740 vs 0.980). Memora(arXiv 2602.03315)는 Memory value(비인덱스)/Primary abstraction(1:1 요약)/Cue anchors(다대다 진입점)로 나눠 값 자체는 인덱싱하지 않고 추상화층만 인덱싱한다. Google Cloud가 6월 12일 발표한 OKF(Open Knowledge Format)는 .okf/ 디렉토리에 YAML frontmatter 마크다운을 두면 20종 이상 에이전트가 읽는 지식 그래프 포맷으로, CLAUDE.md/AGENTS.md의 플랫 리스트와 달리 개념이 마크다운 링크로 연결되며 RAG와 상호보완(OKF=known-knowns, RAG=비정형 코퍼스)이다.
코드베이스를 그래프로 - 코딩 에이전트 토큰 50% 절감 (AI Jason)
Codebase Memory MCP(오픈소스)는 import/함수 호출을 edge로 보고 코드베이스를 relationship graph로 만들어 에이전트에 "GPS 맵"을 준다. C/C++로 작성돼 Linux 커널 전체를 3분에 인덱싱하고, LLM 파이프라인 없이 순수 프로그래밍적이라 index가 stale되지 않는다. 핵심 설계는 pre-tool use hook - 에이전트가 그래프 검색을 잊고 일반 grep을 써도 hook이 grep 결과에 그래프 정보를 붙인다. Superdesign 코드베이스 실측에서 MCP 사용 시 message context가 약 11,000 토큰 vs 미사용 약 38,000 토큰, 2번째 질문에선 33,000 vs 64,000으로 전체 약 50% 절감이다.
DESIGN.md - on-demand vs 일괄 로딩 트레이드오프 (Atlassian)
Google이 Stitch용으로 만든 DESIGN.md(브랜드/UI 패턴의 이식 가능한 마크다운 스냅샷, 앞부분 machine-readable 토큰+뒷부분 근거)를 Atlassian이 실전 테스트했다. 원샷 프로토타입엔 잘 작동해 제네릭 slop을 Atlassian 스타일로 바꿨지만, 프로덕션 로그인 화면 생성에선 ADS MCP 대비 토큰을 약 92% 더 쓰고 실행 간 분산이 약 2.7배였다(No context 4.20M/6분19초, ADS MCP 3.75M/5분1초, DESIGN.md 7.21M/6분46초). 한계 세 가지: 컨텍스트가 매번 전부 로딩(MCP는 tool call로 필요분만), 짧게 유지하려면 컨텍스트 손실(2.5MB 가이드를 80KB로 압축하며 50+ 컴포넌트 사용 가이드 상당 삭제), 스펙이 디자인 시스템 내부를 노출해 에이전트가 재사용 대신 재구현하는 경향.
LUMOS - 접근성 기반 시맨틱 OS 레이어 (포지션 페이퍼)
OS 접근성 메타데이터(Windows UIA, 브라우저 DOM)를 기계 판독 블루프린트(안정 ID/role/name/bounds/action affordance)로 변환해, 스크린샷/OCR 대신 OS가 이미 노출하는 시맨틱 구조로 데스크톱을 조작하는 에이전트 인터랙션 레이어다. observe-plan-act 루프에서 LLM은 한 번에 JSON 액션 1개만 방출하고 런타임은 constrained visible-UI primitive만 실행한다. 정량 벤치마크 없는 프로토타입/포지션 페이퍼이며 "stopping is an action(명시적 finish 필요)" 같은 설계 교훈과 평가 계획만 제시한다.
에이전트 신뢰성/정지 판단
실무 완수 벤치마크 - OSWorld 2.0, TUA-Bench, InnerZoom
arXiv · OSWorld 2.0, arXiv · TUA-Bench, arXiv · InnerZoom
세 논문 모두 "짧은 태스크엔 강하지만 실무엔 약하다"는 같은 메시지를 다른 표면(GUI/CLI/grounding)에서 낸다. OSWorld 2.0은 인간 median 약 1.6시간짜리 108개 장기 워크플로(구 OSWorld 대비 약 48배 길고 평균 318 tool call)로, Claude Opus 4.8이 구 OSWorld-Verified에서 83.5%지만 여기선 이진 완료 20.6%/부분 54.8%에 그친다. 실패는 GUI 제어가 아니라 장기 task-level 모델 유지 실패(명시 제약 놓침, 추측 대신 묻기 실패, 검증 건너뜀)이며 예산의 7% 미만만 자기수정에 쓴다. TUA-Bench는 터미널 에이전트 120태스크로 최강 Claude Code+Opus 4.8도 65.8%에 그친다(CLI-only, Meta 주도). InnerZoom-4B는 GUI grounding 6벤치 전부 SOTA(OSWorld-G 64.7 등)이면서 중간 층 ROI 증거가 최종 좌표로 전달 안 되는 Region-to-Point Gap(69.0%->14.0%)을 forward 한 번으로 해결해 two-pass ZoomIn 대비 latency 최대 31.8% 감소.
메타인지와 정지 판단 - Agentic Abstention, RLMF, Introspective Coupling
arXiv · Agentic Abstention, arXiv · RLMF, arXiv · Introspective Coupling
"에이전트/모델이 자기 무능/불확실을 아는가"를 세 각도에서 다룬다. Agentic Abstention은 불확실성 하에서 언제 멈춰야 하는지(answer/abstain/act)를 28,000개+ 태스크로 측정했는데, 대부분 시스템의 평균 timely recall이 40% 미만이고 WebShop 최강도 26.7%에 그친다. 더 큰 모델/추론이 반드시 더 잘 abstain하지 않으며, context engineering(convolve, 파라미터 미갱신)만으로 Llama-3.3-70B의 timely recall을 26.7%->57.4%로 올린다. RLMF(Yale/Google)는 GRPO advantage를 모델의 자기판단 정확도로 스케일링해 "충실한 불확실성 표현"을 유도, 표준 RL 대비 최대 63% 개선하고 8B 소형 모델이 GPT-5/Gemini-3.1-Pro를 faithful calibration에서 앞선다(인간 평가 승률 평균 96%). Introspective Coupling(MIT)은 이전 체크포인트로 만든 고정 설명으로 학습해도 정규화가 있으면 모델이 자기 현재 행동을 더 충실히 설명("Self > Orig")함을 sycophancy/refusal 세 태스크에서 보였다.
다중 에이전트 검증 지연이 믿음을 진동시킨다
verifier/critic 에이전트로 환각을 억제하지만 검증에 지연이 있으면, 지연된 negative feedback이 진동/불안정을 낳는다. grounded Laplacian 스펙트럼 분해로 검증 강도의 안정 임계값을 closed-form으로 유도했는데, 지연 δ=2에서 임계값이 역황금비다. 5개 오픈 모델에서 fitting 없이 예측된 dose-delay 진동이 관측됐고, corrector 배치는 greedy (1-1/e) 규칙으로 영향력 큰 노드(amplifier/bridge)에 할당한다. 반면 grounded factual answering은 진리를 흡수 경계로 만들어 진동을 제거하므로, 불안정성은 signed-belief 과제에 특이적이다.
멀티에이전트 협업 벤치마크 - MECoBench
VirtualHome 기반 192개 케이스로 MLLM 체화 멀티에이전트 협업을 측정했다. 핵심 발견 셋: 협업은 팀 크기가 커지면 saturation 후 degradation(inverted-U)이라 중간 팀이 최적, 통신이 협업 이득의 핵심 driver, action-level delegation(Act-Del)이 최강 이득(+1213 SR)인 반면 추상적 task assignment는 오히려 -11.5 SR. 실패 모드로 중복 grab(최대 57.4%)과 hallucinated completion(11.5%로 드물지만 parallel SR -73.7%로 파괴적)을 정량화했다.
코딩 에이전트 학습/평가
Dockerless - 실행 없이 레포를 뒤져 패치를 검증
코드를 실행하지 않고 레포를 능동 탐색해 패치 정답 여부를 판정하는 agentic verifier다. 이슈/레퍼런스에서 검증 질문 K개를 생성하고 서브에이전트가 read-only 셸 도구로 병렬 탐색해 근거를 수집한 뒤 이진 판정을 낸다. 검증 벤치(776 샘플)에서 최강 오픈소스 검증기 대비 AUC +14.3점, 프론티어 LLM judge 대비 +5.1~8.2점이고, 완전 환경-프리 사후학습으로 SWE-bench Verified 62.0%를 달성해 실행 기반과 동등하다. 재현 가능한 환경/테스트가 없는 롱테일 실세계 레포로 코딩 에이전트 학습을 확장하는 길이다.
SWE-Together - 다중 턴 실사용 세션 평가
11,260개 녹화 세션에서 109개만 선별(전환율 0.97%)해 실제 유저-에이전트 코딩 세션을 재구성한 다중 턴 벤치마크다. LLM 유저 시뮬레이터가 원본 의도를 유지하되 평가 에이전트 궤적에 반응하며(인간이 실제/시뮬레이션을 구분 못함, Turing pass 46%), 7개 프론티어 모델 중 Claude Opus 4.8이 pass@1 63%로 1위다. User Correction(교정 개입)이 능력과 강한 음의 상관(pass@1과 Pearson -0.92)이라 "강한 모델일수록 인간 개입이 덜 필요"가 실증됐고, 레퍼런스 인간 패치 pass rate 약 78%로 헤드룸이 남았다.
AxDafny - 검증기 피드백 루프로 형식 검증 코드 생성
Dafny 검증기가 실패한 증명 의무를 소스 위치와 함께 돌려주는 것을 generate-check-repair 루프의 피드백으로 쓴다. proposer + reviewer(결정적 검사로 명세 약화/proof-bypass 차단 + LLM 리뷰) + rolling scratchpad memory 구조로, DafnyBench에서 92.7%(retrieval 없이 DafnyPro 86.2% 상회) 검증에 성공했다. 신규 LCB-Pro-Dafny(경쟁 문제 250개)에서 GPT-5.5 직접 생성 pass@1 11.6%를 반복 repair로 56.4%까지 끌어올렸다. 다만 검증 성공한 easy 75개 중 32개만 원본 실행 테스트를 통과(39개 TLE)해, Dafny 명세가 기능적 정확성만 강제하고 점근 복잡도는 강제하지 않는다는 "검증 성공 != 실행 성능"을 드러냈다.
RAS - 코드가 아닌 자연어 설명으로 검색해 최적화
LLM에게 소스코드가 아니라 LLM 생성 자연어 설명으로 유사 예시를 검색시키고 beam search를 돌리는 프로그램 최적화 기법이다. PIE(C++)에서 8.70× speedup(Qwen3-Coder, dynamic retrieval 4.23× 대비), DeepSeek 3.2로 9.18× SOTA. 변형 Aegis는 훈련 예시를 atomic edit으로 분해해 6.08×에 edit size 17% 감소로 더 해석 가능한 수정을 낸다. 가중치 무수정(blackbox) 적응의 SOTA다.
Ornith-1.0 - 자기 개선 오픈소스 코딩 모델 (MIT)
DeepReinforce Team이 agentic 코딩용 자기 개선 오픈소스 모델을 MIT로 공개했다(9B~397B, Gemma 4/Qwen 3.5 위에 post-train). RL로 solution rollout뿐 아니라 그 rollout을 구동하는 scaffold까지 생성해 공동 최적화하는 것이 차별점이다. 397B는 Terminal-Bench 2.1(Claude Code 하네스) 78.2로 Opus 4.8(78.9)에 근접하고 SWE-bench Verified 82.4(Opus 4.8 87.6), 256K 컨텍스트에 9B는 단일 80GB GPU에 올라간다.
RLVR/보상 신호 설계
RLVR 후처리와 보상 해킹 - TRIAGE, orthonormal LoRA, Z-1, GR2, Evo-PI
arXiv · TRIAGE, arXiv · GR2, arXiv · Evo-PI
GRPO/RLVR을 정교화하는 논문이 몰렸다. TRIAGE(LinkedIn)는 GRPO의 균일 outcome credit에 "역할 축"(decisive progress/useful exploration/no-progress/regression 4역할)을 더해 ALFWorld/WebShop에서 성공률을 올리고 낭비 턴을 10.4%/14.8% 줄였다. RLVR용 orthonormal LoRA 초기화(JHU/Meta)는 SFT에서 잘 되던 PiSSA/MiLoRA가 RLVR에선 불안정함을 규명하고 LoRA-RLPO/RLMO로 해결했다. Z-1(RoboCasa 24태스크 평균 80.6%, SFT 67.4% 대비 +13.2%p)은 flow-based VLA를 task-wise GRPO로 후처리했다. GR2(Meta)는 재랭킹에 LLM 추론을 처음 본격 적용해 산업 트래픽에서 R@1 +18.7%를 냈는데, 핵심은 reward hacking 2종(incoming order 보존, position bias 악용) 방지였고 semantic ID+OPD로 1.7B가 32B teacher 이득의 82%를 5% 크기로 회복했다. Evo-PI는 scalar 보상 대신 진화하는 언어 원칙을 감독 신호로 써(원칙을 judge에만 노출해 reward hacking 억제) 의료 VQA 8개 모달리티에서 최대 24.6% 향상했다.
세분화된 선호/스텝 신호 - CRAFT, FPL, MRPO, DRE
arXiv · CRAFT, arXiv · FPL, arXiv · MRPO
"뭉개진 outcome-level 신호"를 세분화하는 흐름이다. CRAFT는 자율주행 교통 시뮬레이터의 부분 관측 로그 한계를 재학습 없이 테스트타임 선호 정렬로 교정해 충돌 -31.2%, 위반 -33.2%(단 WOSAC realism은 오히려 하락, 저자는 지표 편향으로 해석). FPL(스탠퍼드)은 binary 선호의 모호함 대신 어노테이터가 speed/safety 같은 축을 자연어로 정의하고 축별 선호를 줘, 6개 조작 태스크 평균 +38pp에 라벨당 1.85배 빠르고 테스트타임 steerability(재학습 없이)를 얻었다. MRPO(의료 VQA)는 early-stage 실패 캐스케이드를 스텝 단위 exponential penalty로 차단해 8B가 34B를 능가(13K 샘플)하고 early failure를 64.0%->13.0%로 줄였다. DRE(USC/AWS)는 LLM이 표를 부주의하게 읽는 오류(전 모델 1.7B~20B에 만연, prompting으로 미해결)를 경량 critic 필터링/rejection sampling으로 정확도 최대 +11.96% 개선했다.
AI for Science/엔지니어링
GeneBench-Pro - 계산생물학 연구 판단력 벤치마크 (OpenAI)
계산생물학에서 모호성 처리와 결과적 판단을 측정하는 연구 수준 벤치마크(129문항, genomics/quantitative biology/translational medicine)다. 각 문항을 합성으로 생성해 전체 인과 구조를 알고 결정론적으로 채점하며, trace 분석으로 정보 누출을 감사한다. 최강 GPT-5.6 Sol이 최고 추론 레벨에서 28.7%(Pro 31.5%) 통과 - 원조 GeneBench 초기 최강 GPT-5는 5% 미만이었다. GPT가 정량 불확실성 하 과학 추론에서 최강이고 오픈소스 격차가 coding 외삽치보다 컸다. 경제성 대비: 인간 전문가는 문항당 20~40시간/수천 달러, AI 추론은 문항당 수 달러. 대표 10문항은 Hugging Face 오픈소스, 연말 saturate 가능성도 언급됐다.
과학 에이전트 - RocketSmith, ProtoPilot, ORNL 표현형, TreeAgent
GitHub · RocketSmith, arXiv · ProtoPilot, arXiv · ORNL
AI 에이전트가 실제 물리 산출물을 구동한 사례가 넷이다. RocketSmith는 Claude Code 플러그인(MCP)으로 고출력 로켓을 설계/3D프린트해 4개를 발사, 2개를 재비행 가능 상태로 회수했고(예측 apogee의 80% 달성) 안정성 계산/시뮬/슬라이싱을 도구에 위임해 "LLM이 직접 최적화하지 않는" 설계 원칙을 지켰다. ProtoPilot은 자연어 의도에서 wet-lab 실행/피드백 수정까지 닫는 자기진화 생물학 에이전트로, Opentrons pass 88.24%(OpenTrons-AI 32.35% 대비), 실제 습식 실험(Sanger 확인, colony PCR 24/24)에서 실패 후 primer 재설계로 자가 수정했다. ORNL은 엑사스케일 Frontier와 다중 에이전트로 식물 표현형 분석을 며칠에서 초 단위로 줄였다(DOE Genesis Mission, provenance 오버헤드 <1%). TreeAgent는 자연어 전문가 규칙을 실행가능 decision graph로 컴파일해 산림 편향 라벨링을 67.6% F1/트리당 0.040분(인간 5분, LightGBM 36.2%)에 처리했다.
과학 인프라 - NMO 나노기술 벤치, TheoremGraph
arXiv · NMO, arXiv · TheoremGraph
NMO는 proxy oracle 대신 양자 시뮬레이션을 쓰는 분자 최적화 벤치마크(단일분자 열전달/열전/THz 검출 3태스크)로, GenMol/InVirtuoGen 같은 고급 생성 기법이 단순 유전 알고리즘보다 저조한 반전을 드러냈다(저자 genetic GFN 베이스라인이 3태스크 모두 SOTA). TheoremGraph는 arXiv 11.7M 정리와 Lean 388,105 선언을 문장 단위 의존 그래프로 잇는 수학 검색 인프라로, MCP 인터페이스를 공개했고 arXiv 철회의 2.4%가 "not novel"임을 지적하며 lemma 단위 attribution을 목표한다.
뇌-텍스트 디코딩 - Brain2Qwerty v2, BrainJanus
Meta AI · Brain2Qwerty, GitHub · BrainJanus
Meta의 Brain2Qwerty v2는 비침습 MEG로 뇌활동을 문장으로 실시간 디코딩해 word accuracy 61%(기존 비침습 8% 대비, 최고 참가자 78%)를 냈고 정확도가 데이터량 대비 log-linear로 개선된다. BrainJanus는 뇌/시각/언어를 단일 토큰 공간에 통합한 첫 모델로, Unified Brain Tokenizer가 신경 신호를 이산 토큰으로 양자화해 image->brain, brain->text 등 4방향을 단일 자기회귀 모델로 처리하며 cortical topography를 보존한다.
로컬/온디바이스 추론
ZINC, audio.cpp - 네이티브 저수준 런타임이 베이스라인을 이긴다
Reddit · ZINC, Reddit · audio.cpp
ZINC(Zig 런타임+Vulkan 컴퓨트+직접 작성 RDNA 셰이더)가 AMD Radeon AI PRO R9700(32GB, 576GB/s)에서 llama.cpp를 앞섰다. Qwen 3.6 35B A3B decode 166.80 vs 108.54 tok/s(1.54배), 전체 매트릭스에서 prefill 19/20/decode 18/20 셀 승리이며 RDNA 경로에서 ROCm이 불필요하다. 3개월 만에 7 tok/s급에서 llama.cpp 초과에 도달했고 개발자는 "llama.cpp를 버리라는 게 아니다"라고 명시했다. audio.cpp(C++/ggml)는 VibeVoice 1.5B를 얹어 RTX 5090에서 90분 오디오를 22.95분에 생성(실시간 4.08배, Python 대비 2.86배, 양자화 없음). 둘 다 "네이티브 런타임이 하드웨어 다양화+온디바이스 프라이버시로 베이스라인을 실측으로 이긴다"는 서사다.
로컬 RAG 평가 - 작은 모델 실측과 judge 신뢰성
Reddit · r/Rag, Reddit · judge 검증
M2 Mac Studio(MLX, 30문서/20문항 고정)에서 Qwen3 4B가 83.3% 정답으로 1위였고(Llama 3.2 3B 72.2%, Apple FM 66.7%), 흥미롭게 Qwen3-4B base가 8bit/4bit 양자화 버전(둘 다 72.2%)보다 나았으며 Gemma-3-4B는 22.2%로 사실상 broken이었다. macOS 27 Apple Intelligence 모델은 의료/법률 프로즈를 게이팅했다. 다른 스레드는 LLM judge 신뢰성을 파고들어(Strix Halo 128GB, 답변자 qwen3.5:122b, judge llama3.3:70b) Correctness ~91%인데 Faithfulness ~60%인 모순을 지적했다 - "41%를 지어내면서 91% 맞을 수 없다"며 judge의 Cohen's kappa 미검증을 문제 삼았다.
SLM RAG - 16GB CPU-only에서 실증
러시아어 RAG 생성 단계에서 17개 SLM을 16GB RAM CPU-only(GGUF)로 벤치했다. Qwen3-8B-Q4KM이 Correctness 0.72/Faithful 0.83으로 GPT-5-mini(0.73/0.89)에 근접했고 프로덕션엔 Qwen3-4B-Instruct-2507(latency 70.9초)을 택했다. context 모드 Correctness 0.73 vs no-context 0.47로 외부 문맥 의존적이며, GPU 없이 실행 가능함을 실증했다.
One Model Many Latencies - 단일 음성향상 모델 (NVIDIA)
HuggingFace · Real-time RE-USE
단일 모델이 algorithmic latency(look-ahead)와 computational latency(early-exit 깊이)를 명시적으로 제어해 30개 지연 구성을 지원하며 specialized 모델에 근접한다. VoiceBank-DEMAND에서 exit=8/look-ahead=1이 PESQ 2.82로 DEMUCS(33.5M)/DeepFilterNet3를 2.9M 파라미터로 초과한다. 가중치는 HuggingFace 공개.
모델/벤치마크 라운드업
이미지 모델 - nano banana 2 lite
X · GoogleAIStudio, GeekNews · 모델 릴리스
Google이 Gemini 이미지 모델 중 가장 빠르고 비용효율적인 nano banana 2 lite(Gemini 3.1 Flash-Lite Image)를 공개했다. 텍스트->이미지 4초, 1K 해상도 이미지당 $0.034, SynthID 워터마크, Figma Weave/Manus AI 등 파트너. Weekend는 "Gemini 3.1 Flash Image 대비 약 2.7배 빠른 1k 이미지"라 평했다.
도메인 파운데이션 모델 - Leanstral 1.5, TabFM
Mistral · Leanstral, Google · TabFM
Mistral의 Leanstral 1.5(6/30)는 Lean 4 형식 증명/autoformalization에 최적화된 119B(6.5B active) 모델이다. Google TabFM은 tabular 예측을 in-context learning으로 프레이밍해 수동 학습/하이퍼파라미터 튜닝/feature engineering 없이 단일 forward pass로 예측하는 zero-shot foundation model로, 산업 데이터 희소성을 SCM 생성 합성 데이터로 우회하고 TabArena에서 튜닝된 XGBoost를 상회, 수주 내 BigQuery AI.PREDICT SQL에 통합된다.
NVIDIA, 중국 프론티어 모델 5종 무료 개방
NVIDIA가 5개 프론티어 중국 AI 모델을 무료 API로 열었다. 신용카드/구독 없이 API 키 하나로 DeepSeek V4 Flash(초고속 추론), MiniMax M3(드롭인 코딩 어시스턴트) 등을 쓸 수 있다(좋아요 1,362). Aside를 DeepSeek v4 flash로 구동하는 사례와 겹쳐, 중국산 프론티어 모델 접근성 확대가 여러 글에서 확인된다.
T2I faithfulness - Arena-T2I Hard
기존 T2I 벤치마크가 포화(95%+)돼 실제 사용자의 복잡한 다면 요청을 못 잡는 문제를, 310개 스트레스 프롬프트(평균 430단어, 프롬프트당 약 30개 yes/no 제약, dependency-aware checklist)로 공격했다. 최강 closed-source가 0.855(gemini-3-pro-image-preview-2k), 11개 시스템 간 33pp 격차다. 핵심은 공개 아레나 순위(Bradley-Terry 선호)가 faithfulness를 예측 못한다는 것 - "예쁜 것"과 "지시대로 그리는 것"이 다르다. GDPO로 SD3.5/FLUX의 faithfulness-미학 trade-off를 개선했다.
벤치마크 방법론 - IRT, STEB, Video-MME-Logical, SafePyramid
Threads · IRT, GitHub · STEB, arXiv · SafePyramid
평가 표준화/난이도 상향이 네 방향에서 왔다. 한 개인 연구자는 벤치마크 점수를 단순 평균해 순위를 매기면 데이터가 적을 때 150개 조건 중 최악에서 Spearman ρ가 1.0에서 0.24까지 떨어지는데, 58년 된 문항반응이론(IRT)을 적용하면 모든 조건에서 ρ ≥ 0.993을 유지하고 노트북에서 60초면 된다고 보였다. STEB는 파편화된 스타일(문체) 임베딩 평가를 96 데이터셋/7 언어/40 모델로 표준화했는데, MTEB top-5 Qwen3-Embedding-8B가 스타일 태스크에서 저조하고 소형 특화 인코더 LUAR-CRUD가 GPT-5.2를 750배 적은 FLOPs로 이겼다(R@1 83.0 vs 59.0). Video-MME-Logical은 비디오 시간-논리 추론을 격리 평가해 인간 95.9% vs 최강 gemini-3.1 Pro 28.6%의 큰 격차와 "thinking 모드가 반드시 개선 안 함"을 보였다. SafePyramid(ByteDance)는 문맥 제공 정책으로 위반 규칙 집합을 예측하는 계층 벤치(61,699 규칙)로, GPT-5.5조차 L0 54.0%/L1 35.3%/L2 12.9%로 단조 하락했다.
월드모델 - 벤치와 모델 대량 등장
arXiv · WorldRoamBench, arXiv · Orca, arXiv · A2World
월드모델 논문이 몰렸다. WorldRoamBench(Alibaba)는 생성형 월드모델을 10-60초 걸어다니게 하는 4차원(행동/시각/물리/메모리) 벤치로, 아무도 다 통과 못하고 Genie 3가 1인칭 최고(strict accuracy ~77)이며 "trajectory 점수 85+여도 프레임별 정확도 65% 미만"을 드러냈다. Orca(BAAI)는 next-token/frame/action 대신 Next-State-Prediction을 중심에 둔 일반 월드 파운데이션 모델(비디오 125K 시간+이벤트 160M, 백본 frozen+readout만 학습). A2World는 216만 로봇 조작 궤적으로 액션 조건 world model을 사전학습해 시뮬레이터로는 실제 성공률과 ρ=0.916, 정책으로는 LIBERO 98.6%를 냈고, DreamForge-World는 64시간 데이터로 단일 RTX 4090에서 14-15 FPS 실시간 preview를 구현했다(Genie 3만 시간과 대조). NeuWorld는 rollout 단위를 비디오 프레임에서 고정 길이 renderable 장면 상태(NIS)로 바꿔 장기 일관성을 얻었다. 한편 TailOR는 Sora-2/Veo-3.1/Nano-Banana-2도 "책으로 못 박기" 같은 롱테일 물리에서 무너짐(Regular->Impossible 일관 저하)을, MemLearner는 rule 기반 대신 학습으로 "무엇을 기억할지" 질의해 occlusion/dynamic에서 장면 일관성을 개선함을 보였다.
개발 도구/인프라/오픈소스
18년 된 libunwind 버그를 '역학'으로 잡다 (OpenAI)
ChatGPT 데이터 인프라 Rockset(C++)에서 정상 함수가 리턴 후 bogus 주소로 점프하는 크래시를 추적한 사례다. 결론은 무관한 두 버그 - 단일 Azure 호스트의 silent 하드웨어 손상, 그리고 GNU libunwind에 18년 넘게 잠복한 레이스 컨디션이었다. 전환점은 "doctor(단일 케이스)"에서 "epidemiologist(전체 population)"로의 전환 - ChatGPT로 core dump 자동 분석 스크립트를 짜 1년치 프로덕션 dump에 병렬로 돌리자 상관관계가 즉시 드러났다. libunwind 버그는 _Ux86_64_setcontext가 %rsp를 바꾼 뒤 stack을 읽는 약 100피코초(명령어 1개 폭) 창에 SIGUSR2가 도착하면 instruction pointer가 NULL로 손상되는 것으로, Rockset 특수성 3축이 곱해져 하루 12건 이상 크래시가 났다. libgcc unwinder로 전환하고 fix를 upstream했다. 교훈: 영리한 어셈블리 분석보다 고품질 population 데이터셋이 결정적.
오픈소스 릴리스 러시 - Expo 57, Astryx, Shimmy, OpenClaw, Ozan
Reddit · Expo 57, Threads · Astryx
여러 서브레딧/Threads에 릴리스가 흩어져 올라왔다. Expo SDK 57은 RN 0.85->0.86(non-breaking, npx expo install expo@latest --fix). Meta의 Astryx는 사람과 AI 에이전트가 같은 API로 쓰는 첫 오픈소스 디자인 시스템으로 8년 내부 개발을 오픈소스화(React+StyleX, 150+ 접근성 컴포넌트, 하루 +394 stars로 1,191). Shimmy는 Rust 단일 바이너리 로컬 LLM 서버(5,555 stars, Ollama 대비 경량). Supabase x OpenCode 통합(오픈소스 Claude Code 대안), Discord 대안 Sabha(Campfire 포크, database-per-tenant), 로그 리댁션 CLI ShareClean, low-slop 창작 파인튜닝 Ozan-v1-12B(EQ-Bench slop 5.30), OpenClaw v2026.6.11(302 PR/704 커밋 다채널 안정성)이 함께 나왔다.
MCP 보안 - 대부분이 검토 없이 배포된다
MCP 서버는 기능적으로 LLM에 실권한을 주는 RPC 엔드포인트인데 노출 전 보안 검토를 거의 안 받는다는 경고다. 배포 전 6항목 체크리스트: AUTH("localhost는 보안 경계가 아님"), TOOL DESCRIPTIONS(프롬프트 인젝션 가능, 도구 메타데이터를 신뢰 불가 입력으로), INPUT VALIDATION(경로 순회/인젝션), CORS/origin, OAUTH/scope(토큰 스코프 축소), RATE LIMITING+error leakage. 폴리시된 클라이언트가 에러를 감추므로 원시 JSON-RPC 요청을 손으로 보내 실제 응답을 확인하라고 권한다.
프론트엔드/포팅 - barrel file, webernetes
Reddit · r/reactjs, ngrok · webernetes
한 프론트엔드 팀은 컴포넌트 barrel file(re-export index.ts) 하나 제거로 번들 2.6MB를 줄이고 "NO BARREL FILE" 정책으로 전환했다(트리 셰이킹 무력화가 원인). webernetes는 Kubernetes를 브라우저용 TypeScript로 약 10만 줄 부분 포팅(2개월, LLM이 거의 전부 작성)한 프로젝트로, "slop 아님"의 근거로 전 라인 리뷰와 k3s 동일 동작을 확인하는 204 통합+1,855 유닛 테스트를 들었다 - "LLM은 코드 포팅에 서툴다(shortcut/불필요 helper/테스트 누락)"며 리뷰+테스트가 slop 방지의 핵심이라 주장했다.
학습/추론 효율 - 비동기 PP, MBD-LM, BlockPilot, Visual Skipping, CHERRY
arXiv · One-Step Gradient Delay, arXiv · BlockPilot, arXiv · CHERRY
효율 논문이 여럿 나왔다. 비동기 파이프라인 병렬 학습의 gradient 지연은 근본 한계가 아니라 optimizer 문제였다(AdamW는 저하, Muon은 강건, 10B까지 검증, Error Feedback로 격차 완전 해소). MBD-LM은 확산 언어모델의 여러 블록을 동시 디코딩해 forward당 토큰을 3.47->6.19(+78.4%)로 늘리면서 정확도까지 올렸다(951 TPS). BlockPilot은 확산 speculative decoding에서 블록 크기를 샘플마다 예측하는 경량 MLP(0.32B/7.34ms)로 Qwen3-4B를 4.20× 가속. Attend/Transform/Silence는 MLLM 추론을 operator 단위(attention/FFN)로 선택 skip해 Qwen3-VL에서 33.7% FLOPs 감소, 99.5% 성능 유지(late layer visual update가 크지만 answer 영향은 적은 "answer-silent redundancy" 관찰). CHERRY(한국 TeamSparta)는 자체 학습한 한국어 파운데이션 CHERRY-1.8B로 효율 3종(토큰 15%만 감독해 4.5배 효율, 48층->6층 압축, 전문가 융합)을 실증했다.
클릭가이드 - 브라우저 클릭 기록 매뉴얼 자동화 (오픈소스)
브라우저 클릭을 자동 기록해 업무 매뉴얼을 만드는 크롬 확장으로, 화면 캡처+화살표+설명을 일일이 붙이던 작업을 자동화한다. 한국학중앙연구원 인사팀에서 ERP/업무 절차 매뉴얼 제작에 실사용 중이며 GitHub(koul777/clickguide-local-private)에 공개됐다. Loom 류가 하던 "클릭 기록->문서화"를 로컬 오픈소스로 대체한 사례다.
AI 시대 개발 관행/경제성
AI-first 엔지니어링 실무 - 배포 주 6회에서 200~400회로
Imprint 저자는 hypergrowth 경험으로 개정한 5개 규칙을 제시했다. 복잡한 마이그레이션도 개인이 95% 소유하고 10% 시간에 끝낼 수 있다, 1차 코드는 거의 무료지만 작동 코드 비용은 개발 하네스(테스트/CI/검증환경)에 달렸다, 인간의 1차 코드 리뷰는 좋은 하네스보다 느리다, durable/high-ownership 팀이 오히려 더 중요하다, 빠르고 좋은 durable한 의사결정이 AI 수혜의 전제다. 실측이 강하다 - 1년 전 수동 배포 주 약 6회가 현재 주 200400회로(headcount 2배 감안해도 2030배), 1월 초 25%가 Claude Code/Cursor 매일 사용에서 2월 말 100%(top-down 명령 없이)로, 거의 모든 PR을 하네스가 1차 작성한다. AB180 Airbridge는 Alert 시스템을 IaC로 표준화하고 LLM으로 자연어를 YAML Alert 초안으로 만든다(Runbook 97개).
YAGNI 재해석 - 코드 생성이 무료여도 유효한 이유 (Kent Beck)
Kent Beck은 YAGNI가 "코드 작성이 비싸니 안 쓸 코드는 짓지 마라"는 절약 규칙이 아니라 speculative structure(기능 도착 전 미리 짓는 구조)의 비용에 관한 "타이밍의 명상"이라 재정의했다. 두 청구서가 온다. optionality - 미리 지으면 추측에 커밋해 "알게 된 뒤 올바른 구조를 지을 옵션"을 만기 전에 소진하므로 추측이 맞아도 손해다. NPV - 비용을 당기고 수익을 미루므로 discounting이 상관하지 않는다. 핵심은 두 청구서 어디에도 타이핑 비용이 없다는 것 - LLM이 speculative structure를 공짜로 만들어줘도 두 비용은 그대로이고 오히려 위반이 싸져 더 나쁘다. YAGNI는 절약이 아니라 가격 이론이라 살아남는다.
성능향상이 임팩트가 없는 3가지 제약
"10배 빠름"이 기대만큼 임팩트를 못 내는 세 이유. attention threshold - 인간 주의 한계는 약 10초(Miller 1968)라 5분을 30초로 줄여도 둘 다 10초를 넘으면 사용자는 컨텍스트 스위칭한다. "하나에서 둘로 가기" - 이동+작업 8시간 로지스틱스에 묶이면 각 작업을 임계(4시간) 아래로 못 낮추는 한 효율 이득이 성과로 안 이어진다. 파이프라인 backpressure - 병목이 여럿이면 마지막 병목까지 제거해야 end-to-end 처리량이 오른다.
AI 경제성 - Compute-adjusted LTV
GeekNews · Compute-adjusted LTV
AI 제품은 같은 구독료라도 inference 소비가 크게 달라 전통 SaaS gross margin 가정이 붕괴한다는 CFO 관점 글이다. ICONIQ(2026.1)상 scaling-stage AI B2B에서 model inference가 매출의 평균 23%, AI 제품 gross margin은 2026년 약 52%(2024년 41%). Jellyfish(2026.4, 개발자 12,000명) 분석에서 병합 PR당 비용이 최경량 $0.28에서 최중량 $89.32로 319배 편차를 보였다. Compute-Adjusted LTV = (AI 매출 - fully burdened AI COGS)/revenue churn으로, 예시에서 heavy user LTV:CAC 2.1배로 3:1 벤치마크에 미달했다.
Klorn - LLM을 load-bearing으로 두지 않기
인박스용 "어텐션 방화벽"으로, LLM이 tier를 고르지 않고 메일마다 confidence/senderTrust/reversibility/urgency 4개 feature만 0~1로 점수화하며 결정론적 규칙(tier-policy.ts)이 tier로 매핑한다. 이 분리에서 저렴한 모델이 이긴다 - gate set 50개에서 gemini-2.5-flash 88%(긴급 recall 100%)로 gpt-4o/gemini-2.5-pro(둘 다 82%)를 앞선다. LLM 다운 시 키워드 fallback으로 fail-open하고, 되돌릴 수 없는 3개 액션(send/delete/forward)은 confidence로 실행되지 않는 deterministic floor를 둔다.
비즈니스/시장/보안 신호
바이브코딩 실전 매출 - ArtCraft $2.5M, 발칸 $3.4K MRR, roofv.ai
Reddit · ArtCraft, Reddit · roofv.ai
세 사례가 "빌드보다 고객 이해/마케팅"이라는 동일 교훈으로 수렴했다. ArtCraft는 오픈소스 비디오 앱으로 5개월 만에 $2.5M을 냈는데, 저자는 "마케팅이 문제의 9할"이며 ByteDance/중국 연구자와 관계 맺어 필터 없는 unfiltered Seedance 2.0 접근을 제공한 게 성장의 결정타였다고 밝혔다. 발칸 개발자는 사이드프로젝트 월별 곡선을 공개($12->$3.4K MRR, 유료 251명, 발칸 평균 급여 1300-1500 EUR보다 많음). roofv.ai(비개발자)는 Fable 5로 베이스라인 후 Opus+Codex로 개선하며 지붕 이미지 학습데이터를 손으로 만들었고, "AI 코딩 도구의 저평가된 부분은 엔지니어 대체가 아니라 이상한 니치 도메인 지식을 가진 사람이 개발자가 생각조차 못 할 소프트웨어를 만들게 하는 것"이라 결론냈다.
AI가 바꾸는 산업/권력 구조 - SpaceX, Vizcom, EO Global
YouTube · SpaceX, YouTube · Vizcom(Chester Roh), YouTube · EO Global
세 인터뷰/발표가 거시 서사를 다뤘다. SpaceX는 XAI 인수 후 terawatt급 칩 프로젝트와 우주 AI 데이터센터 위성(peak 150kW = Nvidia GB300 랙급, 70m wingspan, 지연 3ms)을 공개했다 - AI 컴퓨트가 우주 태양광 harness를 처음으로 필요하게 만들었고, Starship 재사용으로 궤도 질량을 연 2,500톤에서 수백만 톤으로 늘린다. Vizcom(산업디자인 AI, 누적 약 $50M, Nat Friedman AI Grant 1기)의 Jordan Taylor는 "mission is moat" - 프론티어 모델이 스케치->3D 기능을 흉내 내도 전 과정 소유와 커뮤니티가 해자이고, GM은 디자인 사이클을 "몇 주->몇 시간"으로 줄였다. (표기 주의: 트랜스크립트에 "Fable 5"가 반복 등장하나 STT 오류로 의심돼 프론티어 모델 접근 중단 일화로 처리, 검증 필요.) EO Global에선 Snowflake CEO Ramaswamy가 ChatGPT를 "Google 정보 후계자"로 규정하고 Neva 실패에서 Snowflake AI(Cortex)를 건졌다 했고, Nebulock CEO는 "AI가 사이버 talent gap을 subscription으로 붕괴시켜 GPU 하나+두 사람이 기업을 타깃"하는 위협 모델(kill chain 앞 3~4단계 이미 AI 자동화, reconnaissance 비용 ~$0)을 제시했다.
한국 스타트업 성과 공개 - 제타, 래피드
Threads · rogscorp, Threads · latpeed
스캐터랩의 rogscorp가 AI 캐릭터 서비스 제타(Zeta)의 일본 매출을 처음으로 공개하기 시작했다(그간 언더독 감성을 위해 비공개, 구체 수치는 이미지에만 있어 미확인). 래피드(latpeed)는 26년 상반기 거래액 150억 원, 크리에이터 1만 3천 명을 공개했다.
AX 실무 - 보고서 대신 도구
and__yc는 AX 프로젝트 산출물을 '보고서'가 아니라 '도구'로 잡은 관점을 공유했다. 같은 회사 안에서 대표는 '의사결정', DT 조직은 '시스템 이식', 현업은 '내 업무가 어떻게 바뀌나'를 말하며 세 층위가 다른 언어로 회의하는데, 그 간극은 보고서로 못 메우니 도구로 푼다는 것이다.
소버린 AI - CHERRY-1.8B (한국 TeamSparta)
위 효율 섹션의 CHERRY는 한국 조직(스파르타 계열 TeamSparta)이 모든 학습 파라미터를 자체 학습으로 도출한 한국어 파운데이션 모델이라는 점에서 국내 AI 생태계 관점에서도 신호가 있다. 소버린 AI에서 연산 효율을 끌어올리는 세 축(선택적 토큰 감독, 깊이 압축+recurrent, 전문가 융합)의 통합 실증이다.
안전/프라이버시/거버넌스
안전정렬 취약성 - 중력적 되돌림, MARS, Self-Study
arXiv · 중력적 해석, arXiv · MARS, arXiv · Self-Study
세 논문이 정렬/안전의 다른 취약성을 다룬다. "파인튜닝 되돌림의 중력적 해석"(MBZUAI)은 무해한 데이터로만 파인튜닝해도 안전정렬이 지배적 행동 매니폴드로 되돌아감을 활성화공간 방향 벡터로 설명하고, 그 방향을 차단해 유해율을 19.0%->8.5%로 낮췄다(cross-task로 weight 업데이트는 거의 직교하나 표현 변위는 강하게 정렬). MARS(트렌토대)는 멀티모달 안전 데이터 없이 텍스트 refusal direction을 이미지/비디오로 전이(training-free)해 Qwen3-VL 비디오 jailbreak refusal을 데이터 없이 +59.4% 올리며 training-based SASA와 매칭/상회하고 utility를 보존했다. Self-Study 재고는 자기 생성 QA 학습이 "중립 preprocessing"이 아니라 증거 선택 편향+답변 hijacking이 있는 implicit policy임을 보이고(task conflict에서 큰 모델이 더 순응), keyword-regex sanitization으로 injection compliance를 88%->13%(retention 100%)로 낮췄다.
프라이버시 감사 - MADreMIA
각 출력을 다음 입력으로 넣는 iterative regeneration chain으로 멤버십 신호를 증폭한다. 암기된 훈련 샘플은 반복 재생성에서 coherence를 유지(느린 degradation)하고 비멤버는 빠르게 drift하는 비대칭을 이용해, OLMo-7B에서 Zlib baseline AUC 0.179를 0.868로 끌어올렸다(model/modality-agnostic inference-time add-on). Bayes 상한을 넘기는 게 아니라 fixed-statistic SNR을 개선한다고 정직하게 명시했다.
AI 거버넌스 유형론
공공 부문 AI 연구가 "AI"를 단일 범주로 뭉뚱그려 책임성/절차적 정의에 미치는 영향을 놓친다는 문제를, 5개 유형론(hand-coded/glass-box/black-box/general-purpose/agentic)으로 다뤘다. 2019-2025 고인용 논문 91편을 코딩한 결과 55%가 연구 대상 시스템을 미명세, 31%가 다른 시스템으로 동기 부여, 41%가 증거보다 일반적 결론을 냈다. EU AI Act가 general-purpose AI에 대응해 개정된 것처럼 유형 구분이 정책 결과를 낳는다.
XAI를 연합학습 성능에 - FedXDS
설명가능 AI를 투명성이 아니라 연합학습 성능 향상에 쓴 첫 사례다(Fraunhofer). propagation 기반 어트리뷰션으로 단일 backward pass만에 태스크 관련 특징을 찾아 클라이언트 간 공유할 데이터 요소만 선택하고, metric privacy로 태스크 관련 영역만 보호해 이질성과 프라이버시를 동시에 해결했다(membership inference/feature inversion 공격에 강건).
기타 주목할 콘텐츠
- NVIDIA BioNeMo/Evo 2 등은 Claude Science 항목에서 연결. NotebookLM 60초 세로 영상 등 소소한 도구 소식은 별도 승격하지 않음.
- Google copybara(저장소 간 코드 변환 사내 도구, 기밀/공개 레포 동기화, stateless)와 Windflow(AI 페르소나로 실제 방문자처럼 브라우저 테스트하는 SaaS), ArmSoM Sige7(RK3588 NPU 6 TOPS 저전력 홈 NVR, YOLO/번호판 OCR)는 실무 도구 신호로 기록해 둔다.
- AI 1:1 원어민 튜터 프롬프트(GeekNews Show GN, 5대 훈련 모드, copyleft GitHub 배포)는 비개발자용 프롬프트 배포 사례로 교육 콘텐츠 관점 참고.
교차 분석
서로 다른 섹션이 같은 현상을 다른 각도에서 보는 지점들이다.
-
"에이전트를 반복 팬아웃으로 돌린다"가 SNS 담론에서 논문 수치까지 관통한다. Andrew Ng의 "Loop engineering"(SNS), LangChain dynamic subagents 6패턴과 STORM(YouTube), pi-subagents/Go Micro 하네스(뉴스)가 같은 방법론을 다루고, 그 신뢰성 한계는 논문이 정량화한다 - 검증 지연이 다중 에이전트 믿음을 진동시키고(역황금비 임계), MECoBench가 협업 팀 크기의 inverted-U와 hallucinated completion(-73.7% SR)을 보인다. 사용자 환경 rules의 "fan-out 8~12개 배치" 권고와도 맞물린다.
-
"에이전트가 자기 무능을 아는가"가 벤치마크/SNS/논문에 동시에 걸린다. OSWorld 2.0의 '추측 대신 묻기 실패', Agentic Abstention의 '언제 멈출지 모름', RLMF의 '자기 confidence 충실 표현', SWE-Together의 'User Correction과 능력의 음의 상관'이 하나의 메타인지 서사를 이룬다. Sonnet 5의 effort별 품질 편차(High만 안정)도 같은 결 - 모델이 언제 더 생각해야 하는지가 실사용 품질을 가른다.
-
"규모가 답이 아니다"가 반복된다. SearchCast(모델 키우지 말고 전처리 튜닝), STEB(소형 인코더가 GPT-5.2를 750배 적은 FLOPs로), CHERRY(토큰 15%만 감독), Drop-Then-Recovery(VLA 언어 백본 절반 잘라도 성능↑), 루마니아 RE(31B가 250배 작은 인코더와 통계적 동급)가 서로 다른 도메인에서 같은 회의론을 낸다. GR2의 "1.7B가 32B 이득 82% 회복"과 Klorn의 "flash 88% > gpt-4o 82%"도 저비용 실용주의로 이어진다.
-
"검증기 수용 != 실제 능력"이라는 지표 회의론. AxDafny의 '검증 성공했으나 TLE로 실행 실패', Arena-T2I의 '아레나 미학 순위가 faithfulness를 예측 못함', RCT의 'frame-random 점수가 near-duplicate 누출로 17.7pp 과대평가', Video-MME-Logical의 '최종답이 중간상태 실패를 은폐'가 모두 겉보기 지표를 경계하라 말한다.
-
Anthropic 신뢰 이슈의 두 얼굴. 공식 발표(Fable 5 안전장치 99% 차단 분류기, jailbreak 심각도 프레임워크)와 미검증 논란(스파이웨어 의혹, 스테가노그래피 마커)이 같은 날 돌았다. 후자는 모두 미검증/저자 주장으로, "코딩, 에이전트 도구를 어디까지 믿을 것인가"라는 질문을 MCP 보안 체크리스트, Klorn의 load-bearing 회피와 함께 던진다.
Powered by skim