Daily Digest - 2026-06-26

2026-06-26

에이전트가 Slack 팀원과 사내 출력 토큰의 99.8%로 조직 업무에 들어오고, 코드 작성이 아니라 검증·루프가 병목이 된 날 - 그 옆에서 자체 추론 칩과 sub-1nm 칩, 모델 출시의 정부 통제, 에이전트 평가·신뢰 연구가 한꺼번에 쏟아졌다

Daily Digest - 2026-06-26

오늘의 핵심 흐름

오늘 수집한 콘텐츠는 다섯 갈래 큰 흐름으로 모인다.

에이전트가 "개인 1:1 채팅"에서 "조직의 기본 업무 인터페이스"로 넘어갔다. Anthropic은 Slack에 @태그로 부르는 팀 공유 에이전트 Claude Tag를 내놓으며 사내 제품팀 코드의 65%가 이미 이 방식으로 생성된다고 밝혔고, OpenAI는 사내 주간 출력 토큰의 99.8%가 Codex에서 나오고 비개발자 사용이 1년 새 개인 137배로 늘었다는 경제 연구를 냈다. "Code as Agent Harness" 102페이지 서베이가 이 흐름의 이론을, Hacker News 18년 트렌드 시각화가 데이터(openai→anthropic 리드 역전, Cursor→Claude Code→Codex)를 댄다. -> 에이전트가 조직 전반의 업무 인터페이스로
코드 에이전트의 무게중심이 "코드 작성"에서 "검증·루프·머지"로 옮겨갔다. AI Jason의 loop engineer(프롬프트 대신 자율 루프 설계)와 CrabBox(병렬 에이전트 검증 샌드박스), Nate Herk의 4대 업그레이드(아첨 차단·검증 루프·컨텍스트 관리·서브에이전트), Opus가 451개 서브에이전트를 spawn한 실측이 모두 "에이전트가 늘면 작성이 아니라 검증이 병목"이라는 같은 진단을 각도만 달리해 푼다. 연구 쪽에서도 progress advantage, plans don't persist, Tool Suppression이 같은 문제를 정량화한다. -> Claude Code 실전, 연구 레이더
모델 경쟁이 칩·냉각·전력 같은 물리 인프라 효율 경쟁으로 내려갔다. OpenAI 첫 자체 추론 칩 Jalapeño, IBM sub-1nm 나노스택 3D 칩, NVIDIA Rubin 45°C 100% 액침 냉각이 한 주에 연달아 나왔다. 그 옆에서 AI 매출 1년 1,100억 달러(인터넷·모바일比 3배 성장)와 "GPU 6년 수명을 가정해야 데이터센터 투자비를 겨우 회수"라는 경제성 단서가 거품 논쟁을 숫자로 끌어냈다. -> 모델 경제성·하드웨어·인프라
모델 출시 자체가 정책 마찰의 대상이 됐다. 트럼프 행정부가 OpenAI에 GPT 5.6 출시 보류를 요청(사실상 라이선스 규제)하고, Anthropic은 알리바바의 Claude 무단 distill(45일 2,880만 회)을 상원에 신고했다. 로컬 LLM 진영은 이 흐름을 "그래서 로컬을 돌려야 한다"는 논거로 흡수하고, Apple은 로컬 AI용 M7을 앞당긴다는 보도가 나왔다. -> Anthropic·OpenAI 생태계와 정책 마찰, 로컬·오픈 AI와 온디바이스
연구는 "에이전트를 어떻게 평가·신뢰·학습시킬까"와 "효율·생성·멀티모달 한계 측정"으로 수렴한다. 학습 없이 RL 부산물로 스텝 보상을 뽑는 progress advantage, 시스템 지능을 비트로 재는 codelength, ERC-8004 신뢰 레이어 실증(등록의 3-15%만 진짜), 런타임 밖 안전 커널이 한 줄기를, KV-cache 압축·라벨프리 distillation·비디오/멀티모달 생성과 평가가 다른 줄기를 이룬다. -> 연구 레이더 4개 섹션

아래는 이 흐름들을 주제 클러스터로 풀어낸 본문이다.

에이전트가 조직 전반의 업무 인터페이스로

오늘 가장 무게 있는 묶음이다. Anthropic과 OpenAI가 각자 "에이전트가 전 직군의 1차 업무 도구가 됐다"는 같은 트렌드를 제품과 데이터로 동시에 밀었다.

Claude Tag - Slack 팀원으로 들어온 멀티플레이어 에이전트

GeekNews - anthropic.com / claude.com / X - ClaudeDevs

Anthropic이 Claude Tag를 공개했다. Slack 채널에 Claude를 팀원처럼 초대하고 선택한 채널·도구·데이터·코드베이스에 권한을 준 뒤, 채널 누구나 @Claude를 태그해 작업을 위임하는 방식이다. 기존 1:1 채팅과 달리 한 채널의 한 Claude가 전원과 협업하고 남이 남긴 맥락을 이어받는 "멀티플레이어" 모델이라, 누가 무엇을 시켰고 어디까지 갔는지를 팀 전체가 공유한다. 차별점은 네 가지다 - (1) 멀티플레이어, (2) 채널을 따라가며 맥락 축적(비공개 채널 내용은 보고 안 함), (3) ambient 모드로 먼저 알리고 멈춘 스레드를 후속 처리하는 능동성, (4) 수 시간~수일 자율 진행하는 비동기.

근거 수치가 강하다. Anthropic은 자사 제품팀 코드의 65%가 내부 버전 Claude Tag로 생성된다고 밝혔다. 접근 통제는 관리자가 채널별로 도구·정보 범위를 지정하는 방식이라 영업용 메모리가 엔지니어링용으로 새지 않고, 관리자는 채널별 토큰 한도와 전 작업 로그를 본다. Opus 4.8로 동작하며 Claude Enterprise·Team 베타로 당일 제공되고, 기존 "Claude in Slack" 앱을 대체한다(관리자 30일 내 옵트인 마이그레이션). 같은 날 X에서는 Claude for Sales(Origami, 도메인만 넣으면 한 번의 프롬프트로 수백 고객사 아웃리치), Claude Code 2.1.193(Bash/PowerShell이 auto-mode classifier로 셸 안전성 검사 후 거부 사유를 transcript·/permissions에 기록), 데스크톱 앱 권한 대기 표시(Status Bar v0.2.0)도 함께 나왔다.

OpenAI Codex, 비개발자로 번진다 - 사내 출력 토큰의 99.8%

OpenAI - openai.com / X - gdb(Greg Brockman)

OpenAI가 Codex의 경제적 영향을 측정한 연구를 냈다. 핵심은 지식노동의 단위가 "짧은 대화"에서 "위임하는 장기 과제"로 바뀌고 있다는 것이다. 2026년 5월 기준 개인 사용자의 80.6%가 사람 기준 30분 초과 작업을 한 번 이상 Codex에 맡겼고, 70.2%는 1시간, 25.6%는 8시간 초과 작업을 요청했다. 사내 99퍼센타일 사용자는 하루 60시간 넘는 에이전트 턴을 여러 병렬 에이전트에 분산한다. 전사 주간 출력 토큰의 99.8%가 Codex에서 나오고, 평균 엔지니어는 99%, 평균 변호사·리크루터도 85% 이상을 Codex로 생성한다.

확산 주역은 비개발자다. 2025년 8월 대비 비개발자 주간 사용자가 개인 137배, 조직 189배, 사내 12배로 늘어 개발자 증가율을 앞질렀고, 부서별로는 Research 56배, 고객지원 32배, 엔지니어링 27배, Legal 13배다. 다만 Codex 전체 주간 활성 사용자는 500만 명으로 ChatGPT 9억 명에 비하면 작고, 비-AI 사용자는 "무엇에 쓸지"부터 막히는 온보딩 문제가 남는다. 같은 날 OpenAI 공동창업자 Greg Brockman(gdb)도 사내 에이전트 채택이 매우 빠르게 가속 중이라고 공유했다(1차 출처). 함께 돈 0xMovez의 "500달러 AI로 5만 달러짜리 마케팅팀, 40개 병렬 에이전트" 주장은 마스터클래스 홍보성이라 수치는 주장 수준으로 둔다.

Code as Agent Harness - 코드를 에이전트 실행 기반으로 본 102p 서베이

arXiv - Code as Agent Harness (UIUC·Meta·Stanford)

UIUC·Meta·Stanford 공동 연구진이 "코드를 최종 답이 아니라 추론·행동·환경 모델링·피드백 제어·검증을 잇는 통합 인프라 층으로 본다"는 102페이지 서베이를 냈다(450+ 인용, arXiv 2605.18747). 세 계층으로 분류한다 - Harness Interface(코드가 추론 트레이스·행동·API·시뮬레이터·테스트로 에이전트를 연결), Harness Mechanisms(계획·메모리·정적분석으로 실패를 죽은 길이 아닌 수리용 피드백으로 전환), Scaling(공유 코드 아티팩트로 매니저·코더·리뷰어·테스터 다중 에이전트가 한 저장소에서 협업). "하네스 엔지니어링이 진짜 어려운 부분"이라는 주장은 위 두 제품의 실무 흐름에 곧장 닿는다.

Hacker News 18년 트렌드 - 담론 주도권 이동

Hacker News - hackernewstrends.com

hackernewstrends.com이 4,500만 개 HN 글·댓글에 대해 임의 주제 언급 빈도를 시계열로 겹쳐 보여주는 도구를 공개했다(Upstash Redis Search 기반). openai vs anthropic은 2023년부터 OpenAI가 앞섰으나 2026년 Anthropic 급등으로 리드가 역전됐고, AI 코딩 도구 주도권은 2024년 말 Cursor → 2025년 중 Claude Code → 2026년 초 Codex로 이어졌다. deno vs bun은 2023부터 Bun, webpack vs vite는 2022부터 Vite. 위 세 항목이 같은 방향(Anthropic·Codex 쪽 이동)을 가리키는 것이 데이터로 확인된다.

Claude Code 실전 - 운전법, 검증, 자율 루프

"에이전트가 늘면 병목은 코드 작성이 아니라 검증·머지·학습"이라는 한 진단을, 여러 영상·실측이 각자 각도로 푼다.

모델 탓 말고 운전을 배워라

Reddit - r/ClaudeCode

새 모델(Fable)이 나오면 구 모델(Opus)이 갑자기 쓰레기가 되는 게 아니라, 모델을 바꾸며 일주일간 본인도 모르게 프롬프트를 더 잘 쓰게 된 것뿐이라는 반박. 세 처방이 명확하다 - (1) 빈 세션에 모호한 요청 대신 파일·제약·시도한 것·컨벤션을 줘라(잘 쓴 CLAUDE.md 하나가 모델 업그레이드보다 출력 품질에 더 기여한다), (2) 기능 전체를 원샷으로 말고 plan을 먼저 시켜 검토 후 빌드, (3) 테스트 실행·엔드포인트 호출·실제 에러 읽기로 자가 검증 루프를 줘라. "Opus는 멍청하다"는 글의 절반은 검증 기회 없이 첫 추측만 보고 판단한 것이라는 진단이 날카롭다.

수익화 4대 업그레이드 (Nate Herk)

YouTube - Nate Herk

Claude는 "생산적인 기분"이 들게 튜닝됐지 "돈을 벌게" 튜닝되지 않았다는 전제로 4가지 업그레이드를 데모한다. (1) roast 스킬 - 아첨(sycophancy)을 깨려고 5개 페르소나 council(치명적 결함만 보는 contrarian, 상승 여력의 expansionist, 순수 논리 first-principles, 시장가를 웹에서 끌어오는 deep researcher, 고객 역할극 buyer)+judge가 green light/reshape/kill 판정. 근거로 ELEPHANT 연구(AI가 프레이밍에 반박 안 하는 비율 88% vs 인간 60%)를 든다. (2) 검증 루프 - NYU 연구(Copilot 생성 코드 약 40% 보안 취약점)를 인용하고, "이메일 다 보냈다"는 거짓 보고(실제 25%만)를 겪은 뒤 Playwright CLI로 빌드 직후 직접 검증·폼 스트레스 테스트. (3) 컨텍스트 관리 - context rot 연구(상위 18개 모델이 대화 길어지면 성능 저하)를 들어 /context·/clear와 커스텀 session handoff 스킬로 1M 윈도우에서 250k 넘으면 새 세션. (4) 서브에이전트+/goal - Anthropic이 리드+병렬 서브에이전트가 단일 대비 내부 리서치 평가 90%+ 우위였다고 인용, /goal은 별도 evaluator 모델이 매 턴 done 여부를 채점(worker와 judge 분리). 6개 서브에이전트가 go-to-market 키트를 8분에 완성했다.

Loop Engineer - 프롬프트하지 말고 루프를 설계하라

YouTube - AI Jason

더 이상 코딩 에이전트를 프롬프트하지 말고, 에이전트를 자동으로 프롬프트하는 루프를 설계하라는 개념. 발표자 팀은 새벽 1시에 여러 루프가 자동으로 이슈를 찾아 PR을 올리고, SEO 루프는 본인 개입 없이 매일 20~40개 페이지를 만든다고 한다. 용어 정리 - prompt engineering(2023, 단일 task) → context engineering/skill(2024) → loop engineer(2025말, 더 길고 cross-session한 task). compound의 비밀은 공유 파일시스템이다 - support loop(30분마다)·SEO loop(매일 9am)·ads loop가 같은 "signals" 폴더(공유 brain)를 읽고 써서, ads가 찾은 키워드가 SEO로 피드백된다. 시작 4요소는 트리거(cron/에이전트/웹훅), 파일 구조, 도구/커넥터, 병렬·자율 코드베이스(legible/executable/verifiable)다. 핵심은 "에이전트가 자기 일을 self-verify하게 하지 말고 read-only verifier 에이전트를 detail spec과 함께 spawn하라". 파일 추상화 3종(artifacts/contract/logs)과 "loop engineer setup" 스킬을 무료 공개했다.

CrabBox - 병렬 에이전트 검증 샌드박스

YouTube - AI Jason

OpenClaw 저자 Peter Steinberg의 신규 오픈소스 CrabBox를 소개한다. 한 번에 최소 10개(Peter는 15개+) 세션을 병렬로 돌리면 병목이 "코드 작성"에서 "코드를 코드베이스에 머지"로 옮겨가는데, 병렬 에이전트가 동시에 DB 스키마를 바꾸거나 테스트하면 충돌한다(work tree는 코드만 격리, 로컬은 포트·Docker daemon·DB를 공유). CrabBox는 클라우드 박스를 warm up하고 로컬 work tree의 dirty diff를 commit 없이 SSH로 동기화해 실시간 테스트한다(crabbox warm up/run/stopbox, git init만 있으면 됨). 각 에이전트가 자기 샌드박스(DB 포함)를 소유해 서로 영향이 없다. Dockerfile + crabbox.yml + setup.sh로 구성하고, 데모는 기동 빠른 Daytona를 프로바이더로 Playwright CLI E2E 후 스크린샷·영상 증거를 PR에 인라인 코멘트로 붙인다. loop engineer(위)와 한 세트인 검증 인프라다.

Opus가 451개 서브에이전트 spawn, 5시간에 14M 토큰

Reddit - r/ClaudeAI

개인 Pro를 18개월 쓰던 사용자가 회사 enterprise 라이선스를 받자, Opus를 오케스트레이터로 451개 Sonnet 서브에이전트를 풀어 5시간 단일 세션에서 토큰 1,400만 어치를 소진했는데도 한도에 안 걸렸다는 보고다. 용도는 데이터 어노테이션 - 병렬화 가능한 단순 반복 작업에 서브에이전트 수백 개를 붙이는 패턴이다. 커뮤니티 반응은 "enterprise 티어의 헤드룸"과 "절제 없는 fan-out의 효율 논쟁"으로 갈렸다.

Netflix iOS 앱이 CLAUDE.md를 빌드에 실수로 포함해 배포

Reddit - r/cursor

Netflix iOS 앱 번들에 CLAUDE.md(Claude Code 프로젝트 지침 파일)가 실수로 포함된 채 배포된 걸 발견했다. ijustvibecodedthis.com이 이런 유출 claude.md를 모으는 디렉토리까지 운영 중이다. 실무 교훈은 빌드 산출물에서 AI 지침 파일을 제외하는 게 새로운 위생 항목이 됐다는 점이다.

AI 비즈니스 적용과 콘텐츠 자동화

Claude Code가 코딩 도구를 넘어 비개발자의 비즈니스 빌드·수익화 플랫폼으로 쓰이고, 그 반대편에서 콘텐츠 제작의 진짜 병목이 어디인지가 드러난다.

Claude Code "AIOS"로 럭셔리 트래블 사업 5일 메이크오버 (Liam Ottley)

YouTube - Liam Ottley

AI 컨설턴트 Liam Ottley가 친구 Tom의 럭셔리 트래블 사업(트립당 5만10만 달러)을 5일간 메이크오버한다. 데이터가 Typeform·Drive·Sheets CRM·인스타 저장에 흩어진 번아웃 상태였다. 진단은 "AI는 케이크 위 체리일 뿐, 먼저 기능하는 데이터 레이어(CRM)를 깔라". 핵심 도구는 Claude Code 기반 AIOS(AI Operating System, 폴더 구조+컨텍스트+도구 연결)다. 산출물 - 'Reels machine'(인스타 릴 URL→3분 만에 B-roll 매칭 3개 변형 릴), ops 대시보드(트립·6개월 매출·거래 대사), 그리고 트립 제안서를 Canva→PDF 67시간 작업 대신 Claude Code 단일 페이지 웹사이트로 원샷 대체(처음엔 Canva MCP로 시도했으나 프리미엄 브랜드 디자인 정확도가 안 나옴). 핵심 교훈은 "같은 도구·워크플로 그대로 두고 AI만 시키지 말고 first-principles로 프로세스를 재설계하라"이다.

Claude 기반 영상 편집 도구 다발 - Palmier, OpenMontage

Threads - unclejobs.ai

Claude가 영상 컷을 사람 대신 직접 수행하는 도구들이 잇따랐다. unclejobs.ai는 Claude가 타임라인을 직접 자르고 붙이는 "자율 주행 편집기" Palmier를 소개한다(기존 AI 편집기가 "이렇게 잘라보면 어때요?" 제안에 그치고 실제 컷은 사람이 했던 것과 대비). qjc.ai는 오픈소스 OpenMontage를 소개하며, 이미 켜둔 Claude Code 안에서 리서치→대본→에셋→편집→렌더까지 처리하고 새 앱 설치가 0개라고 강조한다. 코딩 어시스턴트가 영상 제작 파이프라인으로 확장되는 흐름이다.

창업자 콘텐츠 번아웃 - 진짜 병목은 녹화 이후

Reddit - r/Entrepreneur

90초 영상 하나에 반나절이 든다고 시간을 직접 잰 글이다 - 무슨 말 할지 20분, 녹화 40분(더듬을 때마다 재시작), 편집 거의 2시간, 캡션·썸네일·리사이즈·업로드 30분. 핵심 통찰은 "병목이 아이디어가 아니라 아이디어와 게시 사이의 모든 것"이라는 점. 카메라 앞은 좋아하는데 후처리가 싫어 capcut 템플릿·argil 같은 AI 아바타 툴을 다 던져봤다. AI 영상 편집 자동화 툴의 시장 수요가 어디 있는지(아이디어가 아니라 후처리)를 명확히 짚는다.

스토리텔링 5단계 "환상의 신선함" (Kallaway)

YouTube - Kallaway Marketing

지루한 주제를 중독성 있게 만드는 프레임워크. 중독 콘텐츠는 relevant(내가 신경 쓰는가)/novel(처음 듣는가)/interesting(더 알고 싶은가) 세 질문에 모두 yes여야 하고, 핵심은 새로움이 없는 것에 "새로움의 환상"을 입히는 것. 5단계 - (1) new reveal + outcome mapping(옛 주제의 새 각도/프레임/이름), (2) contrast framing(기존 믿음과 대비해 재보정 유발), (3) urgency(선택적, recency bias), (4) bullseye proof(trust ladder, 시청자를 닮은 1:1 사례가 최상위), (5) protect the illusion("마스코트를 보여주지 마라" - 새 프레임이 사실 옛 개념이라 실토하지 말고, town crier 대신 비밀 알려주듯). 마지막에 "이 영상 자체가 그 실연이었다"고 4번째 벽을 깬다. 측정 도구로 본인의 sandcastles.ai(영상 분석, Claude MCP 플러그인)를 푸시한다.

콘텐츠를 매출로 - 주의 전환 퍼널 (Kallaway)

YouTube - Kallaway Marketing

위 영상의 자매편. 콘텐츠를 매출로 바꾸는 "attention conversion funnel" 4단계는 곱셈 관계라 하나라도 0이면 전체가 0이다. (1) bullseye signaling(시청자 머리에 "바로 그 문제/그것"이 떠야 구매 모드), (2) trust bank(가장 중요, 신뢰를 코인처럼 쌓는 8단계 trust ladder - 하단 제3자 통계 1코인부터 상단 아는 사람의 warm endorsement까지, 통증이 클수록 필요한 신뢰는 적다), (3) clear ramp(lead magnet/sales page/sales call, 콘텐츠 주제와 타이트하게 정렬), (4) aligned offer(price와 trust 두 레버로 리스크가 보상을 넘는 flip point를 넘기지 않기, 본인은 "30일 내 10배 리턴" 10x rule). 오퍼 설계는 Hormozi 《$100M Offers》를 골드 스탠다드로 추천한다.

인디 SaaS - 단순 기능도 큰 시장

Threads - exit_before_army

'해외 SaaS 뜯어보기 9탄'으로, SNS 포스팅 예약 도구 하나가 ARR 2,550만 달러를 만든다는 분석이다. SNS 글은 올리는 데 시간이 거의 안 들고 무료인데도 게시물 예약 기능에 돈을 내는 시장이 이만큼 크다는 점을 의외 포인트로 든다. 1인 빌더·콘텐츠 자동화 관점의 참고 사례다.

AI에 기준 주입 + 교육·학습 도구

"AI가 매번 같은 판단을 하게 만드는 지침화"와 AI 교육/학습 큐레이션이 한 묶음으로 모인다. AI 교육을 다루는 입장에서 직접 연관도가 높다.

구글 design.md - AI 디자인 지침 파일

Threads - jh_aicafe

구글(google-labs-code)이 design.md를 공개했다. CLAUDE.md가 코딩 지침 파일이라면 design.md는 브랜드의 색상·폰트·여백·컴포넌트 같은 디자인 기준을 한 파일로 정리해 AI가 매번 같은 판단을 하게 만드는 디자인 지침서다. YAML로 토큰 값을 정의하고 그 값이 왜 필요한지를 문장으로 설명하는 구조이며, 공개 OSS로 이미 스타 16.5k를 넘겼다. 같은 흐름으로 beancurd.ai가 토스 느낌을 내는 Toss-Design-Skill을 공유했다. "사람마다 지시를 잘하는 능력에 의존하던 시대가 끝나간다"는 톤이다.

Gemini Study Notebooks - 진단 퀴즈 기반 코치

Threads - choi.openai

구글이 Gemini에 Study Notebooks를 추가했다. 강의 자료·필기·교재를 올리면 AI가 먼저 진단 퀴즈로 현재 실력을 파악하고, 부족한 부분에 맞춰 맞춤 학습·문제를 제공하며 진행을 자동 추적한다. NotebookLM과 연동해 플래시카드와 Video Overview까지 만든다. 교육 AI가 "질문하면 답을 주는 튜터"에서 "학습 계획을 세우고 부족한 부분을 관리하는 코치"로 이동하는 신호다.

Google Skills - AI 코스 3,000개 통합

Reddit - r/PromptEngineering

구글이 skills.google에 AI 코스·핸즈온 랩 약 3,000개를 묶었다(무료 티어 개발자 월 35 랩 크레딧, 전체 카탈로그 월 $29). 랩이 실제 Google Cloud 콘솔에서 Gemini Code Assist를 내장한 채 돈다. 실용 포인트는 "3,000개 옵션은 이틀이면 포기하니 직접 브라우징하지 말고 모델에게 학습 경로를 짜게 하라"는 프롬프트 패턴이다. 역할과 구체 목표를 넣으면 한 트랙(3-4개 랩/배지, 주 3시간)을 추천한다 - "Learn AI"는 죽이 되고 "Deploy ML models on Vertex AI"처럼 구체적이어야 진짜 플랜이 나온다.

LLM 판단 맹신 금지 - golden set 5단계

Reddit - r/LangChain

AI가 승인·거부·라우팅·랭킹·에스컬레이션·채점·모더레이션을 하면 그게 전부 "판단 호출"이며 측정 없이 맹신하면 놓친다는 운영 패턴. 5단계 - (1) 사람이 라벨링한 golden set을 엣지 케이스 위주로(사람끼리 갈리는 것도 측정), (2) 그걸로 프롬프트·모델·루브릭·리트리벌·임계값을 출시 전 실험, (3) prod에서 불일치 신호로 사람이 볼 케이스 플래깅, (4) 전문가에게 보내 golden set에 재투입, (5) GEPA 같은 프롬프트 최적화나 파인튜닝으로 판단자가 피드백 흡수. confidence 도구로 modaic.dev를 언급하되 "핵심은 사람이 봐야 한다는 신호를 갖는 것"이라고 도구 중립적이다. LLM-as-judge 표준 레시피로 인용하기 좋다.

Anthropic·OpenAI 생태계와 정책 마찰

모델 출시·데이터 활용·인물 평가·국내 채용이 같은 날 겹쳤다. 모델 배포 자체가 정부·경쟁·여론의 마찰점이 됐다.

알리바바의 Claude 무단 distill - Anthropic 상원 신고

Threads - jisang0914

중국 알리바바가 Claude에 45일간 2,880만 번 질의하며 가짜 계정 2만 5천 개를 동원했고, Anthropic이 이를 "회사 역사상 최대 도둑질"로 규정해 미국 상원에 신고했다는 게시물이다(Qwen 학습용 distill 의혹). 같은 알리바바가 별도로는 Playwright·Puppeteer 없이 JS 한 줄로 웹 UI를 자연어 제어하는 page-agent를 오픈소스로 공개해, 같은 회사발 정반대 소식(논란 vs 출시)이 동시에 돌았다. 폭로성 단문이라 신고 진행 상황은 1차 출처 확인이 필요하다.

트럼프 행정부의 모델 출시 통제

Reddit - r/OpenAI

The Information 보도를 인용해, 트럼프 행정부가 보안 우려로 OpenAI에 GPT 5.6의 일반 출시를 단계적으로 미루라 요청했고 상무장관 Lutnick이 Altman에게 직접 "승인 없이 launch하지 말라"고 통보했다는 내용이다. 작성자는 이를 "사실상의 라이선스 체제(de facto licensing regime)"로 규정한다. 앞서 Anthropic 모델도 셧다운됐다는 언급이 겹쳐 업계 전반의 규제 신호로 읽힌다. r/LocalLLaMA는 "미국 정부가 GPT 5.6을 받을 사람을 개별 승인한다"고 풍자하며 이를 로컬 추론 정당성 논거로 흡수했다. 단 원 보도는 The Information 단독·allegedly 단계라 미확인이다.

Anthropic 공동창업자 인터뷰 (Stanford)

YouTube - 비즈니스캔버스 B_ZCF

Anthropic 공동창업자(Dario의 형제, 영상엔 이름 미명시 - 확인 필요)의 스탠퍼드 인터뷰. 영문학 학위에 정치 경력으로 시작해 Stripe(당시 40명 규모)에서 약 6년, 2018년 OpenAI 합류, 2020년 12월 7명이 함께 OpenAI를 떠나 Anthropic 창업. "무언가로부터 도망친 게 아니라 안전·책임 가치를 전면에 둔 조직을 향해 달려간 것"이라며 PBC(public benefit corporation)로 법인화했다고 설명한다. AI와 일자리는 경제 인덱스상 현재 대체보다 보완에 가깝고 거의 유일한 대체 사례는 고객서비스라고 본다. 흥미로운 데이터로 개발도상국·글로벌사우스가 선진국보다 AI에 훨씬 낙관적("공정하게 만들 평등화 힘")이라는 점을 든다.

Reid Hoffman의 xAI 혹평

GeekNews - Fortune('Pioneers of AI' 팟캐스트)

Reid Hoffman(LinkedIn 창업자·Microsoft 이사 10년)이 팟캐스트에서 일론 머스크의 AI 사업을 강하게 비판했다 - "SpaceX는 AI 회사가 아니다(관련성을 돈으로 사는 것)", xAI는 파운데이션 모델 구축 면에서 "완전한 난장판(complete train wreck)". 근거로 xAI 창업자들이 전원 떠나 현재 "세 번째 재시작" 상태라 주장했다. 검증 가능한 수치가 아닌 인물 발언 중심이라 인용 성격으로 다룬다.

OpenAI 서울 채용 (FDE)

X - LearnerBR

오픈AI가 서울에서 FDE(Forward Deployed Engineer) 등 다수 포지션을 열었다. "see you soon, seoul!" 류 방한 신호도 함께 보였다. 국내 AI 인재 시장에 직접 영향을 주는 동향이다.

모델 경제성·하드웨어·인프라

모델 경쟁이 칩·냉각·전력·물 같은 물리 인프라 효율 경쟁으로 내려가고, 그 경제성이 거품 논쟁과 국내 시장 체감으로 이어진다.

OpenAI 첫 자체 추론 칩 'Jalapeño'

GeekNews - openai.com

OpenAI가 Broadcom과 공동 설계·제조한 첫 자체 추론 프로세서 Jalapeño를 공개했다. OpenAI 추론 시스템 고유 요구에 맞춰 설계됐고 자체 AI 모델이 칩 개발을 보조했으며, 아직 테스트 단계지만 초기 결과로 현행 SOTA 대비 와트당 성능이 유의미하게 좋다고 밝혔다. 추론 전용 설계라 프리트레이닝 같은 고부하는 여전히 Nvidia 의존 가능성이 높다(파트너십은 2025-10 공식 발표). 추론 비용은 AI 경제성의 핵심이라 작은 단가 절감도 손익에 크게 작용한다 - 자체 칩으로 스택을 더 내려가 비용을 통제하려는 시도다. SNS에서는 "커스텀 칩은 결국 락인 스토리"(모델·소프트웨어·칩을 다 소유하면 떠날 여력이 줄어든다)라는 비판도 함께 돌았다.

IBM sub-1nm 나노스택 3D 칩

Hacker News - newsroom.ibm.com

IBM이 세계 첫 sub-1나노미터 칩 기술을 공개했다. 0.7nm(7옹스트롬) 노드에서 손톱 크기에 트랜지스터 약 1,000억 개를 집적해 2021년 2nm 칩 대비 밀도가 거의 2배이고, 2nm 대비 성능 최대 +50% 또는 에너지효율 +70%를 제시한다(SRAM 40% 스케일링). 정체는 업계 첫 3차원 나노시트 기반 "나노스택"으로, 트랜지스터를 수직 적층하고 레이어마다 다른 물질 조합으로 성능·전력을 독립 최적화한다. 뉴욕 올버니에서 ASML High NA EUV로 진행하며 양산은 최단 5년 내 전망이다. 평면 미세화 대신 3D 적층으로 스케일링을 잇는 경로다.

NVIDIA Rubin 45°C 100% 액침 냉각

GeekNews - blogs.nvidia.com

NVIDIA가 Rubin 세대로 세계 첫 100% 액침 냉각(팬 없음)을 달성했다. 냉각수를 최대 45°C까지 올려 돌리는 것이 오히려 효율의 핵심이다(입수 45°C→출수 약 55°C, 물 75%+프로필렌글리콜 25%). 경제성이 분명하다 - 냉각은 역사적으로 데이터센터 전력의 최대 40%를 차지하고 칠러 온도 1도만 올려도 냉각 에너지비가 약 4% 절감되며, 50MW 시설은 액침 전환으로 연 400만 달러 이상 절감한다. 물 사용은 냉각탑 기반 MW당 연 약 260만 갤런에서 거의 0(최대 100% 감축)으로 떨어진다. 완전 액침은 밀도가 높아 6U 시스템이 2U에 들어가고 팬 소음 85dB+가 사라진다. Rubin이 이를 통합하면서 채택 사업자 전반이 전환을 강제받는 표준화 신호이기도 하다.

AI 경제 1년 1,100억 달러 (Exponential View)

Threads - choi.openai

Exponential View의 'State of the AI Economy'를 정리한 글. 지난 1년 AI 매출이 바닥부터 쌓아 1,100억 달러이고 인터넷·모바일 도입기보다 3배 빠른 성장이라 수요는 실재한다는 게 한 축이다. 그러나 이 매출이 데이터센터 투자비를 "겨우" 회수하는 수준이고, 그것도 GPU 수명을 6년으로 늘려 잡아야 성립한다는 단서가 다른 축이다. 연관으로 Bencera는 Uber의 한 달 Anthropic 청구액이 5억 달러였고 본인은 100만 달러를 넘겨 직접 GPU를 빌려 오픈소스로 전환해 "100배 저렴"해졌다고 주장한다 - 수요는 진짜인데 인프라 경제성은 빠듯하다는 양면이다.

애플 하드웨어 전 라인 가격 인상

Threads - kudokun_

애플이 아이폰을 제외한 사실상 전 하드웨어 라인 가격을 인상한다는 소식이다. 게시물 예시는 맥북 네오 99만→119만, 맥북 에어 179만→219만, 맥북 프로 269만→329만, 아이패드 프로 159만→199만, 아이패드 52.9만→74.9만, 아이패드 미니 74.9만→99.9만, 애플 TV 4K 21.9만→35.9만 원이다. 발표 직후 인상 전 구매를 권하는 글들이 이어졌다. 공식성·환율 반영분은 검증이 필요하다.

SK하이닉스 나스닥 상장 + AI/DT 채용

Threads - cheonhaengseon

SK하이닉스가 7월 10일 미국 나스닥에 상장한다는 소식으로, 증권사 목표주가는 430만원까지 올랐으나 "숨은 조건"이 있다는 단서가 붙었다. 연관으로 SK하이닉스 AI/DT 경력 공고가 함께 돌았는데, "AI를 잘 아는 사람"이 아니라 반도체 P&T(패키징·검사·모듈화·품질검증) 현장 문제를 AI로 서비스화할 사람을 찾고 키워드는 AI Agent 설계·개발, RAG·파인튜닝, 현장 시스템 연동이다. 상장 일정·목표주가는 검증이 필요하다.

로컬·오픈 AI와 온디바이스

"클라우드 의존을 줄이고 통제권을 가진다"는 정서가 한 묶음으로 모인다. 정부 규제·출시 통제 흐름이 이 진영의 정당성 논거로 직접 쓰인다.

HF 라이브 - 로컬/오픈 AI 온보딩 (llama.cpp, GGUF, 양자화)

YouTube - Hugging Face

Ben이 진행하고 Daniel Han(Unsloth/GGUF 메인테이너), Ona, Merve Noyan이 패널로 나온 온보딩 라이브. 핵심 메시지는 "오픈 모델이 이제 충분히 좋고 기술 지식 없이도 쓸 만큼 쉬워졌다"이다. GLM 5.2가 프런티어급에 근접하고, 오픈 모델은 중국(GLM·Qwen)뿐 아니라 Google·Meta·Allen AI·Mistral·Swiss AI 등 전 세계에서 나온다. 용어 구분 - 오픈 웨이트(weights 다운로드) vs 오픈소스(데이터·코드 전체 공개), 대부분 우리가 쓰는 건 오픈 웨이트다. llama.cpp는 단일 진입점 바이너리로 정리됐다(llama.serve OpenAI 호환 서버, llama.CLI, llama.quantize)며 GGUF 포맷에 의존한다. 실전 권장은 대부분 작업은 Gemma 4 E4B·Qwen 3.6 양자화(MoE)로 MacBook에서 잘 돌고, long-horizon에서 헤매면 GLM 5.2 같은 큰 모델을 인퍼런스 프로바이더로 쓰라는 것이다.

Apple M7 조기 출시 추진 (로컬 AI용)

Reddit - r/LocalLLaMA

Apple이 M6 Pro/Max를 건너뛰고 로컬 AI에 최적화된 M7을 앞당겨 낸다는 보도다. 온디바이스 추론을 칩 전략의 우선순위로 끌어올렸다는 신호로 받아들여진다. 같은 날 r/LocalLLM에는 M1 Ultra·M4 Max 128GB에서 Qwen3.6-27b가 양쪽 다 15t/s밖에 안 나온다는 성능 불만이 올라와, 현 세대 추론 속도 아쉬움이 M7 기대와 맞물린다. 보도 단계라 사양은 확정이 아니다.

무료·로컬 유틸리티 - Unlimited-OCR, Aside, Workspace CLI

Threads - dailyaionly

무료·로컬 지향 도구가 함께 돌았다. Unlimited-OCR는 벤치마크 93%·긴 문서도 동일 속도·무료를 강조한다(벤치 종류는 미상, 검증 필요). AI 브라우저 Aside는 "ChatGPT Atlas 대체" 호평을 얻으며 ultraresearch 활용 팁이 붙었다(Atlas 비교는 검증 필요). Google Workspace 공식 조직은 터미널 하나로 Gmail·Drive·Calendar·Sheets를 제어하는 Rust 기반 오픈소스 CLI(AI 에이전트 연동 기본 탑재)를 공개해, 기존 Workspace CLI 워크플로의 공식 비교 대상이 됐다.

과학·창작 AI 응용

AI/ML의 과학 발견과 오픈 창작 모델이 응용·창작 축을 채운다.

헤르쿨라네움 두루마리 2000년 만에 통째로 해독

scrollprize.org - Vesuvius Challenge

Vesuvius Challenge 팀이 서기 79년 베수비오 분화로 봉인된 파피루스 PHerc. 1667을 물리적으로 펴지 않고 처음부터 끝까지 해독했다. 탄화 두루마리를 고해상도 X선으로 스캔(그르노블 ESRF BM18 빔라인, 위상대조 마이크로토모그래피)해 내부 시트를 재구성하고 머신러닝으로 희미한 잉크를 끌어냈다. 복원 본문은 윤리에 관한 스토아 논고로 추정되며, 마지막 칼럼에 Chrysippus의 조카·제자 Aristocreon이 나와 기원전 2세기 맥락에 놓인다(약 22개 칼럼). 신뢰성은 두 두루마리로 보강됐다 - PHerc. Paris 4는 2023년 Grand Prize 해독과 1:1 일치, PHerc. 139는 본문을 읽기 전 제목·저자(Philodemus, 'On Gods' Book 8)를 복원했다. 데이터·재구성·전사는 CC 라이선스, 코드는 GitHub 공개. 봉인된 고대 도서관 전체로 확장 가능한 검증된 오픈 사이언스 파이프라인이라는 점이 핵심이다.

Krea 2 - 오픈 가중치 12B 이미지 모델

GeekNews - krea.ai

Krea가 12B 파라미터 이미지 파운데이션 모델 Krea 2의 기술 보고서를 내고 가중치·추론 코드를 permissive 라이선스로 공개했다. 많은 시스템이 신뢰성을 좇다 좁은 기본 미감으로 수렴하는 문제의식 아래, 폭넓은 미적 다양성과 창작 제어를 동시에 노린 모델로 위치시킨다. 광범위한 세계 지식·스타일 커버리지를 위해 대규모 데이터 인프라와 분산 학습 프레임워크를 from scratch로 구축했고, 이미지 생성을 "탐색적 매체"로 보아 여러 미감 사이를 항해할 수 있게 제어 가능성을 강조한다.

연구 레이더 - 효율화·추론 인프라

추론·학습 비용을 직접 공격하는 연구들이다.

KV-cache·압축·distillation 묶음

arXiv - Block-GTQ (RoPE-Aware KV Quantization)

장컨텍스트 추론의 메모리 병목인 KV-cache를 RoPE 구조를 반영해 압축하는 흐름이 가장 단단하다. Block-GTQ는 KV 양자화를 "벡터 압축"이 아니라 RoPE 주파수 블록별 비트 배분 문제로 재정의한다 - K2V2 Llama-3.1-8B의 NIAH 6태스크 평균을 70.6→97.4로 끌어올리고, 균일 baseline이 0.0으로 붕괴하는 AIME에서 51.7/37.5(fp16 54.2/37.9 근접)를 유지하며 KV 3.24배 압축에 128K에서 FlashAttention2 대비 1.34배 빠르다.

확산이 언어로도 확장된다. iLLaDA는 12T 토큰으로 학습한 8B 양방향 마스크 확산 LM으로 GSM8K 89.0(LLaDA 77.5), MMLU 74.8을 기록해 LLaDA·Dream을 앞서고 AR 모델 Qwen2.5 7B와 경쟁한다.

라벨·보상 없는 효율적 distillation 두 편도 함께 묶인다. ReNIO는 "오답 궤적이 정답보다 유용하다"는 비대칭을 활용해 정답 라벨 없이 부정 궤적을 재가중(수학 추론 Qwen3-1.7B +8.90%, R1-Distill-Qwen-7B +10.00%)하고, V-Zero는 긍정/부정 시각 증거 대조로 OPD를 게이팅해 라벨 없이 Qwen3.5-4B를 +3.1점 올리며 학습 비용을 5~~10배 절감한다. HiReLC는 Fisher 민감도 기반 계층형 RL로 pruning+quantization을 공동 탐색해 ViT/CNN에서 5.99~~6.72배 압축(정확도 -5.62%~+3.83%)을 달성한다. 프롬프트 비용 쪽에서는 Cavewoman이 "짧게 쓰면 싸진다"는 통념을 입력/출력 채널로 쪼개 정확도-비용-일치도로 측정하는 프로토콜을 제시한다(8모델×5데이터셋×5압축단계).

연구 레이더 - 에이전트 평가·신뢰·메모리

"모델 한 개"가 아니라 "시스템·워크플로"를 어떻게 평가·신뢰·학습시킬지가 공통 화두다.

에이전트 평가의 새 관점 - 공짜 신호와 비트 측정

arXiv - Progress Advantage for LLM Agents

에이전트용 프로세스 보상 모델(PRM)은 긴 호라이즌·되돌릴 수 없는 행동·확률적 피드백 탓에 만들기 가장 어렵다는 모순이 있었다. Progress Advantage는 RL 사후학습이 남긴 정책-레퍼런스 로그비가 확률적 환경에서도 최적 어드밴티지를 정확히 복원함을 증명해, 추가 학습·주석 0으로 best-of-N 선택·불확실성·실패추적을 동시에 잡는다(best-of-8 평균 Gemma4-4B 38.8%/Qwen3.5-9B 62.1%로 학습형 PRM·LLM-judge 상회, 5개 벤치마크·4개 모델 계열). 같은 결로 Agentic System as Compressor는 "압축=지능" 관점으로 시스템 기여를 비트(codelength)로 재, 5개 설정 전부에서 에이전트 구성요소가 codelength를 줄임을 보이며 성공률보다 세밀한 지표를 제안한다.

에이전트 메모리·컨텍스트·툴 콜

arXiv - Plans Don't Persist

에이전트가 커지며 드러나는 운영 실패·평가 공백을 다룬 묶음이다. Plans Don't Persist는 LLM 에이전트가 계획을 내부 상태로 들고 가지 않고 컨텍스트에 의존함을 측정한다 - 계획 신호가 한 액션-관찰 스텝 만에 4.1배(HotpotQA 12.4배) 감소하고, 단순 plan eviction이 ALFWorld 성공률을 34.7%p 떨어뜨린다(컨텍스트 관리는 부수 기능이 아니라 핵심). Are We Ready for an Agent-Native Memory System?은 에이전트 메모리를 F1/BLEU가 아니라 저장·검색·갱신·통합·생명주기로 분해 평가하자는 제언이다. 툴 콜 안전 두 편 - Tool Suppression은 JSON Schema 제약과 툴 콜을 같이 켜면 오픈웨이트 모델이 스키마는 지키되 툴 호출을 멈추는 재현 가능 현상이고, ToolPrivBench는 저권한으로 충분한데 고권한 도구를 고르는 최소권한 위반을 측정한다.

에이전트 신뢰 인프라와 런타임 안전

arXiv - ERC-8004 실증 연구

자율 에이전트가 조직 경계를 넘어 거래하기 시작하며 "처음 만난 상대를 믿을 수 있나"가 문제가 됐다. ERC-8004(2026-01-29 이더리움 메인넷, 첫 permissionless 신뢰 레이어)를 3체인 전수 분석한 첫 실증 연구는 냉정하다 - 170k+ 등록 중 유효한 등록 파일·라이브 엔드포인트를 노출한 비율은 3%/4%/15%에 그쳤고, Sybil 의심 리뷰어가 73.6%/59.2%/90.6%이며 평판 조작 median 비용이 센트 단위($0.055/$0.0042/$0.0027)라 "trustless" 레이어가 실제로는 신뢰 근거를 거의 못 준다. 반대로 Unfireable Safety Kernel은 통제를 에이전트 런타임 밖에 두는 Rust 안전 커널로, 자기수정 1,000회 중 안전핵심 공격 704건 전부 거부(탈출 0), 인가 라운드트립 6,240회 우회 0, 형식검증(Z3+Kani 4/4)까지 통과한 "실행시 AI 정렬"을 제안한다(Apache-2.0). WinDOM은 DOM에서 바운딩박스를 직접 읽은 54,425건 코퍼스 + self-distillation으로 2B GUI grounding 모델을 OOD +5.4점 올리며 모든 신호를 결정론적 point-in-box 체크로 감사 가능하게 했다.

연구 레이더 - 합성 데이터·학습 동역학

데이터 생성과 학습 순서·prior가 모델 한계를 가른다.

Autodata - 4B 모델이 397B baseline을 추월

arXiv - Autodata (FAIR at Meta)

프런티어 모델이 강해질수록 "충분히 어려운" 합성 데이터를 만들기 어려운데, Autodata는 AI 에이전트를 데이터 사이언티스트로 써 생성→분석→학습추출→재생성을 반복하고 에이전트 자체를 메타 최적화한다. weak/strong 구도로 "strong은 풀고 weak는 고전하는" 딱 맞는 난이도를 만든다 - CS에서는 너무 쉬움(gap 0.02→0.31), 법률에서는 너무 어려움(gap 0.56→0.42, weak 분산은 키워 학습 가능하게)이라는 정반대 실패를 같은 루프가 해결한다(평균 6.59 라운드). 다운스트림 RL에서 Qwen3.5-4B가 CS Agentic 테스트 0.366→0.632로 오르고, 법률 PRBench에서는 Agentic 데이터로 RL한 4B(0.441)가 추가 RL 없는 397B baseline(0.404)까지 넘어섰다. 추론 컴퓨트를 학습 데이터 품질로 전환하는 경로다.

학습 순서와 prior - ungrokking, action prior, FORCE

arXiv - Natural Ungrokking

학습 동역학·로보틱스에서 "순서와 prior"가 동시에 부각됐다. Natural Ungrokking은 11.5M 모델이 평범한 사전학습 도중 한번 습득한 대명사-성별 규칙을 손실 곡선 흔적 없이 0.94→거의 0으로 잃는 현상을 보인다 - 규칙 생존은 코퍼스 support frequency가 결정하고, counter-evidence로는 0.96→0.00까지 쉽게 파괴되나 support를 450배 재주입해도 복원은 안 되는 비대칭이다(Pythia 재현, 모든 예측 사전등록). 데이터 필터링·continual pretraining이 능력을 조용히 죽일 수 있다는 경고다. Action Priors for Cross-embodiment는 VLA의 action 모듈을 비전·언어 없이 모션 trajectory만으로 먼저 사전학습한 뒤 전이해, 13개 태스크 평균 55.3→68.0%, 실제 Franka 35.0→66.3%로 GR00T·pi0.5를 앞선다("먼저 움직이는 법을 배우고 그다음 보고 행동"). FORCE는 인간 개입 없는 3단계 VLA 강화학습 미세조정으로 실제 로봇 성공률을 45.0→98.3%(학습 32.5% 가속)까지 끌어올린다. 데이터 자체를 다루는 DO-ALL (HuggingFace)은 프라이버시/라이선스로 소스 데이터를 보관 못 하는 source-free 지속 테스트시 적응(CTTA)의 망각/불안정 문제를, 배포 전 소스셋을 소수의 합성 anchor로 1회 데이터셋 증류해 해결한다 - 기존 CTTA 알고리즘의 목적함수나 아키텍처를 바꾸지 않고 plug-and-play로 얹힌다.

연구 레이더 - 멀티모달·생성·평가

비디오/이미지 생성과 멀티모달 추론의 한계 측정이 함께 쏟아졌다. Wan 시리즈가 백본·평가대상·신규모델로 반복 등장해 오픈 비디오 연구의 중심축이 되고 있다.

비디오·이미지 생성

arXiv - Causal-rCM (스트리밍 영상 증류)

Causal-rCM은 teacher-forcing CM + self-forcing DMD를 forward/reverse divergence로 통합해, 2-step Wan2.1-1.3B가 12 step만으로 VBench-T2V 84.63을 기록하는 오픈 레시피다(dCM 대비 10배 빠른 수렴, Cosmos 3 인터랙티브 월드 모델 적용). DomainShuttle은 참조-비디오 분리(Domain-MoT/DualRoPE)+일관성 손실로 주제 기반 비디오에서 Cross-Domain Score 0.861(기존 최고 0.558, +18.7%)을 달성한다. TryOnCrafter는 렌더 가능한 4D 프록시로 카메라 궤적을 자유 제어하는 가상 착용(CaM-VVT)을 정의하고, Wan-Streamer는 언어·오디오·비디오를 단일 Transformer에서 인터리브 스트리밍하는 풀-듀플렉스 실시간 모델이다. 이미지 쪽 IV-CoT는 잠재 시각 사고 사슬로 구성적 프롬프트 따르기를 높이면서(GenEval 0.86→0.88) 단일 패스 속도를 유지해 명시적 방법 대비 915배 낮은 지연을 낸다.

멀티모달 추론과 평가

arXiv - TriViewBench

"단일 점수를 넘어서는 평가"가 반복 모티프다. TriViewBench는 통제된 합성 3뷰 추론에서 18개 MLLM이 복잡도가 오를수록 무너짐을 보인다 - Local Decision은 12% 하락에 그치나 Object Counting 59%, Global Recovery 80% 붕괴하고, CoT는 전체 이득이 거의 0(Δ=-0.16%)이며 사람 99.25% vs 최고 Gemini-2.5-Flash 79.55%로 격차가 크다(병목은 추론 전략이 아니라 교차뷰 공간 표현). 음성 쪽 SpeechEQ는 임상 EQ-i 2.0 기반 음성 LLM 감정지능 벤치마크로, Qwen3-Omni-30B가 SEQ 147로 최고지만 모든 모델이 텍스트 의존(modality shortcut)·감정 평탄화·멀티턴 기억 누수(1→2턴 8% 하락)를 보인다(사람 상관 ρ=0.943). Look Light, Think Heavy는 멀티모달 CoT가 추론엔 도움되나 시각 지각 부담이 큰 태스크엔 한계가 있음을, Beyond NL2Code는 시각 입력 기반 코드 생성을 4도메인으로 정리하며 검증 중심 4방향 어젠다를 제시한다. 응용·진단 벤치마크로 WATER(2M 합성 데이터셋으로 예술적 텍스트 인식 SOTA), PQSG(생성 영상의 물리 위반을 객체·행동 단위로 지역화), ShutterMuse(사후 크롭이 아닌 촬영 시점 구도·포즈 가이드), EBench(범용 로봇 매니퓰레이션을 26태스크·9차원으로 진단, "유사 성공률·상이한 능력")가 함께 나왔다.

연구 레이더 - 기타 (보안·게임·음성·NLP)

좁은 도메인이지만 실무 신호가 있는 연구들이다.

프라이버시·게임이론·멀티에이전트·보안 인간연구

arXiv - AMIA (Tabular FM 프라이버시)

AMIA는 "합성 사전학습=프라이버시 안전" 통념을 깬다 - tabular foundation model이 in-context로 받은 실제 레코드의 멤버십을 attention 집중 패턴으로 흘려, shadow-model 없는 공격이 신뢰도 기반 대비 평균 +7.7% 우위다(k-anonymity식 추론 시점 방어로 누출 50% 감소, 성능 저하 3.9%). Variable Bound Tightening은 NLCP 변수 경계 유도로 24시간 내 못 풀던 풀버전 3인 Kuhn poker 내시균형을 1.16초에 해결한다(Gambit logit 2분 34초 대비). MAGR-BB는 팀/목표 조건부 정책+분해 분기한정으로 멀티에이전트 목표 인식 가설 생성을 수십~수백 배 줄이면서 전수탐색과 동일 랭킹을 보존한다(정책 성공률 98.44%). Helpful or Harmful?는 LLM 보조 취약점 패치가 기능검사는 통과하나 보안은 안 고치는 "가짜 수정(F=1,S=0)"을 늘리는지 검증하는 인간 연구 프로토콜로, 숨은 Ghost Tests로 적발한다(현 단계는 프로토콜+파일럿, 효과 크기 미보고). SE-AGCNet은 음성향상+자동이득제어를 엔드투엔드로 공동 학습해 회의 음성의 목표 라우드니스(-23 LUFS)와 음질·ASR을 동시에 개선하고, HIPE-2026은 다언어 역사 문서에서 인물-장소 관계(at/isAt)를 추출하는 평가 캠페인이다(17팀, 40+ run, 정확도/효율/일반화 3중 평가). 해석가능성 쪽 Entropy Trajectory (HuggingFace)는 frozen LLM의 토큰별 예측 엔트로피를 logit lens로 레이어를 가로질러 분석해, 정적 통계(평균/분산)는 변별력이 거의 없지만 토큰 위치별 엔트로피 추세는 정보량이 크고 그 신호가 중간 레이어에 집중되고 최종 레이어에서 약화됨을 보인다 - 추가 학습 없이 Llama/Qwen/Gemma에서 탈옥(jailbreak) 의도를 일관되게 분리해낸다.

기타 주목할 콘텐츠

클러스터에 안 묶이는 개별 콘텐츠다.

Figma Motion 오픈베타 - 캔버스 내 타임라인

Threads - ur.future.ai

피그마가 디자인 파일 캔버스 안에서 바로 애니메이션을 만드는 모션 기능을 오픈베타로 공개했다(무료 플랜 가능). 기존엔 애프터이펙트로 빼서 만들고 다시 가져오는 왕복이 필요했는데, 이제 같은 파일에 타임라인이 생긴다. X에서 "FIGMA MOTION IS INSANE"이라며 4.5초 만에 데모를 만든 반응(좋아요 8,407)이 돌았다. 디자인·기획 직군 워크플로 단축이 핵심이다.

Deno 2.9 - `deno desktop`, Electron 없는 단일 바이너리 앱

deno.com - Deno 2.9

Deno 2.9의 헤드라인은 deno desktop이다. 스크립트나 웹 프레임워크 프로젝트를 가리키면 UI는 웹뷰에서, 로직은 Deno에서 도는 네이티브 데스크톱 앱을 단일 바이너리로 만든다(실험적, Electron 보일러플레이트 불필요). deno install이 npm·pnpm·yarn·Bun 락파일을 직접 읽어 런타임 전환 마찰을 낮추고, CSS 모듈 임포트·강화된 테스트 러너·Node.js 26 호환을 더했다. 웹 스택만으로 데스크톱 앱을 내는 Electron/Tauri 대안이다.

교차 분석

서로 다른 섹션이 같은 현상을 다른 각도로 본다.

"코드 작성이 아니라 검증이 병목"이 제품·실측·연구에서 동시에. CrabBox·loop engineer의 read-only verifier 분리(실전)와 progress advantage·Tool Suppression(연구)이 같은 문제를 푼다. Nate Herk의 /goal worker-judge 분리, "self-verify 금지"는 Unfireable Safety Kernel의 "통제를 에이전트 밖에 둬라"와 같은 철학을 다른 층위(워크플로 vs 시스템 아키텍처)에서 말한다.
에이전트 확산(제품)과 에이전트 신뢰 공백(연구)이 정확히 맞물린다. Claude Tag·Codex가 "조직 전반이 에이전트를 1차 도구로 쓴다"를 데이터로 보이는 같은 날, ERC-8004 실증(등록 3-15%만 진짜·리뷰어 60-91% Sybil)과 plans don't persist(34.7%p 하락)는 그 에이전트들을 신뢰·운영하는 기반이 아직 비어 있음을 보인다. 확산 속도와 신뢰 인프라의 격차가 오늘의 긴장이다.
AI 비용을 하드웨어 층에서 줄이려는 시도가 경제성 단서와 겹친다. Jalapeño(추론 칩)·IBM 0.7nm·Rubin 액침 냉각이 "물리 인프라 효율"을 미는 같은 날, Exponential View의 "1,100억 매출이 GPU 6년 수명을 가정해야 투자비를 겨우 회수"는 왜 그 효율 경쟁이 절박한지를 설명한다. 추론 단가의 작은 절감이 손익을 가르는 구조가 칩·냉각·전력으로 내려가는 동력이다.
모델 출시 통제(정책)가 로컬·오픈 진영의 정당성으로 직결. 트럼프 행정부의 GPT 5.6 보류·Anthropic 모델 셧다운은 r/LocalLLaMA에서 "그래서 로컬을 돌려야 한다"로 흡수되고, Apple M7·HF 로컬 온보딩·Workspace Rust CLI가 그 수요에 답한다. 규제와 온디바이스가 한 인과 사슬을 이룬다.
"느낌·동의 ≠ 정확"이 평가의 공통 경고. golden set 5단계(실전), TriViewBench의 CoT 무효(Δ=-0.16%), SpeechEQ의 modality shortcut이 모두 "표면 과제는 잘하나 본질 추론에서 무너지며 단순 스케일업·CoT로 안 풀린다"는 같은 진단의 사례다. Nate Herk의 ELEPHANT 88% 아첨 인용이 그 실무 버전이다.
데이터·학습 순서가 양면으로. Autodata는 "에이전트로 좋은 데이터를 만들어 4B가 397B를 이긴다"를, natural ungrokking은 "데이터 support를 얇게 하면 능력이 조용히 죽고 복원이 안 된다"를 보여, 합성 데이터의 기회와 데이터 필터링의 위험이 같은 사전학습 동역학의 양면임을 드러낸다.

Daily Digest - 2026-06-26