
GPT-4o 등장
새로운 플래그십 모델 'GPT-4 Omni'을 발표합니다. 이 모델은 음성, 이미지, 텍스트를 실시간으로 통합하여 추론할 수 있습니다.
This isn't just better chatbots — GPT-4o can literally see your screen, hear your frustration, and respond instantly without the awkward text-to-speech delays

Inception Labs가 Mercury 2를 출시했습니다. 이는 확산 모델(diffusion model) 기반의 언어 모델로, H100 GPU에서 초당 11,000 토큰이라는 놀라운 속도로 처리할 수 있습니다. 대부분의 대형 언어 모델(LLM)이 여전히 정확도를 우선시하는 반면, 이 접근 방식은 순수한 처리량을 추구합니다. DALL-E 같은 이미지 생성에 사용되는 확산 모델 기술을 텍스트 생성에 적용한 것으로, 추론 속도에 대한 우리의 생각을 근본적으로 바꿀 수 있습니다. 이것이 실용화되면 응답이 더 빨라지고, API 비용이 절감되며, 이전에는 불가능했던 실시간 애플리케이션이 가능해집니다. 팟캐스트에서 기술 세부사항과 프로덕션 환경에서의 중요성을 자세히 설명하고 있습니다.
테크 블로거 관점
누군가 다른 모든 LLM을 구식 다이얼업 인터넷처럼 보이게 만들어버렸어
Inception Labs가 어제 Mercury 2를 공개했는데, 숫자가 진짜 미쳤어 — H100 GPU에서 초당 11,000개 토큰. 비교하자면, 대부분의 실제 프로덕션 LLM은 초당 수백 개 토큰 정도로 기어가고 있어. 정확도는 최적화했는데 사용자들은 손가락으로 탁탁 두드리며 기다리고 있지. 근데 여기가 핵심이야: Mercury 2는 확산 모델을 써, DALL-E의 이미지 생성 기술이랑 같은 거. 근데 그걸 텍스트에 적용한 거야. 마치 누군가 AI 연구실에서 길을 잘못 들었다가 우연히 다들 무시하던 속도 문제를 풀어버린 거 같아. 만약 이게 실제 프로덕션 품질로 작동한다면 — 아직 큰 가정이지만 — 우린 실시간 AI 대화, 초저가 API 비용, 그리고 예전엔 '프로덕션에 너무 느렸던' AI 기능들이 갑자기 가능해지는 걸 보게 될 거야. 추론 비용 방정식이 완전히 뒤집혔어.
Action
馬上試用Waiting 3-5 seconds for your LLM to generate a paragraph while users get impatient and API costs pile up
Getting instant AI responses that feel like talking to a human, with API costs that actually make sense for high-volume applications
AI 분석
클라우드 컴퓨팅 & API
high지금 당신의 토큰 비용을 이 11K/초 기준과 비교해봐 — Mercury 2가 실제 프로덕션 품질을 제공하면, API 청구서가 확 줄어들 거야
다들 더 똑똑한 모델만 쫓아다닐 때, Inception Labs가 이미지 생성 기술을 빌려와서 추론 비용 방정식 자체를 무효화시켜버렸어
고객들은 즉각적인 응답을 기대하는데 넌 느린 모델 때문에 프리미엄 가격을 내고 있어 — 이게 두 문제를 한 번에 뒤집어버릴 수 있어
직무 영향 분석
DevOps 엔지니어
역할 변화초당 11,000개 토큰이면 LLM 워크로드에 대한 너의 현재 스케일링 가정이 완전히 구식이 돼버렸다는 뜻
Mercury 2를 다운로드해서 너의 실제 프로덕션 트래픽 패턴으로 스트레스 테스트해봐 — 견디면, 인프라 비용이 급락할 거야
프로덕트 매니저
기회예전엔 너무 비싸거나 느려서 불가능했던 실시간 AI 기능들이 갑자기 실현 가능해졌어
예전에 보류했던 '실시간 AI 채팅'이나 '즉시 콘텐츠 생성' 기능들 꺼내봐 — 로드맵을 다시 살펴볼 시간이야