
TRELLIS.2 이미지-3D 변환이 Mac(Apple Silicon)에서 실행 - NVIDIA GPU 불필요
Microsoft의 TRELLIS.2를 PyTorch MPS를 통해 Apple Silicon에서 실행되도록 포팅했습니다. 원본은 CUDA 전용 컴파일 확장 5개(flex_gemm, flash_attn, o_voxel, cumesh, nvdiffrast)에 의존하는데 Mac에는 대응 버전이 없습니다. 처음부터 대체 백엔드를 작성했습니다: 순수 PyTorch 희소 3D 합성곱(flex_gemm 대체), 공간 해싱을 사용한 Python 메시 추출(o_voxel의 CUDA 해시맵 연산 대체), 희소 Transformer용 SDPA 어텐션(flash_attn 대체), GPU 가속 삼선형 보간(cumesh와 nvdiffrast 대체)입니다.
테크 블로거 관점
M5 Pro 24GB RAM이 AI 파워하우스로 변신했다 — 양자화 최적점은 여기
M5 Pro와 24GB RAM을 가진 누군가가 Ollama를 통해 Qwen 3.6을 로컬에서 돌리는 최고의 방법을 찾으려고 하는데, Q4냐 Q3 양자화가 더 나을지 고민하고 있어. 이게 정확히 우리가 얼마나 멀리 왔는지 보여주는 질문이야 — 진짜 거대 언어 모델이 노트북에서 어떤 게 제일 잘 돌아가는지 놓고 토론하고 있다니. 이런 대화가 나온다는 것 자체가 AI 민주화가 예상보다 훨씬 빠르게 일어나고 있다는 증거야. 24GB 통합 메모리라면 Q4_K_M이 정답 — 거의 풀 퀄리티를 유지하면서도 시스템이 숨 쉴 공간을 남겨둘 수 있어. Q3 양자화도 있긴 한데 찾기도 어렵고, 24GB가 있을 때 메모리를 조금 아낀다고 해서 퀄리티를 떨어뜨릴 가치는 없어. 진짜 미친 건 이 사람이 2년 전만 해도 서버팜이 필요했을 모델을 노트북에서 그냥 돌리고 있다는 거야.
Action
馬上試用API 호출마다 돈 내고, 클라우드 응답을 기다리고, 인터넷 끊기면 AI 워크플로우가 망가지고
즉각적인 응답, 무제한 사용, 비행기에서도 작동하는 AI — 모두 노트북에서 조용히 돌아가
AI 분석
소프트웨어 개발
highQ4_K_M 양자화부터 테스트해봐 — 24GB 셋업에서 최고의 선택지고 몇 분 안에 작동하는지 알 수 있어
M5 Pro의 통합 메모리 구조는 24GB를 시스템과 모델이 공유한다는 뜻이라서, 실제 모델에 쓸 수 있는 건 ~20GB 정도야
이제 API 크레딧을 태우거나 클라우드 응답을 기다리지 않고도 엔터프라이즈급 AI 모델을 노트북에서 돌릴 수 있다는 거야
직무 영향 분석
AI 엔지니어
역할 변화로컬 모델 추론은 API 비용이나 지연 시간 걱정 없이 프로토타입을 만들고 반복할 수 있다는 뜻
오늘 바로 Ollama를 다운로드해서 Qwen 3.6 Q4_K_M을 테스트해봐 — 개발 사이클이 10배 빨라질 거야
데이터 과학자
기회24GB RAM은 이전에 클라우드 전용이던 모델들을 열어주고, 오프라인 분석 기능을 제공해
다음 프로젝트에서 Q4 양자화부터 시작해봐 — 풀 정밀도와 얼마나 가까운지 보고 깜짝 놀랄 거야