opinionsreddit2026年4月21日 09:23

Qwen3.6 35B MoE on 8GB VRAM — working llama-server config + a max_tokens / thinking trap I ran into

Hi all, I wanted to share a setup that’s working for me with Qwen3.6-35B-A3B on a laptop RTX 4060 (8GB VRAM) + 96GB RAM. This is not an interactive chat setup. I’m using it as a coding subagent inside an agentic pipeline, so some of the choices below are specific to that use case. TL;DR - Qwen3.6 35B A3B runs fine on 8GB VRAM + RAM as coding subagent - my real bug was not a crash: unlimited thinking consumed the whole max_tokens budget - disabling thinking fixed it - better fix: use per

元記事を読む →

オピニオン既読86d

OpenAI ライブストリーム

OpenAIがライブストリーム配信イベントを開催します。放送中に具体的な発表、新製品発表、またはデモンストレーションが明かされる予定です。

OpenAIが前回予告なしのライブストリームをやった時、GPT-4 Turboをドロップして、一晩で価格設定を完全に変えました

Hacker News

オピニオン既読86d

ChatGPT Images 2.0が登場、画像生成機能が大幅アップグレード

OpenAIが新しいChatGPT Images 2.0をリリースしました。画像生成の品質と機能が大きく向上しています。ライブストリーム配信で最新機能のデモンストレーションが行われています。https://openai.com/live/ でご覧ください。

OpenAIはこれを確立されたイメージ生成ツールの直接的なライバルとして位置付けてるから、現在の市場リーダーに挑戦する自信があるってこと

Hacker News

109

オピニオン既読87d

2025年の「あと6ヶ月待てば」という主張は、たった1回のアップデートで破綻した

2025年を通じて、LLMに対する不満に対する標準的な返答は「あと3～6ヶ月待てば、次世代モデルが簡単に解決する」というバージョンばかりだった。この議論はどこにでもあった。すべての制限は一時的だと言われ、すべての欠落機能は数回のアップデート先にあると言われ、自律エージェントのデモはすべて差し迫った現実の予告編として扱われていた。いまは2026年4月。その約束がどれだけ実現したか確認する価値がある。Redditの r/ClaudeAI では今週、Opus 4.7についての長いスレッドが立ち、複数のユーザーが「これは退化だ」と主張している。

オピニオン既読74d

AMD Strix Halo で Mistral Medium 3.5 を動かしたら遅すぎた—夜間実行推奨

AMD の新型 Strix Halo チップで Mistral Medium 3.5 を実際に試した人がいるんですが、結果は…ひどいものです。48k トークンのプロンプト＋4k 思考トークンで、コード設計についての質問に答えるだけで約 2 時間かかりました。本当です、2 時間ですよ。Strix Halo でローカル実行したいなら、寝る前にジョブを投げるしかありません。Q5_K_XL 量化や GPU アクセラレーション、キャッシュ再利用など、あらゆる最適化を施しても、相変わらず遅い。「ローカル AI の夢」はまだ先のようですが、少なくとも動作はします。

関連記事

OpenAI ライブストリーム

ChatGPT Images 2.0が登場、画像生成機能が大幅アップグレード

2025年の「あと6ヶ月待てば」という主張は、たった1回のアップデートで破綻した

AMD Strix Halo で Mistral Medium 3.5 を動かしたら遅すぎた—夜間実行推奨