opinionsreddit2026年4月20日下午10:29

MiniMax2.7 在終端機跑分爆冷門？用 Claude 寫 AI 代理的人都在用什麼模型

MiniMax2.7 Local Results on Terminal Bench. Dud. Anyone using this for agent coding in Claude?

I just finished a full Terminal-Bench 2.0 run (445 trials) with MiniMax-M2.7 (Q8_0, unsloth GGUF) running locally on a Mac Studio M3 Ultra with 512GB unified memory. The result: 41.3% mean — which is actually worse than the 42.7% I got with M2.5 on the same hardware and config. The numbers: 434 trials, 184 solved, 250 failed 198 errors — 187 of those were AgentTimeoutError (the model running out of clock, not crashing) Mean reward: 0.413 10-17 tokens/second For comparison, M2.5 on the

看原文 →

你可能也想看

觀點看過了86d

OpenAI 要開直播了，會不會又推出什麼新東西？

欸你知道嗎，OpenAI 最近要辦一場直播活動。雖然現在還不知道會講什麼，但根據他們過去的習慣，通常直播就代表有新東西要發表。可能是 ChatGPT 的新功能、新模型，或者什麼其他猛的東西。反正 OpenAI 的直播從來不會無聊，有興趣的話可以追蹤一下，說不定又會有什麼改變遊戲規則的公告。

The last time OpenAI did an unannounced livestream, they dropped GPT-4 Turbo and changed pricing overnight

Hacker News

觀點看過了86d

ChatGPT 畫圖功能大升級！2.0 版本現在直播發表

欸你知道嗎，ChatGPT 的畫圖功能出新版本了！OpenAI 推出 ChatGPT Images 2.0，聽說生成圖片的品質和功能都有大幅進步。如果你有在用 AI 畫圖，或是一直想試試看的話，現在正好可以看直播了解新功能是什麼。簡單來說就是 AI 畫圖又更強了，說真的有點扯。想看現場演示的話，直接上 https://openai.com/live/ 就能看直播。

OpenAI is positioning this as a direct competitor to established image generation tools, suggesting they're confident enough to challenge the current market leaders

Hacker News

109

觀點看過了87d

去年那句「再等6個月就會變好」的話，現在看起來超尷尬

欸你知道嗎，整個2025年，只要有人說AI有問題，大家就會說「別急，再等3到6個月，下一版本就會完美解決」。這套說詞真的到處都是——什麼功能不夠、什麼做不到，通通都說「這只是暫時的，馬上就會改進」。那些自主AI助手的展示影片更是被吹得天花亂墜，好像明天就要改變世界一樣。結果現在已經2026年4月了，該檢驗一下去年那些承諾有沒有兌現。Reddit上ClaudeAI社群這週炸裂了，一堆人在討論最新的Opus 4.7版本，結論是：「這根本是退步啦」。說真的，去年那套「再等等」的論調現在看起來有點傻。

觀點看過了74d

Mistral Medium 3.5 在 AMD Strix Halo 上跑超慢，你的筆電可能不適合

欸你知道嗎，有人在 AMD 最新的 Strix Halo 筆電晶片上試著跑 Mistral Medium 3.5 這個大型 AI 模型，結果超慘。一個簡單的程式碼問題，光是讓 AI 思考和回答就花了 2 小時。沒騙你，真的 2 小時。這就像是你問 ChatGPT 一個問題，結果要等到隔天早上才有答案，只不過這次是在你自己的筆電上發生。雖然他們已經用了各種優化技巧（什麼量化啦、GPU 加速啦），但還是快不起來。簡單來說就是，如果你想在筆電上跑這麼大的 AI 模型，現在還不是時候。除非你不介意每次都要等個幾小時。