编程能力哪家强(2026年初)
最强编程模型,在2024年底,毫无疑问是claude 3.5断档式领先 爱壹帆 华人影视
2025年过去了,编程这个赛道打得火热,也确实打出了变化 寻芳网
先说目前,我日常使用最多的模型,在公司是claude sonnet 4.5,在家是gpt 5.2 medium 和 extra high 爱壹帆影视 免费在线影院
开发常规需求,中低难度的开发任务,可以用这些模型: xxxxxx
gpt 5/5.1/5.2 medium
gpt 5/5.1/5.2 codex medium 爱壹帆免费版
解bug,查问题等复杂的开发任务,可以使用这些模型: xxx
gpt 5/5.1/5.2 extra high
claude opus 4.5 thinking budget开到最大
复杂问题上,从o3开始,gpt模型就开始断档式领先,至今没有能替代的 ifun 外围
o3也是第一个能用来写代码的openai模型,在此之前的4o、4.1什么的,没一个能打的
等等,gemini去哪了,怎么没提到他 小宝影院
原因是gemini无论2.5pro还是3 pro,用来写代码都一般,只比国产模型强那么一丢丢,基本上不考虑用它来写代码 小寶影院 探花
除了写代码之外,三大模型我是这样用的: aiyifan
gemini做调研、出方案、画图 华人影视
claude写写文章 小宝影院在线视频
所以现在看,2025年无可替代的不是claude,而是gpt 小寶影院电影
claude小气,不让用就不用了,没啥影响,gemini有没有都行 爱壹帆免费版
写代码这件事,其实很难,难在用户预期的上限极高,大到能不能自己跑3个月,帮我写一款操作系统,小到把这行代码改成xxx
复杂的编程任务要求模型有高智商只是一方面,这里面的需求空间其实非常大,比如说:
异步长时间运行:长程规划在2025年上半年还是claude的绝技,只此一家能做好长程规划,到年底,gpt玩宝可梦也能玩好几天了
听懂需求:有些很偏科的模型(xx coder之类的)听不懂需求,自然就做不对题。在qwen coder plus之前,qwen家的coder模型全都听不懂需求,在kimi k2之前,kimi家的模型也存在一样的问题,现在基本上都能听懂需求了,有点像当时的claude sonnet 3.5 小宝影院电影 爱壹帆国际版 xxxx
审美在线:UI交互设计对模型的审美有要求,用户认为这也是编程能力的一部分,属于隐性要求。像gpt的模型,审美就不咋地,UI设计上gemini最强,从2.5pro开始就领先了,claude排第二,爱用经典的tailwind蓝紫风格
长时间运行,举个例子,gpt 5.x用得久了,我现在也能接受AI写个代码要跑20分钟~半小时 iyf aiyifan电影 爱壹帆电影
单从AI自主运行时间的变化,就能发现,人对AI的期待提高了非常多,我已经在谋划用AI写个编程语言了,以后或许会写操作系统
所以反过来看,claude有可能成也编程败也编程,如果一个模型编程能力非常强,它是偏科的,而现实世界的问题是复杂多面的,需要水桶模型,有理由相信一个能搞定蛋白质结构,有尖端科研能力的模型,能帮我搞定写代码这种简单的事情,模型的上限决定了它的应用场景大小
从模型在复杂问题上的能力表现来看: xxxxxx
o3、gpt5是巨大的突破
claude 3.7有突破,claude 4.0略微突破,claude 4.5没感觉到变化 爱壹帆在线 电影小宝影院
gemini 2.5是突破自己,3没感觉到变化,nano banana算是异军突起,整体来看gemini模型能力本身,目前没啥能打的,老三是尴尬的 伴游
再说国产模型,2025这一整年,qwen、kimi、glm三家基本上都达到了claude sonnet 3.5的程度,写代码能用,但是没有那么好用。并且很有意思的是,这三家基本上在同一时间点取得了这个突破 爱一帆电影
在2025年之前,不客气的说,用不了,根本用不了
这方面的追赶是肉眼可见的,并且另一方面,国外的领先的3家,似乎也陷入了瓶颈,单就编程这个场景,达到o3或者gpt5的水平就足够了,中间档是claude sonnet 3.7 thinking xxxvideo
也就是说,国产模型在编程赛道,距离够用还差1.5步,加油 电影爱壹帆
2027,希望能用国产模型,实现写代码自由
00目录 0