AI編程：代碼多，效(xiao)果好？

七號樓專欄，大模型測評第01期。

一、簡介

2024年AI編程剛有熱度，互聯網又嗅到降本增效的味道。

入(ru)職(zhi)場到現在(zai)，記憶(yi)里還有低代(dai)碼，超級SaaS，數(shu)字化(hua)轉型，大模型，AI應用之編程；這些新概念(nian)的出場，都是在(zai)各(ge)種(zhong)罵罵咧(lie)咧(lie)中(zhong)，深夜王炸的吹噓聲中(zhong)。

沿著信息化，數字化，智能化的方向持續推進。

在(zai)2024上半年，當時還(huan)在(zai)職場悠(you)哉悠(you)哉的劃水(shui)，公司已經開始火急(ji)火燎(liao)的推廣(guang)AI工具，其中(zhong)以視覺設(she)計和編程(cheng)兩個(ge)崗位(wei)最(zui)直接。

市場認可的AI工具，直接買最貴的會員。

當時自己在(zai)做(zuo)電商(shang)的(de)供(gong)應鏈，對于業(ye)務模(mo)式一知半解(jie)，所以在(zai)嘗試(shi)大模(mo)型梳(shu)理(li)業(ye)務，業(ye)務理(li)清楚就拆分(fen)數(shu)據模(mo)型，然(ran)后投給(gei)AI編(bian)程(cheng)工具，直接設計數(shu)據表結構。

那(nei)會AI還只能輔助寫代碼(ma)，核心業(ye)務工程還得靠自(zi)己手搓。

部門當時流傳(chuan)一(yi)句玩笑(xiao)：用自己(ji)熟練的(de)技能訓練AI，等(deng)(deng)AI熟練后(hou)再替(ti)代自己(ji)，約等(deng)(deng)于我助推自己(ji)失業(ye)。

沒過多久，那句玩笑話就扎心了。

在(zai)2024年，還只(zhi)是間歇性體驗一下(xia)大(da)模(mo)型的能(neng)力水平；到2025年中，已(yi)經踩著AI風口，走上獨立開(kai)發的探索。

AI編程的回旋鏢，還是落在了程序員的手里。

二、測評指標

獨立開發之后，整天在各種模型和AI插件里切換。

捏(nie)著鼻子(zi)用多了就會發現：各(ge)家模型都有自己擅長的(de)能力，這與不同平(ping)臺所掌握的(de)優質數據有關系，比(bi)如電商跨境，本地生活，內(nei)容制(zhi)作(zuo)，行業分(fen)析等(deng)。

今年各家大模型，似乎都卷向了編程領域。

從現象來說，人工智能帶火了獨立開發賽(sai)道，這(zhe)是一個龐大且有確定性(xing)的市場；從本質來說，編(bian)程的內核是結構和數(shu)學算法，很適配大模型(xing)在應用層(ceng)的探索。

比較有意思的是(shi)：在(zai)今天(tian)剛發布的GPT5，從官(guan)方(fang)簡介和部(bu)分測(ce)評(ping)來看，也號稱編程(cheng)能(neng)力一騎絕塵。

對于很(hen)多開發(fa)者(zhe)來說，當積累一定的(de)能力和年(nian)齡(ling)之后，我們都傾向等一個好的(de)創業(ye)團隊，等一個好的(de)想(xiang)(xiang)法和產品，甚(shen)至很(hen)多想(xiang)(xiang)法在(zai)反(fan)復思考(kao)后，總覺得不夠完美，或(huo)者(zhe)無法實現。

在人工(gong)智(zhi)能快速發(fa)展的當下(xia)，借助大模型(xing)的編程能力，可以(yi)快速的實現產(chan)品并進行傳(chuan)播(bo)測試。

嘗試機會的過程中，再次尋找機會。

本(ben)期的(de)內容，站在一(yi)個普(pu)通開發者的(de)角(jiao)度，來綜(zong)合(he)測(ce)評一(yi)下(xia)AI的(de)編(bian)程能力(li)。

參與的(de)模型只有國內四款：DeepSeek，通義千問，Kimi，智(zhi)譜。

作為一(yi)個開(kai)發者，更多關(guan)注的是：代碼(ma)量(liang)，代碼(ma)質(zhi)量(liang)，呈現效果(guo)；選擇(ze)前端編(bian)程領域，可以(yi)看(kan)到(dao)實(shi)時的效果(guo)，目的是探索大模型(xing)編(bian)程的能(neng)力邊界。

備注：本次測試的(de)錄屏(ping)會上(shang)傳視(shi)頻號(hao)，源(yuan)碼會完整不動的(de)上(shang)傳Git倉庫，有興趣的(de)朋友自行查(cha)閱。

三、定制的需求

3.1 提示詞

基礎需求

使(shi)(shi)用(yong)前(qian)端編(bian)程(cheng)語言，開發(fa)一(yi)款復雜的(de)(de)Web網站(zhan)，涉及大模(mo)(mo)型信息采(cai)集和展示；進行數(shu)據(ju)分析，給用(yong)戶提(ti)供有價值(zhi)的(de)(de)參考(kao)(kao)；做一(yi)個(ge)社區板塊(kuai)，可以交流各種模(mo)(mo)型的(de)(de)使(shi)(shi)用(yong)案例；總共分為3個(ge)模(mo)(mo)塊(kuai)，每(mei)個(ge)模(mo)(mo)塊(kuai)都要(yao)填充一(yi)定的(de)(de)模(mo)(mo)擬數(shu)據(ju)，并且支持全站(zhan)檢索(suo)功(gong)能；視(shi)覺追(zhui)求(qiu)創意和科(ke)技感；考(kao)(kao)慮問(wen)題的(de)(de)復雜性，需要(yao)先設(she)計工程(cheng)架構(gou)再(zai)編(bian)寫代(dai)碼。

規則約束

第一(yi)輪：代碼必須(xu)輸出1000行(xing)以上，完整的放(fang)在(zai)一(yi)個html文件中，可以直接預(yu)覽。

第二輪：代碼必須輸出(chu)5000行(xing)以(yi)上，完(wan)整(zheng)的放(fang)在(zai)一個html文件中，可以(yi)直接預覽。

這里簡(jian)單提一(yi)句，為什么以1000行(xing)代(dai)碼為基(ji)準，當時(shi)第一(yi)次被DeepSeek能(neng)力驚艷到，就是它能(neng)穩定輸出千(qian)行(xing)代(dai)碼，并(bing)且(qie)質量高可以運行(xing)。

實際上自己還是沉浸在：已有的理解和習慣中。

最(zui)近的AI編程測評，依舊沿用(yong)1000行為基準，但是從測試效果看，上述(shu)四款模型：單次輸出(chu)2-3K行代(dai)碼，可(ke)以兼顧代(dai)碼數量和質量。

3.2 四款模型測試

使用相同(tong)的需求和不同(tong)的約束規則(ze)，讓上述四款模型分別執(zhi)行(xing)。

首先(xian)測(ce)試1000行代碼的輸出(chu)能(neng)力，在本次回答中(zhong)，四款模型的效果如(ru)下：

DeepSeek：輸出(chu)1500行(xing)代碼(ma)，布局結構和效(xiao)果(guo)為本輪測試最好(hao)；

KimiK2：輸出(chu)(chu)800行代碼(ma)，出(chu)(chu)現問題只能展(zhan)示主頁；

千問：輸出1600行(xing)代碼(ma)，布局完善但視覺效果一般(ban)，存在明顯(xian)問題；

智譜：輸出(chu)1200行代碼(ma)，布局一般，功能(neng)相對(dui)完善。

再次測試(shi)5000行代碼(ma)的輸出能力，在本次回答中，四款模型的效果如下：

DeepSeek：輸出(chu)3200行(xing)代(dai)碼，只(zhi)能加(jia)載首頁且(qie)速度很慢，整(zheng)體結構(gou)略崩(beng)；

KimiK2：輸出1900行代碼，加載流暢，但(dan)是布局效果一(yi)般；

千問：輸出1400行代碼，布局和功能都非常完善；

智譜：輸出(chu)3200行(xing)代碼，視覺和布(bu)局(ju)都(dou)是本輪(lun)測試(shi)最佳，但是中(zhong)間進行(xing)了(le)一次干預，才(cai)輸出(chu)較復(fu)雜的代碼。

所有模型代碼(ma)輸出都不足5000行，于是又挨(ai)個問(wen)了下面的問(wen)題(ti)：

請說明一下：是(shi)因為計算(suan)資源問題，還是(shi)模型能(neng)力問題，導致(zhi)代(dai)碼(ma)輸(shu)出不夠5000行？更(geng)多的(de)(de)回答是(shi)Token長度(du)限(xian)制，還有就(jiu)是(shi)考慮編程的(de)(de)工程規范，代(dai)碼(ma)的(de)(de)精(jing)簡和高效。

其實還可以測一測：用最精簡的代碼實現需求。

四、模型自由發揮

上面測(ce)試中，給模(mo)型指定了需求，本輪測(ce)試降低提(ti)示詞要求，但是(shi)為了可(ke)以(yi)比較(jiao)，還是(shi)約(yue)束前端(duan)編程(cheng)和2000行代碼。

更考驗(yan)大模型(xing)的想象能(neng)力，提(ti)示詞(ci)：

使(shi)用前端(duan)編程語言做一(yi)個(ge)網頁，做什么你(ni)自己發揮(hui)想(xiang)象(xiang)，功(gong)能(neng)要(yao)盡可能(neng)完善，視(shi)覺要(yao)有(you)質感，編程只有(you)一(yi)個(ge)要(yao)求：純(chun)代碼超過2000行，放在(zai)一(yi)個(ge)html文件中，可以直(zhi)接預(yu)覽。

DeepSeek：輸出2100行(xing)代碼，做的是任務管(guan)理(li)儀表盤(pan)網頁(ye)，為本(ben)輪測試(shi)最佳；

KimiK2：輸出800行代碼，做的是3D宇宙可視化應用；

千問：輸出1300行代碼，做的是音樂(le)播放器網頁；

智譜：輸出1600行代(dai)碼，做的是在線音樂播放器應用。

基于最近AI編程的(de)(de)使用和(he)調(diao)研，以(yi)及上面的(de)(de)測評(ping)案(an)例來說，DeepSeek的(de)(de)綜合能力，輸入信息的(de)(de)理解，以(yi)及內容輸出(chu)的(de)(de)穩定性和(he)質量。

在前端編程這個測試場景中，個人感覺效果最佳。

每個模(mo)型也都有能力突出(chu)的(de)(de)(de)地方，KimiK2的(de)(de)(de)視覺能力，智譜的(de)(de)(de)布局結構，千問的(de)(de)(de)功能完(wan)善；不同需求的(de)(de)(de)側重點不一樣，按(an)需選(xuan)擇即可。

五、最后總結

做大模型(xing)編(bian)程測試，其中一方(fang)面(mian)是想(xiang)(xiang)看(kan)看(kan)不同模型(xing)的(de)編(bian)程能力邊(bian)界，另(ling)一方(fang)面(mian)也是想(xiang)(xiang)在測試中挖掘想(xiang)(xiang)法。

希望(wang)這些模型的(de)能(neng)力，能(neng)夠(gou)不斷的(de)完善提高(gao)，先(xian)匯聚到一款模型上(shang)也(ye)可以，記得某天上(shang)午：付費的(de)AI編程工具服務全部宕(dang)機，居然再(zai)次靠搜索解決問題。

搜索引擎：我到底能不能被AI替代，回答我！

模型測評Git倉庫
//gitee.com/t_qhl/model-chaos

知識歸檔Git倉庫
//gitee.com/cicadasmile/butte-java-note

posted @ 2025-08-11 08:59 七號樓閱讀(965) 評論(0) 收藏舉報

刷新頁面返回頂部

中文字幕精品亚洲无线码二区,国产黄a三级三级三级看三级,亚洲七七久久桃花影院,丰满少妇被猛烈进入,国产小视频在线观看网站

七號樓

于是轉身獨立開發者。