中文字幕精品亚洲无线码二区,国产黄a三级三级三级看三级,亚洲七七久久桃花影院,丰满少妇被猛烈进入,国产小视频在线观看网站

AI編程:代碼多,效(xiao)果好?

七號樓專欄,大模型測評第01期。

一、簡介

2024年AI編程剛有熱度,互聯網又嗅到降本增效的味道。

入(ru)職(zhi)場到現在(zai),記憶(yi)里還有低代(dai)碼,超級SaaS,數(shu)字化(hua)轉型,大模型,AI應用之編程;這些新概念(nian)的出場,都是在(zai)各(ge)種(zhong)罵罵咧(lie)咧(lie)中(zhong),深夜王炸的吹噓聲中(zhong)。

沿著信息化,數字化,智能化的方向持續推進。

在(zai)2024上半年,當時還(huan)在(zai)職場悠(you)哉悠(you)哉的劃水(shui),公司已經開始火急(ji)火燎(liao)的推廣(guang)AI工具,其中(zhong)以視覺設(she)計和編程(cheng)兩個(ge)崗位(wei)最(zui)直接。

市場認可的AI工具,直接買最貴的會員。

當時自己在(zai)做(zuo)電商(shang)的(de)供(gong)應鏈,對于業(ye)務模(mo)式一知半解(jie),所以在(zai)嘗試(shi)大模(mo)型梳(shu)理(li)業(ye)務,業(ye)務理(li)清楚就拆分(fen)數(shu)據模(mo)型,然(ran)后投給(gei)AI編(bian)程(cheng)工具,直接設計數(shu)據表結構。

那(nei)會AI還只能輔助寫代碼(ma),核心業(ye)務工程還得靠自(zi)己手搓。

部門當時流傳(chuan)一(yi)句玩笑(xiao):用自己(ji)熟練的(de)技能訓練AI,等(deng)(deng)AI熟練后(hou)再替(ti)代自己(ji),約等(deng)(deng)于我助推自己(ji)失業(ye)。

沒過多久,那句玩笑話就扎心了。

在(zai)2024年,還只(zhi)是間歇性體驗一下(xia)大(da)模(mo)型的能(neng)力水平;到2025年中,已(yi)經踩著AI風口,走上獨立開(kai)發的探索。

AI編程的回旋鏢,還是落在了程序員的手里。

二、測評指標

獨立開發之后,整天在各種模型和AI插件里切換。

捏(nie)著鼻子(zi)用多了就會發現:各(ge)家模型都有自己擅長的(de)能力,這與不同平(ping)臺所掌握的(de)優質數據有關系,比(bi)如電商跨境,本地生活,內(nei)容制(zhi)作(zuo),行業分(fen)析等(deng)。

今年各家大模型,似乎都卷向了編程領域。

從現象來說,人工智能帶火了獨立開發賽(sai)道,這(zhe)是一個龐大且有確定性(xing)的市場;從本質來說,編(bian)程的內核是結構和數(shu)學算法,很適配大模型(xing)在應用層(ceng)的探索。

比較有意思的是(shi):在(zai)今天(tian)剛發布的GPT5,從官(guan)方(fang)簡介和部(bu)分測(ce)評(ping)來看,也號稱編程(cheng)能(neng)力一騎絕塵。

對于很(hen)多開發(fa)者(zhe)來說,當積累一定的(de)能力和年(nian)齡(ling)之后,我們都傾向等一個好的(de)創業(ye)團隊,等一個好的(de)想(xiang)(xiang)法和產品,甚(shen)至很(hen)多想(xiang)(xiang)法在(zai)反(fan)復思考(kao)后,總覺得不夠完美,或(huo)者(zhe)無法實現。

在人工(gong)智(zhi)能快速發(fa)展的當下(xia),借助大模型(xing)的編程能力,可以(yi)快速的實現產(chan)品并進行傳(chuan)播(bo)測試。

嘗試機會的過程中,再次尋找機會。

本(ben)期的(de)內容,站在一(yi)個普(pu)通開發者的(de)角(jiao)度,來綜(zong)合(he)測(ce)評一(yi)下(xia)AI的(de)編(bian)程能力(li)。

參與的(de)模型只有國內四款:DeepSeek,通義千問,Kimi,智(zhi)譜。

作為一(yi)個開(kai)發者,更多關(guan)注的是:代碼(ma)量(liang),代碼(ma)質(zhi)量(liang),呈現效果(guo);選擇(ze)前端編(bian)程領域,可以(yi)看(kan)到(dao)實(shi)時的效果(guo),目的是探索大模型(xing)編(bian)程的能(neng)力邊界。

備注:本次測試的(de)錄屏(ping)會上(shang)傳視(shi)頻號(hao),源(yuan)碼會完整不動的(de)上(shang)傳Git倉庫,有興趣的(de)朋友自行查(cha)閱。

三、定制的需求

3.1 提示詞

基礎需求

使(shi)(shi)用(yong)前(qian)端編(bian)程(cheng)語言,開發(fa)一(yi)款復雜的(de)(de)Web網站(zhan),涉及大模(mo)(mo)型信息采(cai)集和展示;進行數(shu)據(ju)分析,給用(yong)戶提(ti)供有價值(zhi)的(de)(de)參考(kao)(kao);做一(yi)個(ge)社區板塊(kuai),可以交流各種模(mo)(mo)型的(de)(de)使(shi)(shi)用(yong)案例;總共分為3個(ge)模(mo)(mo)塊(kuai),每(mei)個(ge)模(mo)(mo)塊(kuai)都要(yao)填充一(yi)定的(de)(de)模(mo)(mo)擬數(shu)據(ju),并且支持全站(zhan)檢索(suo)功(gong)能;視(shi)覺追(zhui)求(qiu)創意和科(ke)技感;考(kao)(kao)慮問(wen)題的(de)(de)復雜性,需要(yao)先設(she)計工程(cheng)架構(gou)再(zai)編(bian)寫代(dai)碼。

規則約束

第一(yi)輪:代碼必須(xu)輸出1000行(xing)以上,完整的放(fang)在(zai)一(yi)個html文件中,可以直接預(yu)覽。

第二輪:代碼必須輸出(chu)5000行(xing)以(yi)上,完(wan)整(zheng)的放(fang)在(zai)一個html文件中,可以(yi)直接預覽。

這里簡(jian)單提一(yi)句,為什么以1000行(xing)代(dai)碼為基(ji)準,當時(shi)第一(yi)次被DeepSeek能(neng)力驚艷到,就是它能(neng)穩定輸出千(qian)行(xing)代(dai)碼,并(bing)且(qie)質量高可以運行(xing)。

實際上自己還是沉浸在:已有的理解和習慣中。

最(zui)近的AI編程測評,依舊沿用(yong)1000行為基準,但是從測試效果看,上述(shu)四款模型:單次輸出(chu)2-3K行代(dai)碼,可(ke)以兼顧代(dai)碼數量和質量。

3.2 四款模型測試

使用相同(tong)的需求和不同(tong)的約束規則(ze),讓上述四款模型分別執(zhi)行(xing)。

首先(xian)測(ce)試1000行代碼的輸出(chu)能(neng)力,在本次回答中(zhong),四款模型的效果如(ru)下:

1

DeepSeek:輸出(chu)1500行(xing)代碼(ma),布局結構和效(xiao)果(guo)為本輪測試最好(hao);

KimiK2:輸出(chu)(chu)800行代碼(ma),出(chu)(chu)現問題只能展(zhan)示主頁;

千問:輸出1600行(xing)代碼(ma),布局完善但視覺效果一般(ban),存在明顯(xian)問題;

智譜:輸出(chu)1200行代碼(ma),布局一般,功能(neng)相對(dui)完善。

再次測試(shi)5000行代碼(ma)的輸出能力,在本次回答中,四款模型的效果如下:

2

DeepSeek:輸出(chu)3200行(xing)代(dai)碼,只(zhi)能加(jia)載首頁且(qie)速度很慢,整(zheng)體結構(gou)略崩(beng);

KimiK2:輸出1900行代碼,加載流暢,但(dan)是布局效果一(yi)般;

千問:輸出1400行代碼,布局和功能都非常完善;

智譜:輸出(chu)3200行(xing)代碼,視覺和布(bu)局(ju)都(dou)是本輪(lun)測試(shi)最佳,但是中(zhong)間進行(xing)了(le)一次干預,才(cai)輸出(chu)較復(fu)雜的代碼。

所有模型代碼(ma)輸出都不足5000行,于是又挨(ai)個問(wen)了下面的問(wen)題(ti):

請說明一下:是(shi)因為計算(suan)資源問題,還是(shi)模型能(neng)力問題,導致(zhi)代(dai)碼(ma)輸(shu)出不夠5000行?更(geng)多的(de)(de)回答是(shi)Token長度(du)限(xian)制,還有就(jiu)是(shi)考慮編程的(de)(de)工程規范,代(dai)碼(ma)的(de)(de)精(jing)簡和高效。

其實還可以測一測:用最精簡的代碼實現需求。

四、模型自由發揮

上面測(ce)試中,給模(mo)型指定了需求,本輪測(ce)試降低提(ti)示詞要求,但是(shi)為了可(ke)以(yi)比較(jiao),還是(shi)約(yue)束前端(duan)編程(cheng)和2000行代碼。

更考驗(yan)大模型(xing)的想象能(neng)力,提(ti)示詞(ci):

使(shi)用前端(duan)編程語言做一(yi)個(ge)網頁,做什么你(ni)自己發揮(hui)想(xiang)象(xiang),功(gong)能(neng)要(yao)盡可能(neng)完善,視(shi)覺要(yao)有(you)質感,編程只有(you)一(yi)個(ge)要(yao)求:純(chun)代碼超過2000行,放在(zai)一(yi)個(ge)html文件中,可以直(zhi)接預(yu)覽。

3

DeepSeek:輸出2100行(xing)代碼,做的是任務管(guan)理(li)儀表盤(pan)網頁(ye),為本(ben)輪測試(shi)最佳;

KimiK2:輸出800行代碼,做的是3D宇宙可視化應用

千問:輸出1300行代碼,做的是音樂(le)播放器網頁;

智譜:輸出1600行代(dai)碼,做的是在線音樂播放器應用。

基于最近AI編程的(de)(de)使用和(he)調(diao)研,以(yi)及上面的(de)(de)測評(ping)案(an)例來說,DeepSeek的(de)(de)綜合能力,輸入信息的(de)(de)理解,以(yi)及內容輸出(chu)的(de)(de)穩定性和(he)質量。

在前端編程這個測試場景中,個人感覺效果最佳。

每個模(mo)型也都有能力突出(chu)的(de)(de)(de)地方,KimiK2的(de)(de)(de)視覺能力,智譜的(de)(de)(de)布局結構,千問的(de)(de)(de)功能完(wan)善;不同需求的(de)(de)(de)側重點不一樣,按(an)需選(xuan)擇即可。

五、最后總結

做大模型(xing)編(bian)程測試,其中一方(fang)面(mian)是想(xiang)(xiang)看(kan)看(kan)不同模型(xing)的(de)編(bian)程能力邊(bian)界,另(ling)一方(fang)面(mian)也是想(xiang)(xiang)在測試中挖掘想(xiang)(xiang)法。

希望(wang)這些模型的(de)能(neng)力,能(neng)夠(gou)不斷的(de)完善提高(gao),先(xian)匯聚到一款模型上(shang)也(ye)可以,記得某天上(shang)午:付費的(de)AI編程工具服務全部宕(dang)機,居然再(zai)次靠搜索解決問題。

搜索引擎:我到底能不能被AI替代,回答我!

模型測評Git倉庫
//gitee.com/t_qhl/model-chaos

知識歸檔Git倉庫
//gitee.com/cicadasmile/butte-java-note
posted @ 2025-08-11 08:59  七號樓  閱讀(965)  評論(0)    收藏  舉報