„OpenAI“ pristatė naujos kartos didelį kalbos modelį – „GPT-5.5“. Praėjus kelioms valandoms, pasirodė ir „DeepSeek V4“ iš to paties pavadinimo Kinijos startuolio. Palyginkime deklaruojamas galimybes ir testų rezultatus.

„GPT-5.5“
Flagmaninis „OpenAI“ modelis orientuotas į agentines užduotis: programavimą, darbą su dokumentais, kompiuterio valdymą. Tai reiškia, kad modelis pats planuoja veiksmus, naudoja įrankius ir užbaigia užduotį iki rezultato. Pasak kūrėjų, pažanga, palyginti su „GPT-5.4“, ypač pastebima ten, kur reikia ilgai išlaikyti kontekstą ir dirbti su įrankiais be nuolatinių vartotojo patikslinimų.
Kitas privalumas – efektyvesnis žetonų (tokenų) naudojimas. Nors „GPT-5.5“ yra brangesnis nei pirmtakas naudojant per API, atsakymų generavimui jam reikia mažiau resursų ir laiko.
Teste „Terminal-Bench 2.0“, kuriame tikrinamas sudėtingų užduočių vykdymas komandų eilutėje su planavimu ir įrankių naudojimu, „GPT-5.5“ surinko 82,7 %. Tai 7 procentiniais punktais daugiau nei „GPT-5.4“ ir 11 punktų daugiau nei „Claude Opus 4.7“. Tačiau programavimo srityje modelis atsilieka nuo „Anthropic“ sprendimo: „SWE-Bench Pro“ (klaidų taisymas repozitorijose) rodo 58,6 %, kai tuo tarpu „Anthropic“ modelis pasiekia 64,3 %. „Graphwalks BFS 1M F1“ teste, skirtame ilgo konteksto užduotims, matomas didelis šuolis – 45,4 % vietoje 9,4 %.
Tikslus parametrų skaičius ir konteksto ilgis neatskleidžiami, tačiau ateityje planuojama API prieiga iki 1 mln. tokenų konteksto.
„ChatGPT“ ir programėlėse modelis prieinamas kaip „GPT-5.5 Thinking“ ir „GPT-5.5 Pro“. Pirmasis skirtas „Plus“, „Pro“, „Business“ ir „Enterprise“ planams, antrasis – „Pro, Business“ ir „Enterprise“. Modelis jau integruotas ir į „Codex“.
„DeepSeek V4“
Kinijos modelis, išgarsėjęs 2025 metų pradžioje, grįžta su nauju našumo lygiu. „DeepSeek“ laikosi atvirojo kodo politikos, todėl modelį galima diegti savo įrangoje.
Siūlomos dvi versijos: „DeepSeek-V4-Pro“ (mąstanti) ir „DeepSeek-V4-Flash“ (greiti atsakymai). „V4-Pro“ turi 1,6 trilijono parametrų, iš kurių aktyvūs 49 mlrd.; „V4-Flash“ – 284 mlrd. parametrų ir 13 mlrd. aktyvių. Abi palaiko iki 1 mln. tokenų kontekstą.
Įdomi detalė –„ DeepSeek V4“ optimizuota „Huawei Ascend“ lustams, nes NVIDIA ir kitų Vakarų gamintojų sprendimai Kinijoje ribojami sankcijų.
Pasak kūrėjų, „V4-Pro-Max“ režimas (maksimalus samprotavimo režimas) yra vienas geriausių tarp atvirojo kodo modelių. „SimpleQA-Verified“ teste — 57,9 %, „GPQA Diamond“ – 90,1 %, HLE — 37,7 %, „LiveCodeBench“ — 93,5 %. Tačiau agentinėse užduotyse modelis silpnesnis: „SWE-Bench Pro“ — 55,4 %, „Terminal-Bench 2.0“ — 67,9 %.
Kūrėjai taip pat pabrėžia stiprius rezultatus dirbant su ilgu kontekstu: kai kuriuose akademiniuose testuose „V4-Pro-Max“ lenkia „Gemini 3.1 Pro“.
„DeepSeek“ išpopuliarėjo dėl prieinamumo: paslauga neriboja naudojimo, programėlės lengvai pasiekiamos, o mokama tik už API prieigą. Norint naudoti „DeepSeek-V4-Flash“, reikia įjungti „Greitą“ režimą, o „V4-Pro“ – „Ekspertą“.


