Pe scurt
- Qwen 3.5 Omni de la Alibaba aduce AI omnimodal adevărat în timp real în cursa de frontieră.
- Procesarea audio-vizuală nativă depășește pipeline-urile multimodale îmbinate în viteză și coerență.
- Clonarea vocii, întreruperea semantică și codarea vibratorie semnalează o schimbare către agenți AI complet interactivi.
Alibaba tocmai a lansat cea mai ambițioasă actualizare AI până acum.
Echipa Qwen a companiei a lansat Qwen 3.5 Omni duminică, o nouă versiune a AI-ului său "omnimodal" care procesează simultan text, imagini, audio și video și răspunde în timp real în 36 de limbi, plasând modelul său pe același câmp de luptă cu cele mai recente modele fundamentale AI de ultimă generație disponibile în prezent.
"Omni" nu este doar un cuvânt cheie de marketing aici. Majoritatea modelelor AI cu care interacționezi sunt în principal sisteme text-în, text-ieșire. Unele gestionează imagini, altele gestionează vocea. Qwen 3.5 Omni le gestionează pe toate în mod nativ, în același timp, fără a fi nevoie să convertești totul în text prin instrumente terțe.
Noul model vine în trei dimensiuni—Plus, Flash și Light—toate acceptând o fereastră de context de 256 000 de token-uri (mică conform standardelor de astăzi). A fost antrenat pe peste 100 de milioane de ore de date audio-vizuale—o scară care îl plasează într-o altă categorie de greutate față de majoritatea concurenților.
Qwen 3.5 Omni este o evoluție a Qwen 3 Omni Flash, modelul omnimodal anterior al Alibaba lansat în decembrie 2025. Acea versiune a impresionat deja prin capacitatea sa de a procesa video și audio simultan—putea gestiona instrucțiuni de editare a imaginilor combinând multiple intrări vizuale în moduri în care concurenții nu puteau—și transmitea răspunsuri vocale cu o latență de doar 234 de milisecunde.
A fost, de asemenea, primul model care a încercat o alternativă la NotebookLM de la Google. A realizat ceva, dar calitatea nu era la nivelul ofertei Google.
Qwen 3.5 Omni ia toate acestea și adaugă o fereastră de context mai lungă, raționament mai bun, o bibliotecă de limbi mult mai largă și un set de caracteristici de interacțiune în timp real pe care generația anterioară nu le avea.
Îmbunătățirea principală este ceea ce se întâmplă când vorbești efectiv cu el. Qwen3.5-Omni acceptă acum întreruperea semantică: poate face diferența între momentul în care spui "uh-huh" la mijlocul propoziției și momentul în care vrei efectiv să intervii, astfel încât nu se va opri la jumătatea gândului de fiecare dată când cineva tușește în fundal, făcând interacțiunea vocală mai fluidă.
O nouă tehnică numită ARIA, prescurtare de la Adaptive Rate Interleave Alignment, rezolvă, de asemenea, o neplăcere subtilă, dar persistentă: sistemele AI care distorsionează numerele sau cuvintele neobișnuite când citesc cu voce tare. ARIA sincronizează dinamic textul și vorbirea pentru a menține o ieșire naturală și precisă.
Apoi există clonarea vocii. Utilizatorii pot încărca un eșantion vocal și pot face ca modelul să adopte acea voce în răspunsurile sale, o caracteristică care pune Qwen în competiție directă cu ElevenLabs și alte instrumente vocale dedicate. Nu am putut accesa această caracteristică, totuși, deoarece aceasta este o caracteristică care, cel puțin pentru moment, este disponibilă doar prin API.
Pe benchmark-urile de stabilitate vocală multilingvă, Qwen3.5 Omni-Plus a depășit ElevenLabs, GPT-Audio și Minimax în 20 de limbi. Modelul acceptă acum și căutarea web în timp real, ceea ce înseamnă că poate răspunde la întrebări despre știri de ultimă oră sau date de piață live fără a pretinde că știe deja.
Echipa evidențiază, de asemenea, ceea ce numesc "Audio-Visual Vibe Coding", modelul poate viziona o înregistrare de ecran sau un video al unei sarcini de codare și poate scrie cod funcțional bazat pur pe ceea ce vede și aude, fără a fi necesară o solicitare text. Este o mică previzualizare a modului în care asistenții AI ar putea funcționa eventual în fluxul tău de lucru, mai degrabă decât alături de acesta.
Pentru a înțelege ce înseamnă de fapt "omnimodal" în practică, am efectuat un test rapid: Am furnizat atât Qwen3.5-Omni, cât și ChatGPT 5.4 în modul "thinking" același YouTube Short—un clip cu președintele Dastan (Dastan este compania-mamă a Decrypt) și comentatorul Farokh discutând despre știri de ultimă oră. Qwen 3.5 Omni a procesat videoclipul în mod nativ și a returnat o analiză completă în aproximativ un minut: cine vorbea, despre ce discutau și un comentariu substanțial pe această temă bazat pe propria sa cunoaștere a domeniului.
ChatGPT 5.4, care nu este omnimodal, a trebuit să se descurce cu ceea ce a primit. A extras cadre din videoclip, le-a trecut printr-un model de viziune, a folosit Whisper pentru a transcrie audio-ul și a aplicat un instrument OCR pentru a citi subtitrările încorporate—trei procese separate îmbinate pentru a aproxima ceea ce face Qwen3.5-Omni într-o singură trecere. Rezultatul a durat nouă minute, și asta în condiții ideale: un videoclip bine iluminat cu audio curat și subtitrări gravate. Conținutul din lumea reală oferă rareori toate cele trei.
În testele noastre rapide pe multiple intrări, modelul a gestionat, de asemenea, solicitări în spaniolă, portugheză și engleză fără probleme—schimbând limbile la mijlocul conversației fără a pierde contextul.
Pe benchmark-urile standard, Qwen 3.5 Omni Plus a depășit Gemini 3.1 Pro la înțelegerea audio generală, raționament și sarcini de traducere și l-a egalat la comprehensiunea audio-vizuală. Recunoașterea vorbirii acoperă acum 113 limbi și dialecte—față de 19 în generația anterioară.
Aceasta este a doua lansare majoră AI a Alibaba în șase săptămâni. În februarie, a lansat Qwen 3.5, un model text-și-viziune care a egalat sau a depășit modelele de frontieră pe benchmark-urile de raționament și codare—parte a unei serii care a inclus, de asemenea, Qwen Deep Research și o gamă de instrumente care rivalizează cu OpenAI și Google. Qwen 3.5 Omni extinde acest avânt în teritoriul multimodal complet, într-un moment în care fiecare laborator AI major se grăbește să construiască sisteme care gestionează întregul spectru al comunicării umane—nu doar cuvinte pe un ecran.
Modelul este disponibil acum prin API-ul Alibaba Cloud și poate fi testat direct la Qwen Chat sau prin demo-ul online al Hugging Face.
Newsletter Daily Debrief
Începe fiecare zi cu cele mai importante știri de acum, plus caracteristici originale, un podcast, videoclipuri și multe altele.
Sursă: https://decrypt.co/362742/alibaba-qwen-omni-major-upgrade-review



