Postarea Ray Data și Docling abordează cea mai mare problemă a AI-ului enterprise a apărut pe BitcoinEthereumNews.com. Zach Anderson 27 feb. 2026 16:58 Nouă integrarePostarea Ray Data și Docling abordează cea mai mare problemă a AI-ului enterprise a apărut pe BitcoinEthereumNews.com. Zach Anderson 27 feb. 2026 16:58 Nouă integrare

Ray Data și Docling abordează cea mai mare problemă a AI-ului pentru întreprinderi

2026/02/28 12:33
3 min de lectură


Zach Anderson
27 feb. 2026 16:58

Noua integrare combină procesarea distribuită a Ray Data cu parsarea documentelor Docling pentru a procesa peste 10 000 de fișiere complexe pentru aplicații RAG în ore în loc de zile.

Echipele enterprise care construiesc aplicații AI tocmai au primit o soluție pentru cel mai frustrant blocaj al lor. Anyscale a detaliat cum combinarea Ray Data cu Docling poate transforma săptămâni de procesare a documentelor în ore—o dezvoltare care ar putea accelera cronologia de implementare pentru companiile care dețin arhive masive de documente.

Integrarea tehnică abordează ceea ce specialiștii numesc "blocajul datelor" în sistemele Retrieval-Augmented Generation. Deși demonstrațiile fac ca AI generativ să pară simplu, realitatea implică confruntarea cu mii de PDF-uri vechi, tabele complexe și imagini încorporate pe care instrumentele tradiționale de procesare le gestionează prost.

Ce Se Schimbă De Fapt

Motorul de execuție în streaming al Ray Data procesează date prin intermediul sarcinilor CPU și GPU simultan. Arhitectura nativă Python elimină overhead-ul de serializare care afectează alte framework-uri atunci când traduc date între medii de limbaje. Pentru echipele care rulează inferență batch sau preprocesează seturi masive de date, aceasta înseamnă cicluri de iterație mai rapide.

Docling gestionează complexitatea de parsare care pune în dificultate majoritatea instrumentelor tradiționale—extragând cu acuratețe tabele și layout-uri în timp ce păstrează structura semantică. Când este integrat cu Ray Data, fiecare nod worker rulează o instanță Docling cu modele AI încorporate în memorie, permițând procesarea paralelă a documentelor la scară.

Arhitectura funcționează astfel: un Ray Data Driver gestionează execuția și serializează codul sarcinilor pentru distribuție. Workers citesc blocuri de date direct din stocare și scriu fișiere JSON procesate la destinație. Driver-ul nu devine niciodată un blocaj deoarece nu gestionează flux real de date.

Fundația Kubernetes

KubeRay orchestrează clusterele Ray pe Kubernetes, gestionând autoscalarea dinamică de la 10 la 100 de noduri în mod transparent. Sistemul include recuperare automată atunci când nodurile worker eșuează—critic pentru joburi mari de ingestie care nu își pot permite să reînceapă de la zero.

Fluxul end-to-end mută documentele din stocare de obiecte prin parsare și fragmentare, generează embeddings pe noduri GPU și scrie în baze de date vectoriale precum Milvus. Aplicațiile RAG apoi interogează baza de date pentru a furniza context LLM-urilor.

Companii precum Pinterest, DoorDash și Instacart folosesc deja Ray Data pentru procesare last-mile și antrenament de modele, sugerând că tehnologia a dovedit viabilitate în producție.

Dincolo De Căutarea Simplă

Jocul mai amplu vizează aici fluxurile de lucru AI agentice unde agenții autonomi execută sarcini în mai mulți pași. Calitatea datelor procesate devine mai critică pe măsură ce agenții se bazează pe documentație precisă pentru a acționa în numele utilizatorilor. Organizațiile care construiesc arhitecturi scalabile se poziționează acum pentru lanțuri avansate de inferență cu multiple apeluri LLM secvențiale.

Platformele Red Hat OpenShift AI și Anyscale oferă opțiuni de implementare cu cerințe de guvernanță enterprise. Fundația open-source înseamnă că echipele pot începe testarea fără obstacole majore de achiziție.

Pentru echipele AI care petrec în prezent mai mult timp pe pregătirea datelor decât pe ajustarea modelelor, această integrare oferă o cale practică înainte. Întrebarea nu este dacă procesarea distribuită a documentelor contează—ci dacă infrastructura dvs. poate gestiona ceea ce urmează.

Sursa imaginii: Shutterstock

Sursă: https://blockchain.news/news/ray-data-docling-enterprise-ai-document-processing

Oportunitate de piață
Logo Raydium
Pret Raydium (RAY)
$0.5746
$0.5746$0.5746
-4.42%
USD
Raydium (RAY) graficul prețurilor în timp real
Declinarea responsabilității: Articolele publicate pe această platformă provin de pe platforme publice și sunt furnizate doar în scop informativ. Acestea nu reflectă în mod necesar punctele de vedere ale MEXC. Toate drepturile rămân la autorii originali. Dacă consideri că orice conținut încalcă drepturile terților, contactează crypto.news@mexc.com pentru eliminare. MEXC nu oferă nicio garanție cu privire la acuratețea, exhaustivitatea sau actualitatea conținutului și nu răspunde pentru nicio acțiune întreprinsă pe baza informațiilor furnizate. Conținutul nu constituie consiliere financiară, juridică sau profesională și nici nu trebuie considerat o recomandare sau o aprobare din partea MEXC.