La sfârșitul lunii ianuarie, o companie chineză puțin cunoscută a lansat cel mai recent model de inteligență artificială (AI), botezat DeepSeek, trimițând unde de șoc în întreaga lume. Compania a susținut că modelul R1 a atins performanțe comparabile sau chiar mai mari decât modelele AI create de giganții din Silicon Valley – ChatGPT al OpenAI, Llama al Meta și Claude al Anthropic. Iar modelul ar fi obținut aceste rezultat cu o fracțiune din costuri.
Răspunsul piețelor financiare a fost rapid și brutal: pe măsură ce DeepSeek a devenit cea mai descărcată aplicație din App Store, valoarea companiilor de tehnologie din Statele Unite s-a redus cu un trilion de dolari.
Numai Nvidia, o companie care produce cipurile grafice H100 esențiale pentru instruirea AI, a pierdut 589 de miliarde de dolari, în cea mai mare cădere pe piață într-o singură zi din istoria americană. DeepSeek a susținut că și-a instruit modelul AI fără aceste cipuri, utilizând alte cipuri mai ieftine tot de la Nvidia. Companiile americane au răspuns panicate, iar Open AI chiar a susținut că DeepSeek ar fi plagiat o parte din modelele sale.
Experții în inteligență artificială spun că apariția lui DeepSeek a schimbat dogma de la baza dezvoltării modelelor AI, arătând că mai mare nu înseamnă întotdeauna mai bun.
„Faptul că DeepSeek a putut fi construit cu mai puțini bani, cu mai puțină putere de calcul, în mai puțin timp și că poate rula pe computere mai puțin costisitoare sugerează că toată lumea a căutat să construiască tot mai mare, pierzând din vederea oportunitatea de a construi mai inteligent și mai mic”, spune Kristian Hammond, profesor la Universitatea Northwestern.
Ce anume face modelele DeepSeek mai atrăgătoare?
„În anumite feluri, progresele înregistrate de DeepSeek sunt mai mult evolutive decât revoluționare”, spune Ambuj Tewari, profesor la Universitatea din Michigan, S.U.A. „El operează în continuare în baza aceeași paradigme a modelelor foarte mari (100 de miliarde de parametri), pe seturi de date foarte mari (de ordinul trilioanelor) și cu bugete mari. Adevărata inovație este modul în care aceste modele mari și puternice rulează bine pe sisteme cu mai puține resurse.
Pentru a realiza acest lucru, modelul DeepSeek este împărțit în submodele, fiecare dintre acestea fiind specializate în anumite sarcini sau în lucrul cu un anumit tip de date. Acest mod de lucru este însoțit de un sistem de gestionare a încărcării, în loc de a aplica o penalizare generală pentru a încetini în sistem supraîncărcat, așa cum este cazul altor modele. Astfel, sarcinile sunt împărțite în mod dinamic de la submodelele supraîncărcate la cele subîncărcate.
Eficiența se extinde și asupra modelului de instruire a DeepSeek, care este o consecință neintenționată a restricțiilor de export impuse de Statele Unite. În China, accesul șa cipurile H100 produse de Nvidia este limitat, iar DeepSeek susține că și-a construit modelele utilizând cipurile H800, care au o rată de transfer mai redusă. Nvidia a proiectat acest cip mai ieftin în anul 2023 pentru a ocoli restricțiile de export.
Un tip mai eficient de model de limbaj
Nevoia de a utiliza aceste cipuri mai puțin puternice a forțat DeepSeek să realizeze o altă inovație: cadrul de precizie mixt. În loc de a folosi numere FP32 (32-bit floating point), anumite părți ale modelului au fost instruite cu numere FP8 (8-bit floating point), mai puțin precise, comutând la 32 de biți doar pentru calcule mai complicate.
Toate acestea au permis o instruire mai rapidă și cu mai puține resurse de calcul, alături de îmbunătățirile aduse întregului flux de calcul – încărcarea datelor, calculul în paralel și optimizarea memoriei.
În timp ce costurile de instruire ale modelelor competiției pot ajunge la sute de milioane de dolari în câteva luni, modelul V3 al DeepSeek a fost instruit în două luni cu doar 5,58 milioane de dolari. Costurile de operare ale V3 sunt de 21 de ori mai reduse decât cele ale modelului Claude 3.5 Sonnet de la Anthropic. Bineînțeles, costurile au fost mai mari dacă luăm în considerare cheltuielile de cercetare și dezvoltare, echipamentele hardware și experimentele.
Așadar, experții în AI spun că popularitatea lui DeepSeek este ceva pozitiv pentru industrie, deoarece reduce costurile exorbitante ale resurselor și permite accesul cercetătorilor și al companiilor mai mici. De asemenea, ar putea crea loc pentru apariția altor dezvoltatori de cipuri, în afară de Nvidia.
Sursa: Live Science