Ali OpenAI pretirava? Model o3 dosega manj, kot je bilo napovedano

[Foto: Pixabay]

Ali OpenAI pretirava? Model o3 dosega manj, kot je bilo napovedano

OpenAI-jev najnovejši model umetne inteligence, o3, je ob javni predstavitvi prejšnji teden sprožil nekaj polemik, in sicer zaradi neskladja med prvotno napovedanimi in dejanskimi rezultati na merilih uspešnosti. Podjetje je decembra trdilo, da o3 dosega izjemne rezultate na zahtevnem nizu matematičnih problemov FrontierMath, a neodvisni testi raziskovalnega inštituta Epoch AI kažejo bistveno nižje vrednosti. Slednje pa odpira vprašanja o preglednosti OpenAI-ja pri testiranju in objavljanju rezultatov, pa tudi o razlikah med interno in javno različico modela.

Ko je OpenAI decembra lani predstavil o3, je glavni raziskovalec Mark Chen poudaril, da model v optimalnih pogojih doseže več kot 25 odstotkov pravilnih odgovorov na nalogah FrontierMath, kar je močno preseglo konkurenco, saj je naslednji najboljši model dosegel le okoli 2 odstotka. Epoch AI pa je v petek objavil rezultate neodvisnega testiranja, ki kažejo, da javna različica o3 dosega le približno 10 odstotno uspešnost. Razlika je očitna, saj je OpenAI-jeva prvotna ocena temeljila na zmogljivejši različici modela z več računalniške moči, ki ni enaka tisti, ki je bila dana na voljo javnosti, piše Tech Crunch.

Epoch AI je opozoril, da razlika morda izhaja iz različnih testnih pogojev, vključno z uporabo posodobljene različice FrontierMath ali manjše podmnožice problemov. »Naši rezultati se razlikujejo od OpenAI-jevih, ker so ti morda uporabljali zmogljivejše notranje ogrodje ali več računalništva,« so zapisali pri Epochu. Kljub temu neskladje vzbuja dvome o tem, kako OpenAI predstavlja zmogljivosti svojih modelov.

Optimizacija za uporabnost, ne za merila

OpenAI je ob izdaji o3 skupaj z manjšim modelom o4-mini poudaril, da je javna različica o3 optimizirana za praktično uporabo, kot so hitrost in stroškovna učinkovitost, namesto za doseganje najvišjih rezultatov na merilih. Wenda Zhou, članica tehničnega osebja pri OpenAI, je pojasnila, da je model v proizvodnji prilagojen za »resnične primere uporabe«, kar lahko vodi do razlik v primerjalnih rezultatih. »Model je stroškovno učinkovitejši in hitrejši, kar je pri takšnih modelih ključno,« je dejala Zhou.

ARC Prize Foundation, ki je testirala predizdajno različico o3, je potrdila, da je javni model drugačen, prilagojen za klepet in splošno uporabo, z manjšo računalniško zmogljivostjo. »Vse izdane ravni o3 so manjše od različice, ki smo jo testirali,« so zapisali. To potrjuje, da so bili decembrski rezultati doseženi z močnejšim sistemom, ki ni enak javnemu modelu.

Polemike v industriji umetne inteligence

Neskladja pri merilih uspešnosti niso novost v industriji umetne inteligence. Podjetja, ki tekmujejo za pozornost in tržni delež, pogosto objavljajo optimistične rezultate, ki ne odražajo vedno realnosti. Januarja je bil Epoch AI deležen kritik, ker ni razkril financiranja s strani OpenAI, dokler model o3 ni bil javno predstavljen. Podobno je bil xAI Elona Muska nedavno obtožen zavajajočih primerjalnih grafikonov za model Grok 3, Meta pa je priznala, da je oglaševala rezultate za različico modela, ki ni bila dana na voljo razvijalcem.

Primer OpenAI-ja z o3 tako ni osamljen, temveč del širšega vzorca, kjer merila uspešnosti postajajo predmet razprav. OpenAI kljub temu načrtuje izdajo zmogljivejše različice o3-pro v prihodnjih tednih, kar bi lahko dodatno razjasnilo zmogljivosti njihovih modelov.

Portal24; Foto: Pixabay