Forenzična analiza posnetkov Vuković: devet testov brez indikatorjev umetne inteligence

E. K.

3 meseci ago

V javnosti so v zadnjih dneh zaokrožili zvočni posnetki pogovorov, v katerih nastopajo posamezni funkcionarji vladajoče stranke. Po objavi posnetkov so v Gibanju Svoboda in na nekaterih državnih institucijah zatrdili, da naj bi bili posnetki “obdelani z umetno inteligenco” oziroma da gre za “ponarejene vsebine”.

Strokovnjak za statistične analize dr. Niko Gamulin je na družbenem omrežju X objavil obsežno tehnično analizo dveh javno dostopnih posnetkov. V zapisu opisuje metodo preverjanja ter predstavi rezultate devetih forenzičnih testov, s katerimi je poskušal ugotoviti, ali posnetki kažejo znake umetno generiranega zvoka.

Ker gre za kompleksno tehnično razlago, v uredništvu besedilo objavljamo v celoti, da se ohrani njegov kontekst in metodološka razlaga. Gre za avtorsko analizo dr. Nika Gamulina, objavljeno na omrežju X, zato predstavljena stališča in interpretacije odražajo njegovo strokovno presojo.

Dr. Niko Gamulin: 9 forenzičnih testov. 0 indikatorjev umetne inteligence.

Gibanje Svoboda je v odzivu za medije navedlo, da so posnetki pogovorov nekdanje generalne sekretarke stranke Vesne Vuković “obdelani z umetno inteligenco”. Enako je zatrdil generalni sekretariat vlade. Infrastrukturno ministrstvo je govorilo o “ponarejenih in lažnih vsebinah”.

RTV Slovenija je trditev povzela v naslovu članka. Noben medij je ni preveril.

Jaz sem jo preveril.

Na strani

Padajo maske

je objavljenih več posnetkov pogovorov funkcionarjev vladajoče stranke. Za to analizo sem prenesel dva — pogovor Vuković-Vonta (3 minute 45 sekund) in pogovor Vuković-Helbl (1 minuta 39 sekund) — in ju podvrgel devetim neodvisnim forenzičnim testom. Nisem sodni izvedenec za digitalno forenziko. A za to, da prepoznaš, kaj podatki kažejo, izvedenstvo ni potrebno. Potrebno je le, da podatke dejansko pogledaš.

Kako se sploh prepozna, ali je posnetek umetno generiran

Preden pokažem rezultate, moram razložiti, kaj sploh iščemo. Vsak zvočni posnetek nosi v sebi informacije, ki jih človek ne sliši, a jih instrumenti zaznajo. Tako kot zdravnik na rentgenski sliki vidi zlom, ki ga pacient občuti le kot bolečino, spektralna analiza razkrije strukturo zvoka, ki jo uho presliši.

Pasovna širina je razpon frekvenc, ki jih posnetek vsebuje. Človeški glas pokriva frekvenčni pas od približno 85 do 8.000 hertzov (Hz). Ko govorimo po telefonu, operater ta razpon omeji na 300–3.400 Hz — zato telefonski glas zveni »tanjše« kot glas v živo. To je namerna omejitev, ki jo naredi telefonski kodek. Ko pa umetna inteligenca generira govor — recimo sistemi kot so ElevenLabs, OpenAI ali Microsoft VALL-E, generira celoten frekvenčni razpon, tipično do 8.000 ali celo 16.000 Hz. To je ključna razlika:

📊 Telefonski posnetek ima ozko pasovno širino (pod 3.400 Hz). AI-generiran govor ima široko pasovno širino (nad 8.000 Hz). Če posnetek nima energije nad 2.000 Hz, ga s trenutno tehnologijo umetne inteligence ni mogoče ustvariti brez naknadnega filtriranja, ki bi pustilo lastne sledi.

Omrežna frekvenca (ENF) je morda najprepričljivejši kazalnik. Povsod, kjer obstaja električna napeljava — v stanovanju, pisarni, avtu z vžganim motorjem — je prisoten rahel elektromagnetni brum pri 50 hertzih (v Evropi) ali 60 hertzih (v Ameriki). Ta brum je prešibek, da bi ga slišali, a ga mikrofon zajame in shrani v posnetek. Kot nevidni prstni odtis prostora, v katerem je bil posnetek narejen. Umetna inteligenca tega bruma ne generira — ker ga ne pozna. Njegova prisotnost v posnetku je eden najmočnejših dokazov, da je bil zvok dejansko zajet z mikrofonom v resničnem prostoru.

Variabilnost pavz je značilnost, ki loči naravni govor od sintetičnega. Ko govorimo, delamo pavze nepredvidljivo, včasih 50 milisekund med besedami, včasih dve sekundi, ko razmišljamo. Koeficient variacije (razmerje med standardnim odklonom in povprečjem) naravnih pavz je tipično nad 1,0 — to pomeni, da je razpršenost pavz večja od njihovega povprečnega trajanja. AI-generirani govor ima pavze bolj enakomerne, s koeficientom variacije pod 0,5. Človeški govor je kaotičen. Sintetični je urejen.

Poleg teh treh obstajajo še drugi kazalniki: konsistentnost šumnega ozadja (ali se okoliški šum spreminja kot v resničnem prostoru ali je konstanten kot pri AI), ponavljajoči vzorci (ali so bili deli posnetka kopirani in prilepljeni), fazna kontinuiteta (ali obstajajo nenadni skoki v valovni obliki, ki kažejo na reze) in kvantizacija (ali je bil posnetek večkrat pretvorjen med formati).

Posnetek 1: Vuković – Vonta

Posnetek traja 3 minute in 45 sekund. Objavljen je bil na Facebooku kot Reel — statična fotografija s podnapisi in zvokom. Datum na posnetku: 19. oktober 2023.

Pasovna širina

99,9 % energije posnetka je pod 1.609 Hz. Nad 2.000 Hz ni praktično ničesar. To je profil telefonskega posnetka — še ožji od standardnega telefonskega kodeka (3.400 Hz), kar kaže na dodatno kompresijo, značilno za VoIP ali snemanje telefonskega klica.

Za primerjavo: ElevenLabs, najnaprednejši javno dostopni sistem za sintezo govora, generira avdio s pasovno širino do 24.000 Hz. Tudi najslabši AI sistemi generirajo avdio z energijo vsaj do 8.000 Hz. Ta posnetek je imel 99,9 % energije pod 1.609 Hz — razlika je petkratna.

Omrežna frekvenca

Četrti harmonik omrežne frekvence (200 Hz) je jasno prisoten s signalno-šumnim razmerjem 6,2-kratnik. To pomeni, da je bil posnetek narejen v prostoru z električno napeljavo. Ne v računalniku. Ne v algoritmu. V sobi, kjer teče tok.

ENF analizo uporabljajo sodni izvedenci po vsem svetu, vključno z FBI in Europolom, za verifikacijo pristnosti zvočnih posnetkov. Gre za enega najzanesljivejših forenzičnih kazalnikov, ker ga je izjemno težko ponarediti — zahteval bi natančno poznavanje obremenitve električne mreže v tistem prostoru v tistem trenutku.

Pavze

V posnetku je 321 pavz. Njihov koeficient variacije je 1,47 — skoraj trikrat višji od tistega, ki ga tipično proizvede umetna inteligenca (pod 0,5). Porazdelitev je močno asimetrična: veliko zelo kratkih pavz, redke dolge. Točno takšen vzorec nastane, ko resnična oseba govori v neformalnem pogovoru — hitre besede, potem razmislek, potem spet hiter izbruh.

Šumno ozadje

Šumno ozadje variira med segmenti od RMS 196 do 454 — razmerje 2,3-kratnik. To je konsistentno z realnim okoljem, kjer se zvoki spreminjajo. AI-generirani posnetki imajo tipično konstantno šumno ozadje, ker algoritem producira celoten signal hkrati.

Montaža

Nič ne kaže na montažo. Nobena sekunda posnetka se ne ponavlja drugje. Ni faznih skokov (nenadnih prekinitev v valovni obliki). Ni spektralnih preskokov (nenadnih sprememb v razmerju frekvenčnih pasov). Posnetek je enoten od začetka do konca.

Posnetek 2: Vuković – Helbl

Posnetek traja 1 minuto in 39 sekund. Vizualni okvir: kolaž dveh fotografij z napisom “Pogovor Vesne Vukovič in Barbare Helbl”.

Rezultati so konsistentni s posnetkom 1. Pasovna širina: 99,9 % energije pod 2.016 Hz — še vedno telefonska kakovost. Omrežna frekvenca prisotna (šibkejša kot pri posnetku 1 — konsistentno z drugim prostorom ali drugo razdaljo od napeljave, ne z drugim virom). Koeficient variacije pavz: 0,78 — zmeren, a še vedno v rangu naravnega govora. Ponavljajoči vzorci: nič. Montaža: nič. Spektralna konsistentnost izjemno stabilna — centroid 938 ± 62 Hz, brez nenadnih preskokov.

Razlike med posnetkoma — drugačno šumno ozadje (višje pri posnetku 2), drugačna moč ENF signala, rahlo drugačna pasovna širina — so konsistentne z dvema ločenima pogovoroma, posnetima v različnih prostorih ali ob različnem času. To je ravno nasprotje tistega, kar bi pričakovali pri AI generaciji: če bi nekdo generiral oba posnetka z istim algoritmom, bi bili forenzični profili bolj podobni, ne manj.

Kdo je snemal

Spektralna analiza omogoča tudi sklepanje o načinu snemanja. Ko ena stran telefonskega pogovora snema svoj klic z zunanjim mikrofonom, ima njen glas širšo pasovno širino (zajame ga mikrofon neposredno), glas sogovornika pa ožjo (pride skozi telefonski kodek). Ta razlika se imenuje near-end / far-end asimetrija in je jasno merljiva.

V obeh posnetkih te asimetrije ni. Oba govorca imata identično pasovno širino. Stereo kanala sta popolnoma enaka (korelacija 1,000000 — do šeste decimalne mesta). Gre za mono signal v stereo ovoju.

To pomeni, da sta oba govorca šla skozi isti kanal — bodisi prestrezanje telefonske linije (wiretap), bodisi aplikacija za snemanje klicev na eni od naprav. Scenarij, v katerem bi ena stran snemala z zunanjim mikrofonom — recimo s telefonom na mizi med pogovorom po zvočniku — je izključen, ker bi v tem primeru prišlo do razlik v pasovni širini in prostorske reverberacije, ki je v posnetkih ni.

“Obdelani z umetno inteligenco”

Zdaj pa k bistvu.

Gibanje Svoboda je 9. marca 2026 trdilo, da so posnetki »obdelani z umetno inteligenco«. Generalni sekretariat vlade je govoril o »domnevnih nezakonitih prisluhih, očitno prirejenih z uporabo umetne inteligence«. Infrastrukturno ministrstvo je govorilo o »ponarejenih in lažnih vsebinah«.

Nobena od teh izjav ni bila podprta z ničimer. Ni forenzičnega poročila. Ni identifikacije konkretnega znaka AI obdelave. Ni neodvisne analize. Ni niti navedbe, kateri del posnetka naj bi bil sintetičen.

To je primerljivo s situacijo, v kateri bi obdolženec na sodišču rekel: »Dokazi so ponarejeni« — in sodnik bi odgovoril: »V redu.« Brez izvedenskega mnenja. Brez protianalitike. Brez obrazložitve.

V forenziki trditev brez dokaza ni trditev. Je izjava za medije.

🔴 Za verodostojno ovržbo pristnosti posnetka bi stranka morala:

1. Naročiti neodvisno forenzično analizo pri certificiranem izvedencu. 2. Identificirati konkretne spektralne ali temporalne anomalije, ki kažejo na AI. 3. Predložiti izvorni posnetek za neodvisno preverjanje.

Nič od tega se ni zgodilo.

Namesto tega je stranka izjavila tri besede — »obdelani z umetno inteligenco« — in računala na to, da jih ne bo nihče preveril. RTV Slovenija jih ni. 24ur jih ni. In če jih ne bi preveril jaz, bi te tri besede postale dejstvo brez podlage.

Za primerjavo

Oktober 2021. Na 24ur Zvečer objavijo posnetek pogovora med ministrom Andrejem Vizjakom in poslovnežem Bojanom Petanom iz leta 2007. Posnetek je star 14 let. Vizjak sprva trdi, da je “lepljenka”.

Kaj se zgodi? KPK izvede lastno analizo. Mediji podrobno poročajo o vsebini posnetka — kaj je bilo rečeno, kdo je kaj rekel, kakšne so implikacije. RTV Slovenija objavi vsaj 8 ločenih člankov. Naslovi citirajo vsebino: “nagovarja Petana, naj se izogne plačilu davka”. Vizjak je na koncu sam priznal pristnost posnetka.

Marec 2026. Na družbenih omrežjih se pojavita posnetka pogovorov funkcionarjev vladajoče stranke. Gibanje Svoboda trdi, da so “obdelani z umetno inteligenco” — brez dokaza. RTV Slovenija objavi en članek. Naslov ne citira vsebine posnetka, ampak odziv stranke. Beseda “domnevni” se pojavi petkrat. Kaj je na posnetku dejansko rečeno — nikjer opisano. Tri četrtine članka sestavljajo odzivi vladne strani.

Isti medij. Ista vrsta posnetka. Različna stranka. Različen odzivni čas, obseg in pristop.

Kaj kažejo podatki

Devet neodvisnih testov na dveh analiziranih posnetkih. Noben ne podpira trditve o umetni inteligenci. Vsi kažejo na realne telefonske posnetke — ozka pasovna širina, prisotnost omrežne frekvence, naravna variabilnost pavz, spremenljivo šumno ozadje, brez montaže.

Nisem sodni izvedenec. A Gibanje Svoboda tudi ni. Razlika: jaz sem posnetka analiziral. Oni so izdali sporočilo za javnost.

Kdor želi te rezultate preveriti, lahko posnetka prenese sam in ponovi analizo. Vse metode so opisane, vsa orodja javno dostopna. Forenzična analiza ni stvar zaupanja — je stvar ponovljivosti.

Omejitve: Analiza je bila izvedena na komprimiranih Facebook verzijah posnetkov (AV1 video + HE-AAC avdio), ne na izvornih datotekah. Kompresija lahko zakrije nekatere subtilne sledi. Za pravno veljavno analizo bi bil potreben izvorni nekomprimiran posnetek in certificiran forenzični laboratorij. ENF verifikacija (ujemanje z uradno bazo podatkov ENTSO-E za datum 19. 10. 2023) bi zahtevala izvorni posnetek.

Orodja: ffprobe (metapodatki), NumPy/Python (FFT spektralna analiza, ENF detekcija, avtokorelacija, fazna analiza, kvantizacijska analiza), OpenAI Whisper (transkripcija).