Deepfakes nem felel meg a gépi tanulásnak - itt van

Yamaha EZ-AG guitar test

Yamaha EZ-AG guitar test

Tartalomjegyzék:

Anonim

A téves információk új formája az internetes közösségeken keresztül terjed, mivel a 2018-as félidős választási kampányok felmelegednek. A technikát népszerűsítő álneves online fiók után „deepfakes” -nek nevezték, amely a nevét azért választotta, mert a folyamat egy „mély tanulás” nevű technikai módszert használ - ezek a hamis videók nagyon reálisnak tűnnek.

Eddig az emberek a pornográfiában és a szatíraban használják a deepfake videókat, hogy úgy tűnik, hogy a híres emberek csinálnak dolgokat, amiket általában nem. De a kampányszezon ideje alatt szinte bizonyos mélytörések jelennek meg, amelyek jelzik a jelölteket, akik azt mondják, hogy a dolgok vagy a helyek elhelyezésére kerül sor.

Mivel ezek a technikák annyira újok, az embereknek nehézségei vannak a valódi videók és a deepfake videók közötti különbség kimutatására. Ming-Ching Chang kollégámmal és a Ph.D. Yuezun Li hallgatója megtalálta a módját, hogy megbízhatóan elmondja a valós videókat a deepfake videókból. Ez nem állandó megoldás, mert a technológia javul. De ez egy kezdet, és remélem, hogy a számítógépek képesek lesznek segíteni az embereknek az igazságot a fikcióról.

Mi az a "Deepfake"?

A deepfake videó készítése nagyon hasonlít a nyelvek közötti fordításra. Olyan szolgáltatások, mint a Google Fordító, a gépi tanulást - több tízezer szöveg többnyelvű számítógépes elemzését - használják a fordítás használatához használt szóhasználati minták felismeréséhez.

A Deepfake algoritmusok ugyanúgy működnek: olyan típusú gépi tanulási rendszert használnak, amelyet egy mély neurális hálózatnak neveznek, hogy megvizsgálják egy személy arcmozgását. Ezután egy másik személy arcát képezik az analóg mozgásokkal. Ezzel hatékonyan létrehoz egy videót a cél személytől, aki úgy tűnik, hogy csinál, vagy azt mondja, hogy mit csinált a forrásszemély.

Mielőtt megfelelően működnének, a mély neurális hálózatoknak sok forrásinformációra van szükségük, mint például azoknak a személyeknek a fotói, akik a személyiség forrása vagy célja. Minél több képet használnak a deepfake algoritmus képzésére, annál realisztikusabb lesz a digitális megszemélyesítés.

Villogás észlelése

Még mindig vannak hibák az új típusú algoritmusban. Egyikük köze van a szimulált arcok villogásához - vagy nem. Az egészséges felnőtt emberek két-tíz másodpercenként villognak, és egyetlen villogás egy másodperc és négy másodperc között mozog. Ez az, ami normális lenne, ha egy beszélő személy videójába néz. De ez nem az, ami sok deepfake videóban történik.

Amikor egy deepfake algoritmust egy személy arcképein képeznek, az attól függ, hogy az interneten elérhető képek milyen képzési adatokként használhatók. Még azoknak is, akik gyakran fényképeztek, kevés kép áll rendelkezésre az interneten. Nemcsak az ilyen képek ritkák - mert az emberek szemei ​​nyitottak a legtöbbször, de a fotósok általában nem teszik közzé azokat a képeket, ahol a fő témák zárva vannak.

A villogó emberek képeinek képzése nélkül a deepfake algoritmusok kevésbé valószínű, hogy olyan arcokat hoznak létre, amelyek normálisan villognak.Amikor kiszámítjuk a villogás összességét és összehasonlítjuk azt a természetes tartományban, úgy találtuk, hogy a deepfake videókban szereplő karakterek sokkal kevésbé villognak a valódi emberekhez képest. Kutatásunk a gépi tanulást használja a szem megnyitásának és zárásának vizsgálatára a videókban.

Lásd még: Hollywood nem fog ázsiai-amerikai csillagokat, hanem A.I. Gépi tanulás

Ez inspirációt ad nekünk a deepfake videók felderítésére. Ezt követően egy olyan módszert dolgozunk ki, amellyel észlelhető, hogy a videó személye villog. Konkrétabbá tétele érdekében a kérdéses videó egyes képkockáit szkenneli, felismeri a benne lévő arcokat, majd automatikusan megkeresi a szemet. Ezután egy másik mély neurális hálózatot használ, hogy meghatározza, hogy a detektált szem nyitott vagy zárt, a szem megjelenését, geometriai jellemzőit és mozgását használva.

Tudjuk, hogy munkánk kihasználja azt a hibát, ami a deepfake algoritmusok képzéséhez rendelkezésre áll. Annak érdekében, hogy elkerüljék a hasonló hibákat, képeztük a rendszerünket a nyitott és zárt szemek nagy könyvtára. Úgy tűnik, hogy ez a módszer jól működik, és ennek eredményeként több mint 95 százalékos észlelési arányt értünk el.

Természetesen ez nem az utolsó szó a mélytörzsek felderítéséről. A technológia gyorsan fejlődik, és a hamis videók létrehozása és felderítése közötti verseny hasonló a sakkjátékhoz. Különösen villogást lehet hozzáadni a deepfake videókhoz úgy, hogy az arcképeket csukott szemmel vagy videofelvételeket használva képzéseket készít. Azok az emberek, akik meg akarják zavarni a nyilvánosságot, jobban fognak hibás videókat készíteni - és mi és mások a technológiai közösségben továbbra is megtalálniuk kell azokat a módokat, amelyekkel felismeri őket.

Ezt a cikket eredetileg a The Conversation of Siwei Lyu-ban tették közzé. Olvassa el az eredeti cikket itt.