AI dabar gali suprasti jūsų vaizdo įrašus žiūrėdamas juos

May 09, 2022
ĮProtingas Ir Sujungtas Gyvenimas Žinios

Tyrėjai teigia, kad jie gali išmokyti dirbtinį intelektą žymėti vaizdo įrašus žiūrėdami ir klausydami.
AI sistema išmoksta vaizduoti duomenis, kad užfiksuotų sąvokas, kuriomis dalijasi vaizdo ir garso duomenys.
Tai dalis pastangų išmokyti dirbtinį intelektą, kaip suprasti sąvokas, kurias žmonėms nesunku išmokti, bet kurias sunku suvokti kompiuteriams.

Dirbtinio intelekto robotas, liečiantis futuristinių duomenų ekraną. — Yuichiro Chino / Getty Images

Nauja dirbtinio intelekto sistema (AI) galėtų žiūrėti ir klausytis jūsų vaizdo įrašų ir pažymėti vykstančius dalykus.

MIT mokslininkai turi sukūrė techniką kuri moko AI užfiksuoti vaizdo ir garso veiksmus. Pavyzdžiui, jų metodas gali suprasti, kad vaizdo įraše verkiančio kūdikio veiksmas yra susijęs su ištartu žodžiu „verkia“ garso klipe. Tai dalis pastangų išmokyti dirbtinį intelektą, kaip suprasti sąvokas, kurias žmonėms nesunku išmokti, bet kurias sunku suvokti kompiuteriams.

„Paprasta mokymosi paradigma, prižiūrimas mokymasis, gerai veikia, kai turite gerai aprašytus ir išsamius duomenų rinkinius“, – AI ekspertas.

Filas Vinderis „Lifewire“ sakė interviu elektroniniu paštu. „Deja, duomenų rinkiniai retai būna baigti, nes realus pasaulis turi blogą įprotį pateikti naujas situacijas.

Protingesnis AI

Kompiuteriams sunku išsiaiškinti kasdienius scenarijus, nes jiems reikia kaupti duomenis, o ne garsą ir vaizdus, kaip žmonėms. Kai mašina „mato“ nuotrauką, ji turi užkoduoti tą nuotrauką į duomenis, kuriuos gali naudoti tokiai užduočiai kaip vaizdo klasifikacija atlikti. AI gali užstrigti, kai įvestis yra kelių formatų, pvz., vaizdo įrašų, garso klipų ir vaizdų.

„Pagrindinis iššūkis čia yra, kaip mašina gali suderinti tuos skirtingus būdus? Mums, žmonėms, tai lengva“, Aleksandras LiuMIT tyrėjas ir pirmasis straipsnio apie šią temą autorius, sakoma pranešime spaudai. „Mes matome automobilį, tada girdime važiuojančio automobilio garsą ir žinome, kad tai yra tas pats dalykas. Tačiau mašininiam mokymuisi tai nėra taip paprasta.

Liu komanda sukūrė dirbtinio intelekto techniką, kuri, jų teigimu, išmoksta pavaizduoti duomenis, kad užfiksuotų sąvokas, kuriomis dalijasi vaizdo ir garso duomenys. Naudodamiesi šiomis žiniomis, jų mašininio mokymosi modelis gali nustatyti, kur vaizdo įraše vyksta konkretus veiksmas, ir jį pažymėti.

Naujasis modelis ima neapdorotus duomenis, pvz., vaizdo įrašus ir atitinkamas jų teksto antraštes, ir užkoduoja juos, išskirdamas vaizdo įraše esančius objektus ir veiksmus. Tada jis susieja tuos duomenų taškus tinklelyje, vadinamame įterpimo erdve. Modelis sugrupuoja panašius duomenis į vieną tinklelio tašką; kiekvienas iš šių duomenų taškų arba vektorių yra pavaizduotas atskiru žodžiu.

Pavyzdžiui, žongliruojančio asmens vaizdo klipas gali būti susietas su vektoriumi, pažymėtu „žongliravimas“.

Tyrėjai sukūrė modelį taip, kad vektoriams žymėti būtų galima naudoti tik 1000 žodžių. Modelis gali nuspręsti, kuriuos veiksmus ar sąvokas nori užkoduoti į vieną vektorių, tačiau jis gali naudoti tik 1000 vektorių. Modelis pasirenka žodžius, kurie, jo nuomone, geriausiai atspindi duomenis.

„Jei yra vaizdo įrašas apie kiaules, modelis gali priskirti žodį „kiaulė“ vienam iš 1000 vektorių. Tada, jei modelis girdi, kad kažkas garso klipe sako žodį „kiaulė“, jis vis tiek turėtų naudoti tą patį vektorių, kad užkoduotų“, – aiškino Liu.

Jūsų vaizdo įrašai, iššifruoti

Geresnės ženklinimo sistemos, tokios kaip MIT sukurta, galėtų padėti sumažinti DI šališkumą, Marianas Bezedesas, biometrinių duomenų įmonės „Innovatrics“ tyrimų ir plėtros vadovas pasakojo „Lifewire“ interviu el. paštu. Beszedesas pasiūlė duomenų pramonei AI sistemas žiūrėti iš gamybos proceso perspektyvos.

„Sistemos priima neapdorotus duomenis kaip įvestį (žaliavas), juos iš anksto apdoroja, įsisavina, priima sprendimus ar prognozes ir išveda analizę (gatavą produkciją)“, – sakė Bešedesas. „Šį proceso srautą vadiname „duomenų gamykla“ ir, kaip ir kitus gamybos procesus, jam turėtų būti taikoma kokybės kontrolė. Duomenų pramonė turi vertinti AI šališkumą kaip kokybės problemą.

„Žvelgiant iš vartotojų perspektyvos, neteisingai pažymėti duomenys apsunkina, pvz., konkrečių vaizdų / vaizdo įrašų paiešką internete“, - pridūrė Beszedes. „Naudodami tinkamai sukurtą dirbtinį intelektą, galite žymėti automatiškai, daug greičiau ir neutraliau nei ženklindami rankiniu būdu.

MIT AI modelis, nustatantis, kur vaizdo įraše vyksta tam tikras veiksmas, ir jį paženklinti. — MIT naujienos

Tačiau MIT modelis vis dar turi tam tikrų apribojimų. Pirma, jų tyrimai buvo sutelkti į duomenis iš dviejų šaltinių vienu metu, tačiau realiame pasaulyje žmonės vienu metu susiduria su daugybe informacijos rūšių, sakė Liu.

„Ir mes žinome, kad 1000 žodžių veikia su tokio tipo duomenų rinkiniu, bet nežinome, ar tai gali būti apibendrinta iki realios problemos“, - pridūrė Liu.

MIT mokslininkai teigia, kad jų naujoji technika pranoksta daugelį panašių modelių. Jei dirbtinis intelektas gali būti išmokytas suprasti vaizdo įrašus, galiausiai galėsite nežiūrėti draugo atostogų vaizdo įrašų ir vietoj to gauti kompiuteriu sukurtą ataskaitą.