ALGORITAM ZA HUMOR

Jan Šnajder: Za 64 posto tweetova naš program već sada pogađa jesu li duhoviti ili ne

    AUTOR:
    • Tomislav Novak

  • OBJAVLJENO:
  • 27.02.2017. u 18:00

Marko Miščević / HANZA MEDIA

Prvi problem bio je kako stroju uopće objasniti tweet da ga razumije, zbog čega su FER-ovci prvo pretvorili slova u brojke, koje onda stroj sam uspoređuje metodama strojnog učenja

Mogu li strojevi biti duhoviti? Razumiju li humor, mogu li ga prepoznati? Postoji li algoritam za humor?

Na ova pitanja odgovore traže na Fakultetu elektrotehnike i računarstva, čiji tim je na upravo završenom uglednom međunarodnom natjecanju Semeval u kategoriji #HashtagWars svojim rješenjem osvojio drugo mjesto.

Zadatak je bio da stroj otkrije koji je od dva ponuđena tweeta duhovitiji, a FER-ovo rješenje točan odgovor pogodilo je u 64,1 posto slučajeva.

O čemu je zapravo riječ?

Istraživački tim koji se natjecao na SemEvalu dolazi iz ZEMRIS-a, Zavoda za elektroniku, mikroelektroniku, računalne i inteligentne sustave, točnije iz TakeLaba (Laboratorija za analizu teksta i inženjerstvo znanja) u kojem 30-ak studenata i doktoranda pod vodstvom izv. prof. dr. sc. Jana Šnajdera među ostalim istražuje kako se ljudi izražavaju na društvenim mrežama, kakve sadržaje dijele i kakva su im stajališta, i to uz pomoć strojnog učenja pod kapom umjetne inteligencije.

Detekcija smiješnog

Na SemEvalu su se prijavili u različitim kategorijama, a posebno je zanimljiva kategorija detekcije humora. Natjecanje je počelo lani u listopadu, a završilo u veljači.

- Zadatak je bio analiza humora na Twitteru i to putem natjecanja na američkoj televiziji, točnije na Comedy Central kanalu. U showu Midnight koji vodi Chris Hardwick gledateljima ponude hashtag na neku temu, a onda gledatelji odabiru najsmješnije tweetove. A onda na red dolazimo mi - kaže Jan Šnajder.

Pojednostavljeno, timovi su morali naučiti računalo da točno odaberu onaj duhovitiji između dva ponuđena tweeta, odnosno da to bude isti tweet koji su i gledatelji odabrali kao duhovitiji.

- Već sama strojna obrada jezika vrlo je zahtjevna zbog višeznačnosti jezika na svim razinama. Humor je još više zahtjevan jer vrlo duboko zadire u pozadinsko znanje čovjeka. Da bi nam nešto bilo duhovito, moramo dobro znati kontekst. Zadatak smo dali našim studentima koji su pod vodstvom doktoranda Domagoja Alagića entuzijastično danima i noćima od listopada radili na problemu - opisuje Šnajder.

Prvi problem bio je kako stroju uopće objasniti tweet da ga razumije, što zapravo, objašnjavaju mi na FER-u, znači pretvoriti slova u brojke, koje onda stroj sam uspoređuje metodama strojnog učenja.

- Naš tim obradio je golemu količinu tweetova kako bi utvrdili zašto je jedan duhovitiji od drugog. Pripremili su veliku bazu podataka i proveli 30-ak različitih testova - govori i daje nekoliko primjera.

Korisnici na Twitteru recimo često u svima poznate izreke ili filmske naslove ubace samo jednu riječ tako da izreka ili naslov ostanu prepoznatljivi, ali ih dovoljno izmijenjeni da budu duhoviti (npr. Exorcist i Brexorcist). Zato su FER-ovci morali pripremiti bazu čestih izreka i naslova i algoritamski provjeravali kako se mijenjaju riječi u njima.

Ključne brojke

U drugom testu tragali su za velikim kontrastima između atributa i entiteta, odnosno postoji li statističko odstupanje između semantike pridjeva i imenice.

- Primjerice, Conan The Apologizer. Conan se neće ispričavati, zato je to duhovito, i takve su kontraste tražili - govori Šnajder.

A onda su nakon puno eksperimentiranja sve podatke i analize ubacili u algoritme strojnog učenja koji su na tim temeljima uvjetno rečeno sami počeli učiti.

- Sve tweetove pretvorili smo u brojke uz pomoć ovakvih testova koji su utemeljeni na ljudskoj intuiciji. Strojevi mogu biti inteligentni, ali tek kad im ljudi pripreme znanje. Ovdje se napreduje malim koracima, ne postoje rješenja preko noći, idemo sporo, ali dosljedno. Ali točnost od 64,1 posto i nas je iznenadila - kaže.

Studenti koji su radili na projektu redom su na trećoj godini preddiplomskog studija Računarsta, a zovu se Marin Kukovačec, Juraj Malenica, Ivan Mršić i Antonio Šajatović.

Iz drugih medija