Relative attributter

Original artikel: https://faculty.cc.gatech.edu/~parikh/relative.html

Vinder af Marr-prisen (bedste papirpris), ICCV 2011

Devi Parikh og Kristen Grauman

"Hvem i regnbuen kan trække linjen, hvor den violette farve ender, og den orange farve begynder? Tydeligt ser vi forskellen på farverne, men præcis hvor går det ene først blandende ind i det andet? Altså med fornuft og sindssyge."

-- Herman Melville, Billy Budd

[papir] [data] [kode] [demoer] [dias] [snak (video)] [plakat] [oversættelser]

Abstrakt

Visuelle "attributter", der kan navngives af mennesker, kan gavne forskellige genkendelsesopgaver. Eksisterende teknikker begrænser imidlertid disse egenskaber til kategoriske etiketter (f.eks. "smiler" en person eller ej, en scene er "tør" eller ej), og kan derfor ikke fange mere generelle semantiske relationer. Vi foreslår at modellere relative attributter. Givet træningsdata, der angiver, hvordan objekt-/scenekategorier relaterer sig til forskellige attributter, lærer vi en rangeringsfunktion pr. attribut. De indlærte rangeringsfunktioner forudsiger den relative styrke af hver egenskab i nye billeder. Vi bygger derefter en generativ model over det fælles rum af attributrangeringsoutput og foreslår en ny form for nul-skudslæring, hvor vejlederen fortællerden usete objektkategori til tidligere sete objekter via attributter (f.eks. 'bjørne er pelsrigere end giraffer'). Vi viser yderligere, hvordan de foreslåede relative attributter muliggør rigere tekstbeskrivelser for nye billeder, som i praksis er mere præcise til menneskelig fortolkning. Vi demonstrerer tilgangen til datasæt af ansigter og naturlige scener og viser dens klare fordele i forhold til traditionel binær attributforudsigelse for disse nye opgaver.

Motivering

Binære attributter er restriktive og kan være unaturlige. I ovenstående eksempler, mens man kan karakterisere billedet øverst til venstre og øverst til højre som henholdsvis naturligt og menneskeskabt, hvad vil du så beskrive billedet øverst i midten som? Den eneste meningsfulde måde at karakterisere det på er med hensyn til de andre billeder: det er mindre naturligt end billedet til venstre, men mere end billedet til højre.

Forslag

I dette arbejde foreslår vi at modellere relative attributter. I modsætning til at forudsige tilstedeværelsen af ​​en egenskab, angiver en relativ egenskab styrken af ​​en egenskab i et billede i forhold til andre billeder. Ud over at være mere naturlige tilbyder relative attributter en rigere kommunikationsmåde, hvilket giver adgang til mere detaljeret menneskelig overvågning (og dermed potentielt højere genkendelsesnøjagtighed) samt evnen til at generere mere informative beskrivelser af nye billeder.

Vi udtænker en tilgang, der lærer en rangeringsfunktion for hver egenskab, givet relative lighedsbegrænsninger på par af eksempler (eller mere generelt en delvis rækkefølge på nogle eksempler). Den indlærte rangordningsfunktion kan estimere en rangordning med reel værdi for billeder, der angiver den relative styrke af attributtens tilstedeværelse i dem.

Vi introducerer nye former for zero-shot læring og billedbeskrivelse, der udnytter de relative egenskabsforudsigelser.

Nærme sig

Indlæring af relative egenskaber: Hver relativ egenskab læres via en formulering til at lære at rangordne, givet sammenlignende supervision, som vist nedenfor:

Forskellen mellem at lære en rangordningsfunktion med bred margin (højre), der gennemtvinger den ønskede rækkefølge på træningspunkter (1-6), og en binær klassificer med bred margin (venstre), der kun adskiller de to klasser (+ og -), og gør ikke nødvendigvis bevare en ønsket rækkefølge på punkterne er vist nedenfor:

Ny nulskudslæring : Vi studerer følgende opsætning

  • N samlede kategorier: S sete kategorier (tilknyttede billeder er tilgængelige) + U usete kategorier (ingen billeder er tilgængelige for disse kategorier)
  • S set kategorier er beskrevet i forhold til hinanden via attributter (ikke alle par af kategorier behøver at være relaterede for alle attributter)
  • U usete kategorier er beskrevet i forhold til (en delmængde af) sete kategorier i form af (en delmængde af) attributter.

Vi træner først et sæt relative egenskaber ved at bruge det tilsyn, der er givet på de sete kategorier. Disse attributter kan også fortrænes fra eksterne data. Vi bygger derefter en generativ model (Gaussisk) for hver set kategori ved at bruge svarene fra de relative attributter til billederne fra de sete kategorier. Vi udleder derefter parametrene for de generative modeller af usete kategorier ved at bruge deres relative beskrivelser med hensyn til sete kategorier. En visualisering af den enkle tilgang, vi anvender til dette, er vist nedenfor:

Et testbillede tildeles kategorien med størst sandsynlighed.

Genererer automatisk relative tekstbeskrivelser af billeder: Givet et billede I, der skal beskrives, evaluerer vi alle indlærte rangeringsfunktioner på I. For hver egenskab identificerer vi to referencebilleder, der ligger på hver side af I og ikke er for langt fra eller for tæt på I. Billede I beskrives derefter i forhold til disse to referencebilleder, som vist nedenfor:

Som det ses ovenfor, kan vores tilgang, udover at beskrive et billede i forhold til andre billeder, også beskrive et billede i forhold til andre kategorier, hvilket resulterer i en ren tekstuel beskrivelse. Det er klart, at de relative beskrivelser er mere præcise og informative end den konventionelle binære beskrivelse.

Eksperimenter og resultater

Vi udfører eksperimenter på to datasæt:

(1)Outdoor Scene Recognition (OSR) indeholder 2688 billeder fra 8 kategorier: kyst C, skov F, motorvej H, inde i by I, bjerg M, åbent land O, gade S og højbygnings T. Vi bruger hovedtræk til at repræsentere billeder.

(2) En undergruppe af Public Figures Face Database (PubFig) indeholdende 772 billeder fra 8 kategorier: Alex Rodriguez A, Clive Owen C, Hugh Laurie H, Jared Leto J, Miley Cyrus M, Scarlett Johansson S, Viggo Mortensen V og Zac Efron Z. Vi bruger sammenkædede hoved- og farvefunktioner til at repræsentere billederne.

Listen over attributter, der bruges til hvert datasæt, sammen med de binære og relative attributannoteringer er vist nedenfor:

Zero-shot læring:

Vi sammenligner vores foreslåede tilgang med to basislinjer. Den første er Score-baserede Relative Attributes (SRA). Denne baseline er den samme som vores tilgang, bortset fra at den bruger scorerne fra en binær klassifikator (binære attributter) i stedet for scorerne for en rangeringsfunktion. Denne baseline hjælper med at evaluere behovet for en rangeringsfunktion for at modellere relative attributter bedst. Vores anden baseline er Direct Attribute Prediction (DAP)-modellen introduceret af Lampert et al. i CVPR 2009. Denne baseline hjælper med at evaluere fordelene ved relativ behandling af attributter i modsætning til kategorisk. Vi evaluerer disse tilgange for varierende antal usete kategorier, varierende mængder af data, der bruges til at træne attributterne, varierende antal attributter, der bruges til at beskrive de usete kategorier, og varierende niveauer af 'løshed' i beskrivelsen af ​​usete kategorier. Detaljer om den eksperimentelle opsætning kan findes i vores papir. Resultaterne er vist nedenfor:

Autogenererede billedbeskrivelser:

For at evaluere kvaliteten af ​​vores relative billedbeskrivelser til de binære modparter, udførte vi et menneskeligt studie. Vi genererede en beskrivelse af et billede ved hjælp af vores tilgang, såvel som de binære baseline-attributter. Vi præsenterede emnerne med denne beskrivelse sammen med tre billeder. Et af de tre billeder var det billede, der blev beskrevet. Forsøgspersonernes opgave var at rangere de tre billeder ud fra, hvilket de mente var mest sandsynligt, det der blev beskrevet. Jo mere præcis beskrivelsen er, jo bedre chancer har forsøgspersonerne for at identificere det korrekte billede. En illustration af en opgave præsenteret for fagene er vist nedenfor:

Resultaterne af undersøgelsen er vist nedenfor. Vi ser, at forsøgspersoner kan identificere det korrekte billede mere præcist ved hjælp af vores foreslåede relative attributter sammenlignet med de binære attributter.

Eksempler på binære beskrivelser af billeder samt beskrivelser i forhold til kategorier er vist nedenfor:

Billede

Binære beskrivelser

Relative beskrivelser

ikke naturligt

ikke åbent

perspektiv

mere naturlig end højbygning, mindre naturlig end skov

mere åben end højbygning, mindre åben end kyst

mere perspektiv end højbygning

ikke naturligt

ikke åbent

perspektiv

mere naturlig end inde i byen, mindre naturlig end motorvej

mere åben end gade, mindre åben end kysten

mere perspektiv end motorvej, mindre perspektiv end inde i byen

naturligt

åbent

perspektiv

mere naturligt end højbygning, mindre naturligt end bjerg

mere åbent end bjerg

mindre perspektiv end åbent land

Hvid

ikke Smilende

SynligPande

mere hvid end AlexRodriguez

mere smilende end JaredLeto, mindre smilende end ZacEfron

mere VisibleForehead end JaredLeto, mindre VisibleForehead end MileyCyrus

Hvid

ikke smilende

ikke synlig pande

mere hvid end AlexRodriguez, mindre hvid end MileyCyrus mindre smilende end HughLaurie mere VisibleForehead end ZacEfron, mindre VisibleForehead end MileyCyrus

ikke Young

Bushy Eyebrows

RoundFace

mere ung end CliveOwen, mindre ung end ScarlettJohansson

mere Bushy Eyebrows end ZacEfron, mindre Bushy Eyebrows end AlexRodriguez mere RoundFace end CliveOwen, mindre RoundFace end ZacEfron

Data

Vi leverer de lærte relative egenskaber og deres forudsigelser for de to datasæt, der bruges i vores papir: Outdoor Scene Recognition (OSR) og en undergruppe af Public Figures Face Database (PubFig).

LÆS MIG

Download (v2)

Relative Face Attributes Datasæt . Den indeholder annoteringer til 29 relative attributter på 60 kategorier fra Public Figures Face Database (PubFig).

Kode

Vi modificerede Olivier Chappelles RankSVM-implementering for at træne relative attributter med lighedsbegrænsninger. Vores ændrede kode kan findes her .

Hvis du bruger vores kode, bedes du citere følgende papir:

D. Parikh og K. Grauman

Relative attributter

International konference om computersyn (ICCV), 2011.

Demoer

Demoer af forskellige anvendelser af relative attributter kan findes her. En beskrivelse af disse applikationer kan findes i papirerne her.

Publikationer

D. Parikh og K. Grauman

Relative attributter

International konference om computersyn (ICCV), 2011. (mundtlig)

Vinder af Marr-prisen (bedste papirpris).

[ slides ] [ snak (video) ] [ plakat ] [ relative beskrivelser demo ]

Følgende er vores andre papirer, der bruger relative attributter:

A. Biswas og D. Parikh

Samtidig aktiv indlæring af klassificeringer og attributter via relativ feedback

IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2013

[ projektside og data ] [plakat] [ demo ]

A. Parkash og D. Parikh

Attributter til klassificeringsfeedback

Europæisk konference om computersyn (ECCV), 2012 (mundtlig)

[ slides ] [ snak (video) ] [ projektside og data ] [ demo ]

A. Kovashka , D. Parikh og K. Grauman
WhittleSearch: Billedsøgning med feedback om relative egenskaber
IEEE-konference om computersyn og mønstergenkendelse (CVPR), 2012
[ projektside ] [ plakat ] [ demo ]

D . Parikh, A. Kovashka, A. Parkashog K. Grauman
Relative Attributes for Enhanced Human-Machine Communication (Inviteret papir)
AAAI Conference on Artificial Intelligence (AAAI), 2012 (mundtlig)