XAI@NTNU

Hvorfor XAI?
Forklarbar kunstig intelligens (XAI) er et forskningsfelt med formål å gi AI-systemer evnen til å gi klare og forståelige forklaringer på beslutninger. Det overordnede målet er å tolke eller forklare maskinlæringsmodeller slik at deres prediksjoner og interne mekanismer blir forståelige for mennesker.
Fagfeltet XAI har hatt en eksponensiell utvikling (i antall publikasjoner) siden 2017, og særlig kravet fra AI Act (KI-loven) om at høyrisiko AI-systemer må kunne forklares, har gitt fagfeltet bred oppmerksomhet fra flere sektorer. Domener der bruken av maskinell automatisering og beslutningsstøtte medfører høy risiko, fra medisin til fysiske systemer, har lenge hatt forklaringer blant grunnleggende kriterier for ansvarlighet og sikkerhet.
Forklaringer av maskinlæringsmodellers funksjon eller beslutninger kan svare ut ulike behov:
- Regulatoriske krav. Eksempelvis krever personvernforordningen (GDPR) at automatiserte beslutninger basert på persondata skal forklares for sluttbrukeren.
- Modellevaluering. Eksempelvis må domeneeksperter ha muligheten til å undersøke om en trent modell har internalisert domenekunnskap, og diskrimineringsvern kan bare ivaretas om man kan undersøke hvilke egenskaper modellprediksjoner baseres på.
- Modellforståelse. Eksempelvis må utviklere av maskinlæringsmodeller forstå de implisitte antakelsene og representasjonene modellene lager for å vurdere robusthet.
- Menneskelig autonomi. Eksempelvis må sluttbrukere forstå hva AI-systemer baserer sine handlinger på og hvordan disse kan endres, for å ivareta egne interesser.
XAI-METODER
Det finnes et mangfold av forklaringsmetoder for ulike modellarkitekturer og formål. For å velge riktig XAI-metode må forklaringsbehovet, modellarkitekturen og dataformatet være gitt. Eksempler på forklaringstyper er:
Konseptbaserte forklaringer - en måte å undersøke hvorvidt en modell har internalisert og gjør nytte av abstrakte konsepter som er definert av mennesker. Eksempel: “Hvorvidt dyret har striper er avgjørende for om modellen klassifiserer det som en zebra.”
Feature importance attribution - en rangering av viktigheten til de ulike dataegenskapene for modellens prediksjon, for et enkelt datapunkt eller for hele modellen under ett. Eksempel: “Du fikk ikke lån primært fordi inntekten din er for lav, og litt fordi du har en betalingsanmerkning.”
Kontrafaktiske forklaringer - informasjon om hvordan modellens prediksjon endrer seg hvis det faktiske forhold bak modellens input endrer seg. Eksempel: “Du kan få innvilget lån om du minker ønsket lånebeløp med n kr og samtidig øker inntekten med m kr.”
Tross et mangfold av metoder, gjenstår det uløste problemer. Disse inkluderer å bestemme når en forklaring er utfyllende nok til å gi en representativ forståelse av modellens interne mekanismer. I tillegg kan forklaringer være inkonsekvente og i noen tilfeller også feil, som utfordrer påliteligheten til selve forklaringen og kan føre til en feilaktig forståelse av maskinlæringsmodellen. Standardiserte rammeverk for å evaluere gyldigheten til forklaringer og benchmarks for testing og evaluering av forklaringer er blant de største hovedfokusområdene innen XAI.

