Publication

Maskinlæring og prognoser på justisfeltet

Forfattere: Røgeberg, Ole, Andreas Kotsadam, Mette Løvgren, Tao Zhang
Publisert: 2025
Sammendrag: Dette prosjektet ble gjennomført på oppdrag fra Justis- og beredskapsdepartementet. Formålet var å undersøke om maskinlæringsmetoder anvendt på mikrodata fra administrative registre kunne brukes til å utarbeide pålitelige prognoser for kriminalitetsutviklingen i Norge. Prosjektet hadde to hovedmål: (1) undersøke om prediksjoner på individnivå med ulik prediksjonshorisont kunne aggregeres til informative prognoser for fremtidig lovbruddsutvikling, og (2) undersøke om selvrapporterte data fra spørreundersøkelser kan korrigere for mørketall i kriminalstatistikken. Prosjektet brukte tre robuste og godt etablerte maskinlæringsmodeller (LASSO, Random Forest og XGBoost) og konstruerte prediktorer ved hjelp av et bredt sett med administrative registre. Registrene dekket blant annet demografi, utdanning, inntekt, familieforhold, barnevern og kriminalhistorikk. For mørketallsanalyser ble data fra Nasjonal trygghetsundersøkelse (NTU) 2022-2023 kombinert med registerdata dekket av deltagersamtykke for rundt 37 000 besvarelser. Maskinlæringsmodellene lyktes godt i å avdekke forskjeller i fremtidig siktelsesrisiko. Selv fem år i forveien kunne modellene identifisere den tiendelen av befolkningen som ville stå for 75% av alle siktelser, og predikerte og faktiske siktelser korrelerte stabilt med rundt 0,25 uavhengig av tidshorisont (2-5 år). Dette er på nivå med eller bedre enn internasjonale studier av tilbakefall blant tidligere straƯede. Samtidig bør det fremheves at selv i den mest lovbruddstilbøyelige tiendedelen av befolkningen var 90% eller mer uten observerte siktelser. Dette illustrerer faren ved å bruke modellene operativt på enkeltpersonsnivå: målretting av politiinnsats mot «høyrisiko-grupper» kan gi et uforholdsmessig kontrollpress og overvåkning av lovlydige borgere («profilering»), og kan forsterke eventuelle skjevheter i politiets avdekkingsvirksomhet og strategier mot ulike grupper og lovbruddstyper som ligger bakt inn i historiske data. Til tross for god identifikasjon av risikogrupper, klarte ikke modellene å produsere pålitelige aggregerte prognoser for kriminalitetsutviklingen. Predikerte trender samsvarte dårlig med faktisk utvikling, noe som gjør metoden uegnet for strategisk planlegging og kapasitetsvurderinger. Analysene av mørketall tydet på betydelige systematiske forskjeller mellom registrert og selvrapportert utsatthet for kriminalitet. Spesifikt tyder analysene på at unge (15-17 år) er mest utsatt for lovbrudd og at denne risikoen faller med alder og er nokså lik på tvers av kjønn. Dette avviker klart fra administrative data, der voksne over 20 er hyppigere registrert enn unge – trolig grunnet forskjeller i rapporteringstilbøyelighet. En metodisk utfordring i mørketallsanalysene var den begrensede mengden data tilgjengelig fra NTU som gjorde det krevende å kalibrere modellene presist. Den viktigste innsikten fra mørketallsanalysene er at grupper som er mer utsatt for lovbrudd (selvrapportert i NTU) og grupper der lovbruddsutsatte har høyere rapporteringstilbøyelighet (selvrapportert i NTU) systematisk har flere registrerte oppføringer som lovbruddsoƯer i administrative registre (observert i registerdata). De systematiske forskjellene i registreringssannsynlighet kan i betydelig grad forklares 4 statistisk av de systematiske forskjellene i utsatthet og rapporteringstilbøyelighet som hentes ut fra NTU-analysene. Dette styrker NTU-dataenes troverdighet, og tilsier at disse kan være en god kilde til analyser av befolkningens utsatthet for lovbrudd av ulike slag.
Prosjekt: 2722 Prognoser for kriminalitetsutviklingen
Referanse: Røgeberg, Ole, Andreas Kotsadam, Mette Løvgren, Tao Zhang, 2025, «Maskinlæring og prognoser pÃ¥ justisfeltet», Frisch Rapport, 3/2025
Les fulltekstversjonen av artikkelen
Kriminalitet