Etter hvert som bruk av maskinlæring sprer seg og integreres i en rekke applikasjoner, inkludert sikkerhets- og oppdragskritiske systemer, blir behovet for robuste evalueringsmetoder stadig mer presserende. Denne boken samler spredt informasjon om emnet fra forskningsartikler og blogger, og gir et sentralisert ressurssenter som er tilgjengelig for studenter, praktikere og forskere på tvers av vitenskapsområdene. Boken undersøker meningsfulle metrikker for ulike typer læringsparadigmer og applikasjoner, upartiske estimasjonsmetoder, grundig statistisk analyse, rettferdige treningssett, samt meningsfull forklarbarhet – alle viktige elementer for å utvikle robuste og pålitelige produkter innen maskinlæring. I tillegg til standard klassifisering, diskuterer boken også usupervisert læring, regresjon, bildesegmentering og anomalioppdagelse. Den tar for seg emner som industriell evaluering, rettferdighet og ansvarlig AI. Implementeringer med Python og scikit-learn er tilgjengelige.