Boken "Probability and Statistics for Data Science" av Norman Matloff gir en grundig innføring i matematisk statistikk, inkludert sentrale konsepter som fordelinger, forventet verdi og estimering. Forfatteren tar begrepet 'Data Science' på alvor, og benytter ekte datasett for å illustrere teorien. Hver analyse støttes av R-koding, noe som gir leseren praktisk erfaring med verktøyene i datavitenskap. Boken inneholder flere anvendelser innen datavitenskap, inkludert hovedkomponentanalyse (PCA), blandingsfordelinger, tilfeldige grafmodeller, skjulte Markov-modeller, lineær og logistisk regresjon, samt nevrale nettverk. Matloff oppfordrer studentene til å tenke kritisk om 'hvordan' og 'hvorfor' innen statistikk, samtidig som han hjelper dem med å 'se det store bildet'. Fokus er lagt på begreper og modeller presentert på en matematisk presis måte, snarere enn en 'teorem/bevis'-tilnærming. For å få fullt utbytte av boken er det forventet at leseren har kunnskap om kalkulus, noe matrisealgebra og erfaring med programmering.