Healthcare Analytics Made Simple - di Vikas Kumar
Questo post fa parte di un ciclo di post in cui parlo di un libro a mio avviso interessante nella formazione data analitica.
Trovi gli altri post qui.
La letteratura offerta ad oggi sul machine learning è sconfinata ed offre differenti punti di vista e spunti d’apprendimento in base al linguaggio che al lettore sta più congeniale o - semplicemente - in base al linguaggio che l’utente pensa di poter o voler padroneggiare. Il target di questi libri, reperibili facilmente in libreria, è per un pubblico naive - di estrazione settoriale differente dall’IT - che studia e approfondisce i temi in libri più completi e tecnici.
Il difficile fino ad oggi è stato trovare qualcosa che - pur parlando di _ML e AI - offrisse spunti di innovazione o hint nel campo medico. Qualcosa che ispiri la medical informatics che ci piace tanto: un nuovo progetto o l’empowering di un progetto già in essere - aggiungendo feature fino a quel momento non ancora prese in considerazione.
È per questo che in questo post parlo in modo entusiasta di Healthcare analytics made simple - scritto da Vikas Kumar.
L’autore
Per comprenderne il mindset ed il taglio ancor prima di leggere il libro è sufficiente uno sguardo al profilo LinkedIn dell’autore.
Laureato in Medicina presso la Pittsburgh University prosegue la sua formazione con un master degree in Scienze informatiche presso il Georgia Institute of Technology.
Sul suo profilo si descrive rapidamente: “Sr Data Scientist at OMNY Health | Teaching Assistant, Data & Visual Analytics at Georgia Tech | Author | Course Content Creator”.
Il libro
Per chi nasce?
Un libro scritto da un medico per medici e per data scientists che vorrebbero addentrarsi nel tema medico nel modo più diretto possibile ma con step.
Come detto più volte non sempre i due gruppi di professionisti sono interoperabili - e ciò rende le comunicazioni complesse e talvolta inefficaci; questo lo scopo del libro: fornire ai medici le basi per metter su in modo rudimentale algoritmici di predizione e ai data scientists di approcciarsi alla terminologia medica.
Vengono spiegati nelle prime pagine i rudimenti del linguaggio python, come importare un dataset con Numpy o Pandas e quale dovrebbe essere l’approccio a step nel momento in cui si decide di analizzare un dataset (l’autore non lo dice esplicitamente, ma ricordiamo che nei dati vige la legge non scritta del garbage in, garbage out).
Dettagliato
L’autore parte con un’excursus su Numpy e Pandas - spiegando le principali possibilità e capacità delle due librerie nel momento in cui ci si approccia alla pulizia del database e alla sua riorganizzazione.
Non mancano le base statistiche teoriche che vengono rinfrescate durante tutta l’opera - per rendere la lettura più agevole. Dopo una spazzolata su sensitivity, sensibility, negative/positive predictive value, false-positive rate si passa poi a metter su un vero e proprio database di esempio basato su SQLIte e ne vengono analizzate le principali caratteristiche.
Di pari passo con i dati - si fa qualche riferimento anche alla libreria matplotlib e di come possa essere inserita nella pipeline per produrre grafici che spesso aiutano a visualizzare meglio la distribuzione dei dati.
Un intero capitolo viene dedicato ai database: SQL vs noSQL, perché scegliere SQL ed introduce pian piano nella costruzione di una serie di tabelle destinate al salvataggio di dati medici.
Per chi è alle prime armi - questo potrebbe essere estremamente illuminante.
Si fanno cenni anche alle istruzioni CURD, con esempi base per comprenderne l’utilizzo: Create, Update, Read, Delete.
Una volta gettate le basi, viene spiegato dove e come usarle: si viene guidati nell’uso di un Jupyter Notebook per mettere in pratica le nozioni apprese e creare su alcuni modelli predittivi di reale utilità, selezionati secondo alcune esigenze sanitarie degli Stati Uniti.
L’ultimo capitolo viene dedicato ad una rapida panoramica del deep learning ed ai problemi etici e morali che è necessario affrontare nel momento in cui si affida una parte delle scelte cliniche, seppur sotto supervisione, ad un algoritmo.
Pratico
Circa metà del libro è dedicata alla realizzazione di progetti pratici e di uso reale: si tenta di sviluppare un modello per la riduzione della riammissione in Pronto Soccorso del paziente (misurando indirettamente la qualità delle cure) e un modello che quantifica la qualità sanitaria fornita ai pazienti con ESRD (End Stage Renal Disease);
Considerazioni
Un libro assolutamente da consigliare ad un medico che decida di intraprendere, per ragioni di ricerca o di miglioramento delle performance del dipartimento, la strada dell’analisi dei dati o che cerchi un valido sostegno nella creazione di modelli predittivi data-based.
Anche i medici più navigati potrebbero giovare dalla lettura di questo libro. Se è vero che repetita juvant - è anche vero che le competenze settoriali informatiche acquisite saranno comunque costantemente segmentarie ed orientata alla risoluzione di un problema piuttosto che alla creazione di una valida base culturale per approcciare multipli problemi di varia natura; proprio per questo motivo la trovo una lettura che, anche non aggiungendo nulla a competenze avanzate, fornisce un valido punto di vista prettamente medico alla realizzazione di modelli o infrastrutture informatiche di reale utilità.
Il mio parere: consigliato assolutamente per chi inizia.