Deconvoluzione di un istogramma di frequenze, ovvero come estrarre le popolazioni contenute in un istogramma
Quando un istogramma di frequenze presenta più picchi siamo portati a supporre l’esistenza di un mix di popolazioni al suo interno.
Ma come fare per estrarre dall’istogramma i parametri delle popolazioni mescolate?
Se un istogramma raggruppa i dati di n popolazioni, mescolate tra loro, le incognite sono nx3:
- le n medie delle popolazioni
- le n deviazioni standard delle popolazioni
- le n numerosità delle popolazioni.
Il problema non è ovviamente risolvibile mediante un sistema di equazioni lineari, ma esiste la possibilità di affrontarlo in modo empirico, con risultati soddisfacenti. Il metodo è il più banale di tutti, in quanto consiste nel provare numerosissime combinazioni di medie, deviazioni standard e valori di n sino a quando l’istogramma risultante non sia sufficientemente simile a quello dato. Ovviamente questo è un compito che solo un computer può affrontare.
Facciamo un esempio con due popolazioni.
Questo è l’istogramma di partenza:
E queste sono le due popolazioni estratte:
Confronto tra l’istogramma di partenza e quello prodotto dalle due popolazioni:
I parametri delle due popolazioni estratte:
|
media |
ds |
n |
popolazione 1 |
11.13 |
6.98 |
154 |
popolazione 2 |
36.38 |
5.63 |
64 |
Un esempio, più complesso, con cinque popolazioni.
Istogramma di partenza:
E queste sono le cinque popolazioni estratte:
Confronto tra l’istogramma di partenza e quello prodotto dalle cinque popolazioni:
I parametri delle cinque popolazioni:
media |
ds |
n |
|
popolazione 1 |
10.06 |
3.39 |
41 |
popolazione 2 |
24.52 |
5.55 |
78 |
popolazione 3 |
43.73 |
5.11 |
105 |
popolazione 4 |
72.74 |
8.30 |
132 |
popolazione 5 |
94.42 |
4.98 |
68 |
Tutto questo si può fare con Excel. La mano di un supervisore è comunque richiesta in quanto all’inizio occorre decidere (la cosa più importante) il numero delle popolazioni latenti e poi (ma questo non è importante) assegnare dei valori iniziali, del tutto arbitrari, di media, deviazione standard e numero di soggetti per ogni popolazione. Dopodiché il programma inizia calcolando il primo istogramma ottenuto con questi valori iniziali e l’errore rispetto all’istogramma di origine (errore stimato come la media della somma dei quadrati delle differenze tra le varie classi dell’istogramma originario e dell’istogramma prodotto dai dati inventati). Da questo momento l’algoritmo, ad ogni ciclo, modifica casualmente (entro un certo range) i valori iniziali, e per ogni nuovo valore calcola un nuovo istogramma e valuta la discrepanza rispetto all’istogramma originario. Se l’errore aumenta il nuovo valore viene rifiutato. Se invece diminuisce si accetta e parte un nuovo ciclo. Il processo continua sino a completare un certo numero di cicli prefissato ma può essere anche interrotto manualmente quando ad es. si vede che l’errore è diventato trascurabile. Normalmente con qualche migliaio di cicli (1-2 minuti di lavoro) si ottengono ottimi risultati.
Un noto problema in procedure come questa è quello dei cosiddetti minimi locali. Si può verificare un situazione in cui qualsiasi variazione dei valori entro un certo range non porti ad una riduzione dell’errore, per cui il processo va in stallo. Ci si rende conto di questo quando l’errore non diminuisce nonostante ilprogredire del numero dei cicli. Per risolvere questo problema basta aumentare, anche temporaneamente, il range di variazione dei valori (casella coefficiente di adattamento, 0.25 variazioni casuali fini – 4 variazioni casuali grossolane – normalmente si imposta 1), oppure modificare manualmente i parametri osservando quale è la popolazione con il maggiore errore (ma questa operazione è più delicata).
Le seguenti sono quattro schermate del fitting dell’ultimo istogramma. Notate il progressivo adattamento delle curve all’istogramma originario. I parametri iniziali sono del tutto arbitrari.Le medie (10, 30, 50, 70, 90) sono grossolanamente approssimate ai picchi. Le deviazioni standard: 5 per tutti. I valori n: 30 per tutti.
Il numero di cicli è fissato in 500
CICLO 1
CICLO 10 – qualcosa si muove
CICLO 41 – il fitting è già buono
CICLO 500
Il fitting è ottimo. Anche aumentando di molto il numero di ciclo la l’errore non si riduce apprezzabilmente. Si possono leggere i valori delle medie, deviazioni standard e numerosità delle 5 distribuzioni.
Note finali.
Purtroppo i nomi delle funzioni, sia quelle nello spreadsheet sia quelle nelle macro, variano a seconda della lingua e della versione di Office. Questo potrebbe creare problemi. Il mio programma gira su Excel/Office 2010 in Inglese.
Il programma rallenta ovviamente con l’aumentare del numero di distribuzioni da estrarre. Per velocizzare il programma va molto bene restringere la finestra di Excel sino a lasciare visibili le sole caselle dell’errore ed i bottoni di comando (vedi figura). In questo modo, non dovendo fare il refresh grafico delle caselle con le funzioni di calcolo,ho visto che il programma diventa oltre 100 volte più veloce, ed effettua anche migliaia di cicli in pochi minuti. L’evoluzione del fitting può essere controllata dal valore di errore. Al termine si può espandere la finestra. Tutti i grafici sono ovviamente conservati ed aggiornati.
Potete avere il programma inviandomi un email (gdiaz@unica.it).
INFORMAZIONI PROVE SCRITTE LINGUA INGLESE E VALIDITA’ PROVE SCRITTE
INFORMAZIONI-PROVE-SCRITTE-LINGUA-INGLESE
Le prove scritte e orali di tutte le lingue straniere si tengono nei mesi di maggio, giugno, luglio, settembre, gennaio e febbraio. Gli studenti in corso hanno accesso a tali prove da maggio in poi, a lezioni e esercitazioni concluse; ossia, NON possono sostenere tali prove a gennaio e febbraio. Solo gli studenti in possesso di certificazione esterna possono anticipare le prove orali a gennaio e febbraio.
Conformemente a quanto deliberato dai Consigli di Classe di Laurea dell’area delle Lingue e Letterature Straniere, una prova scritta, una volta superata per intero, è valida per due sessioni (non appelli) di esame, ossia:
– prova scritta superata nella sessione estiva (maggio, giugno, luglio): valida fino alla sessione autunnale (settembre incluso)
– prova scritta superata nella sessione autunnale (settembre): valida fino alla sessione invernale (febbraio incluso)
– prova scritta superata nella sessione invernale (gennaio e febbraio): valida fino alla sessione estiva (luglio incluso)
Il cambiamento climatico causerà maggiori migrazioni umane
Giampaolo Loy 2014-03-24 21:13:03
Summer Seminar on Nationalism, Religion and Violence 2014
Barbara Onnis 2014-03-20 11:53:11
L’UE approva nuovi fondi per asilo immigrati.
SCIENZA DELL’AMMINISTRAZIONE Corso di diritto del lavoro
Il progetto Praesidium
Lauree di Igiene Dentale
Lauree di Igiene Dentale – 16 aprile 2014 ore 09.00 Complesso Odontoiatrico Cagliari e Aula Boscolo Monserrato
Lauree di Igiene Dentale – 28 ottobre 2014 ore 8.00 Complesso Odontoiatrico – ore 10.30 Sala Congressi Medicina Monserrato
LAUREE A.A. 2014-15
26 marzo 2015
09.00
14.00
Sala Congressi Fac. di Medicina
20 Ottobre 2015
09.00
14.00
Sala Congressi Fac. di Medicina
Avviso per gli Allievi Ingegneri Civili, Elettrici ed Elettronici
New (Avviso del 06/04/2020)
AVVISO PER GLI ALLIEVI INGEGNERI Meccanici, Civili ed Elettrici:
Nella speranza di trovarvi tutti bene, vi comunico che Coloro che hanno sostenuto la prova d’esame il 21 Febbraio 2020 possono consultare l’esito conseguito accedendo al seguente link:
Esiti prova d’esame del 21 02 2020 Post Provvedimenti Covid 19
New (Avviso del 05/02/2020)
AVVISO PER GLI ALLIEVI INGEGNERI Elettrici e Civili:
Coloro che hanno sostenuto la prova d’esame II PROVA di FISICA TECNICA riservata gli allievi ingegneri ELETTRICI E CIVILI, sono convocati per oggi (05 Febbraio 2020) alle ore 12:00 nel mio ufficio per la correzione della prova scritta sostenuta il 23 Gennaio.
Cordiali saluti
New (Avviso del 03/02/2020)
Si avvisano gli Allievi Ingegneri Elettrici e Civili:
coloro che hanno sostenuto la prova d’esame INTERO di FISICA TECNICA riservato gli allievi ingegneri Civili ed Elettrici, sono convocati per oggi alle ore 13:00 nel mio ufficio per la correzione della prova scritta sostenuta il 23 Gennaio.
Cordiali saluti
Buongiorno a tutti,
Si informano gli Allievi Ingegneri Civili, Elettrici, Elettronici e Meccanici che l’esercitazione (Tutoraggio) del corso di Fisica Tecnica si terrà stasera (09 Ottobre 2019) dalle ore 18:00 fino alle 20:00 in AULA 1
Si informano gli Allievi Ingegneri Civili, Elettrici ed Elettronici che gli esiti dell’esame scritto del 28 Febbraio 2014 verranno comunicati domani mattina 12 Marzo a partire dalle ore 11:50. L’appuntamento è presso l’istituto di Fisica Tecnica