Primo sguardo a metodi multivariati per lanalisi del

  • Slides: 11
Download presentation
Primo sguardo a metodi multivariati per l'analisi del tt. H Studiare il possibile miglioramento

Primo sguardo a metodi multivariati per l'analisi del tt. H Studiare il possibile miglioramento di sensibilità per il segnale tt. H nel canale MEt+Jet usando metodi multivariati Utilizzato il framework delle analisi multivariate di Root (TMVA) Al momento considerato solo reti neurali (MLP) e boosted decision trees (BDT) 10000 eventi usati per il training, il resto per il test Gli eventi sono pescati in modo casuale dal sample corrispondente

Variabili usate e loro correlazioni Dopo la selezione di eventi con MEt. Sig >

Variabili usate e loro correlazioni Dopo la selezione di eventi con MEt. Sig > 3 e jets(Et>25 Ge. V && |η|<3) >= 5 e niente trigger tt. H tt+Njets

Boosted decision trees Un decision tree è un classificatore ad albero binario in cui

Boosted decision trees Un decision tree è un classificatore ad albero binario in cui decisioni binarie vengono ripetute su un evento finchè non si raggiunge una classificazione (una foglia) Il boosting consiste nel creare una foresta di alberi ad ogni iterazione gli eventi vengono pesati secondo l'errore dell'iterazione precedente Alla fine viene presa una decisione democratica usando tutta la foresta

Classificazione eventi tt. H vs tt+Njets Addestrata una foresta di 400 alberi Indice di

Classificazione eventi tt. H vs tt+Njets Addestrata una foresta di 400 alberi Indice di Gini i = p(1 -p) seleziona la decisione per cui imother – Σ(idaughter*evfrac) è massima n. Cuts = 20 Ada. Boost α = (1 -err)/err Pruning a 4. 5 (Cost Complexity) fatto dopo il boosting Risposta y. BDT(x) = Σln(αi)hi(x) Discriminatore S vs B

Rete Neurale MLP Una rete neurale è una sequenza di neuroni che rispondono in

Rete Neurale MLP Una rete neurale è una sequenza di neuroni che rispondono in funzione dell'input ricevuto Può essere vista come una mappa non lineare (se almeno uno dei neuroni ha funzione di risposta non lineare) dallo spazio delle variabili a uno spazio di arrivo Si parte da pesi casuali e li si modifica in modo da minimizzare l'errore sulla risposta

Classificazione eventi con MLP MLP feed-forward 2 strati nascosti, il primo con 26 neuroni

Classificazione eventi con MLP MLP feed-forward 2 strati nascosti, il primo con 26 neuroni e il secondo con 25 Funzione di risposta del neurone = sigmoide Addestramento con backpropagation, online Per ridurre overtraining si controlla ad ogni iterazione l'errore sul test sample oltre che sul training sample Si ferma quando l'errore sul campione di controllo è sotto la soglia fissata

Confronto overtraining Il BDT è più sensibile a overtraining, bisogna aumentare il campione di

Confronto overtraining Il BDT è più sensibile a overtraining, bisogna aumentare il campione di training e aggiustare il pruning Overtraining del BDT

Efficienza di segnale vs reiezione del bakground Il BDT è migliore per alti valori

Efficienza di segnale vs reiezione del bakground Il BDT è migliore per alti valori di efficienza, ma nella regione con alta reiezione di bakground la differenza è minore

Rimosse le variabili più correlate Tenendo le 14 variabili meno correlate non si perde

Rimosse le variabili più correlate Tenendo le 14 variabili meno correlate non si perde molto in discriminazione, l'MLP recupera sul BDT MLP con 2 strati: 15, 14

Variazioni struttura MLP Layer dell'MLP: 3 layer: 15 -5+5, 14 -5+5, 13 -5+5 2

Variazioni struttura MLP Layer dell'MLP: 3 layer: 15 -5+5, 14 -5+5, 13 -5+5 2 layer: 15 -5+5, 14 -5+5 Modificando la struttura non si guadagna molto 2 Layer 3 Layer BDT MLP

To do Gli eventi di fondo non sono pesati, pesare i diversi tipi in

To do Gli eventi di fondo non sono pesati, pesare i diversi tipi in proporzione alle sezioni d'urto Confrontare l'aumento di significanza rispetto al metodo di likelihood già studiato Ottimizzare il set di variabili da usare per MLP e BDT separatamente Determinare i parametri (struttura della rete, forza del pruning per il BDT, . . . ) Aggiungere altri metodi, il SVM sembra promettente Testare anche il metodo di decorrelazione lineare interno di TMVA