Analisi Cereali per la prima colazione Elaborazione Dati
Analisi Cereali per la prima colazione Elaborazione Dati Naturalistici 2007 Giovanni - Chiara
• Oggetto 77 tipi di cereali per la prima colazione
7 marche differenti(mfr): American Home Food Products (A) General Mills (G) Kellog’s (K) Nabisco (N) Post (P) Quaker Oast (Q) Ralston Purina (R)
• tipo: calorie: proteine: grassi: sodio: fibre: carboidrati: zuccheri: potassio: vitamine: scaffale: peso: tazze: valutazione : Variabili freddi (c) o caldi (h) calorie per porzione grammi di proteine grammi di grassi milligrammi di sodio grammi di fibre dietetiche grammi di carboidrati complessi grammi di zuccheri milligrammi di potassio vitamine e minerali - 0, 25, o 100, indicanti la tipica percentuale raccomandata dell’FDA scaffale d’esposizione (1, 2 o 3, contando dal pavimento) peso in once per 1 porzione tazze per 1 porzione una valutazione dei cereali
• Punti dell’Elaborazione dei Dati: Analisi descrittiva delle variabili quantitative principali Analisi della correlazione tra le variabili quantitative. Ci sono correlazioni inattese? Costruzione di un modello di regressione lineare multipla avente come variabile risposta il rating e come variabili esplicative le variabili nutrizionali Ottenere un modello ridotto appropriato Quali sono le variabili nutrizionali che sono più adatte a spiegare il gradimento dei prodotti? L’analisi di regressione separatamente per i cereali caldi e freddi. Si ottengono le stesse conclusioni?
Analisi descrittiva delle variabili quantitative principali Media St Dev Minimo Mediana Massimo 106, 88 19, 48 50, 00 110, 00 160, 00 Proteine (g) 2, 545 1, 095 1, 000 3, 000 6, 000 Grassi (g) 1, 013 1, 006 0, 000 1, 000 5, 000 159, 68 83, 83 0, 000 180, 00 320, 00 2, 152 2, 383 0, 000 2, 000 14, 803 3, 907 5, 000 14, 500 23, 000 Zuccheri (g) 7, 026 4, 379 0, 000 7, 000 15, 000 Potassio (mg) 98, 67 70, 41 15, 000 90, 000 330, 00 Vitamine 28, 25 22, 34 0, 000 25, 000 100, 00 Rating 42, 67 14, 05 18, 04 40, 40 93, 70 Calorie Sodio (mg) Fibre (g) Carboidrati (g)
Media St Dev Minimo Mediana Massimo Calorie 106, 88 19, 48 50, 00 110, 00 160, 00 Proteine (g) 2, 545 1, 095 1, 000 3, 000 6, 000 Grassi (g) 1, 013 1, 006 0, 000 1, 000 5, 000 Sodio (mg) 159, 68 83, 83 0, 000 180, 00 320, 00 Fibre (g) 2, 152 2, 383 0, 000 2, 000 14, 000 Carboidrati (g) 14, 803 3, 907 5, 000 14, 500 23, 000 Zuccheri (g) 7, 026 4, 379 0, 000 7, 000 15, 000 Potassio (mg) 98, 67 70, 41 15, 000 90, 000 330, 00 Vitamine 28, 25 22, 34 0, 000 25, 000 100, 00 Rating 42, 67 14, 05 18, 04 40, 40 93, 70
Deviazione Standard Proteine (g) 1, 095 Grassi (g) 1, 006 Fibre (g) 2, 383 Carboidrati (g) 3, 907 Zuccheri (g) 4, 379 Al contrario la quantità (mg) di Sodio e Potassio ha un range piuttosto ampio, deducibile anche dall’analisi del minimo /massimo. Nonostante si tratti di differenti produttori, i grammi di proteine, grassi, fibre, carboidrati e zuccheri si mantengono costanti nelle diverse confezioni. St Dev Minimo Massimo Sodio (mg) 83, 83 0, 000 320, 0 Potassio (mg) 70, 41 15, 00 330, 0
Analisi della correlazione tra le variabili quantitative Calorie Proteine Grassi Fibre Carboidrati Zuccheri Potassio 0, 019 0, 869 Grassi 0, 499 0, 000 0, 208 0, 069 Sodio 0, 301 0, 008 -0, 055 0, 637 -0, 293 0, 010 0, 500 0, 017 0, 000 0, 885 Fibre Sodio • Verde = Correlazione lineare -0, 005 0, 963 • Giallo = Correlazione diretta -0, 071 0, 541 • Rosso = Correlazione inversa inattesa Carboidrati 0, 258 0, 025 -0, 025 0, 830 -0, 300 0, 008 0, 298 0, 009 -0, 380 0, 001 Zuccheri 0, 567 0, 000 -0, 292 0, 011 0, 302 0, 008 0, 059 0, 613 -0, 139 0, 232 -0, 471 0, 000 Potassio -0, 072 0, 539 0, 564 0, 000 0, 200 0, 085 -0, 043 0, 716 0, 912 0, 000 -0, 365 0, 001 0, 990 Vitamine 0, 265 0, 020 0, 007 0, 950 -0, 031 0, 788 0, 361 0, 001 -0, 032 0, 781 0, 219 0, 057 0, 098 0, 399 -0, 005 0, 963
• SCATTER PLOT o diagramma di dispersione bidimensionale delle variabili con correlazione lineare
• SCATTER PLOT o diagrammi di dispersione bidimensionale delle variabili con correlazione diretta
• SCATTER PLOT o diagrammi di dispersione bidimensionale delle variabili con correlazione inversa e inattesa
• SCATTER PLOT rating Rating Calorie Proteine Grassi Sodio Fibre Carboidrati Zuccheri Potassio -0, 689 0, 000 0, 471 0, 000 -0, 409 0, 000 -0, 401 0, 000 0, 584 0, 000 0, 089 0, 446 -0, 764 0, 000 0, 416 0, 000
• Analisi dei valori anomali I valori anomali hanno un forte peso sulla correlazione: per passare dal modello completo a quello ridotto è stata esclusa la variabilità. Q 1 Mediana Q 3 Calorie 100, 00 110, 00 Proteine (g) 2, 000 3, 000 Grassi (g) 0, 0000 1, 000 2, 000 Sodio(mg) 127, 50 180, 00 215, 00 Fibre (g) 0, 500 2, 000 3, 000 Carboidrati (g) 12, 000 14, 500 17, 000 Zuccheri (g) 3, 000 7, 000 11, 000 Potassio (mg) 40, 00 90, 00 120, 00
• Modello di regressione lineare multipla avente come variabile risposta il rating e come variabili esplicative le variabili nutrizionali. Problema di interpolazione dei dati Stima Y= a+ bnxn Previsione
Il rating rappresenta la variabile risposta ottenuta come combinazione finita di variabili esplicative L’equazione della retta di regressione è risultata : Rating = 54, 9 - 0, 223 Calorie + 3, 27 Proteine (g) - 1, 69 Grassi (g) - 0, 0545 Sodio(mg) + 3, 44 Fibre (g) + 1, 09 Carboidrati (g) - 0, 725 Zuccheri (g) - 0, 0340 Potassio (mg) - 0, 0512 Vitamine [Sono stati utilizzati solo 74 visto che gli altri 3 contenevano valori mancanti. ]
Solitamente per i valori di P-value ≥ 0, 05 (5%) si accetta l’ipotesi che il coefficiente relativo alla variabile sia nullo, e dunque non si ha influenza sulla variabile risposta. Tutte le variabili esplicative hanno presentato un P = 0, 000 P< 0, 05 Tuttavia si è cercato di ottenere un modello ridotto che potesse indicare quali variabili nutrizionali fossero più influenti sul rating. . E quindi fossero più adatte a spiegare il gradimento dei prodotti!
Rating Calorie Proteine Grassi Sodio Fibre Carboidrati Zuccheri Potassio -0, 689 0, 000 0, 471 0, 000 -, 409 0, 000 -0, 401 0, 000 0, 584 0, 000 0, 089 0, 446 -0, 764 0, 000 0, 416 0, 000 Non tutte le variabili presentano un alto grado di correlazione con la variabile risposta Posso pensare di cercare una correlazione lineare tra variabili con indice di Pearson = -1≤-0, 5 o 0, 5≥ 1
Eliminazione valori anomali : L’equazione della retta di regressione non cambia
1)- Eliminazione variabili con coefficiente minore: Potassio e Vitamine Rating = 54, 9 - 0, 223 Calorie + 3, 27 Proteine (g) - 1, 69 Grassi (g) - 0, 0545 Sodio(mg) + 3, 44 Fibre (g) + 1, 09 Carboidrati (g) - 0, 725 Zuccheri (g) - 0, 0340 Potassio (mg) - 0, 0512 Vitamine L’equazione diventa: Rating = 61, 7 - 0, 166 Calorie + 2, 63 Proteine (g) - 2, 84 Grassi (g) + 2, 11 Fibre (g) + 0, 049 Carboidrati (g) - 1, 47 Zuccheri (g) Predictor Constant Calorie Proteine (g) Grassi (g) Fibre (g) Carboidrati (g) Zuccheri (g) Coef SE Coef T 61, 697 4, 027 15, 32 -0, 1664 0, 1121 -1, 48 2, 6313 0, 7849 3, 35 -2, 845 1, 150 -2, 47 2, 1133 0, 3086 6, 85 0, 0486 0, 5011 0, 10 -1, 4739 0, 4722 -3, 12 P 0, 000 0, 142 0, 001 0, 016 0, 000 0, 923 0, 003 2)- Eliminazione variabili con P-value > 0, 05: Calorie e Carboidrati L’equazione diventa: Rating = 49, 9 + 1, 65 Proteine (g) - 3, 83 Grassi (g) + 2, 61 Fibre (g) - 1, 88 Zuccheri (g)
Predictor Coef SE Coef T Constant 49, 854 2, 080 23, 96 Proteine (g) 1, 6528 0, 6974 2, 37 Grassi (g) -3, 8328 0, 6434 -5, 96 Fibre (g) 2, 6061 0, 2855 9, 13 Zuccheri (g) -1, 8795 0, 1512 -12, 43 P 0, 000 0, 021 0, 000 3)- Eliminazione variabili con coefficiente più basso e P >0: Proteine L’equazione diventa: Rating = 53, 7 - 3, 35 Grassi (g) + 2, 95 Fibre (g) - 2, 00 Zuccheri (g) con P = 0, 000 per tutte le variabili. Modello ridotto appropriato
Fibre Zuccheri Grassi Sono le variabili più adatte a descrivere il rating
• L’analisi di regressione separatamente per i cereali caldi e freddi. Si ottengono le stesse conclusioni? Tipo freddo (C) Rating = 54, 9 - 0, 223 Calorie + 3, 27 Proteine (g) - 1, 69 Grassi (g)- 0, 0545 Sodio (mg) + 3, 44 Fibre (g) + 1, 09 Carboidrati (g)- 0, 725 Zuccheri (g) - 0, 0340 Potassio (mg) - 0, 0512 Vitamine P = 0, 000 Rating = 61, 5 + 1, 68 Proteine (g) - 4, 17 Grassi (g) + 2, 22 Fibre (g) - 0, 629 Carboidrati (g) - 2, 08 Zuccheri (g) Carboidrati P = 0, 001 Proteine P = 0, 014 tutte le altre variabili P = 0, 000 L’equazione di regressione è Rating = 52, 6 - 3, 35 Grassi (g) + 3, 05 Fibre (g) - 1, 92 Zuccheri (g) Tipo caldo (H) Not enough data in column. The regression equation is Rating = 84, 15 - 6, 853 Proteine (g) Rating = 63, 59 - 6, 853 Grassi (g) Rating = 52, 84 + 0, 1462 Sodio (mg) Rating = 59, 44 - 2, 189 Fibre (g) Rating = 57, 68 - 0, 1132 Vitamine P = 0, 149 P = 0, 184 P = 0, 721 P = 0, 851 Per le variabili Carboidrati, Zuccheri e Potassio non è stato possibile determinare la retta di regressione a causa dell’insufficienza dei dati.
Almeno per i cereali freddi la situazione non cambia … Cambiano i coefficienti, ma le variabili esplicative del rating rimangono le stesse Zuccheri Fibre Grassi
. . Trovate le variabili esplicative del rating. . Quale marca di cereali dovrebbe avere più successo sul mercato?
Grassi Zero Fibre (g) Zuccheri Zero 4 4 (14) 4 7 1 (10) 21 10 3 (9) 55 16 53 (6) 56 17 10 (5) 64 18 28 (5) 65 21 29 (5) 66 22 59 (5) 12 (1) 24 26 27 29 31 34 38 51 54 55 56 61 62 63 64 65 66 68 69
“All Bran with Extra Fiber” (4) prodotto da Kellog’s
Shredded Wheat ‘n’ bran(64) Shredded Wheat spoon size(66) Grassi 0 Fibre 3, 0 Zuccheri 0 100% Bran (1) All-Bran (3) Grassi 1 1 Fibre 10, 0 9, 0 Zuccheri 6 5
- Slides: 36