Spaltanlage Messwiederholung Dauerversuch Hinweise zur Auswertung komplexer pflanzenbaulicher
Spaltanlage - Messwiederholung - Dauerversuch: Hinweise zur Auswertung komplexer pflanzenbaulicher Versuche mit gemischten Modellen Hans-Peter Piepho & Andreas Büchse Universität Hohenheim, Fachgebiet Bioinformatik 46. Jahrestagung der Gesellschaft für Pflanzenbauwissenschaften, Gießen, 25. September 2003
Was will dieser Workshop? Warum? • Viele Versuche und Datenstrukturen erfordern gemischte Modelle • Beispiele: Spaltanlagen, Messwiederholungen, Versuchserien, räumliche Daten • Gemischte Modelle bisher wenig eingesetzt Ziele: • Appetit auf gemischte Modelle machen • Konzepte anhand von 7 Beispielen verdeutlichen • Hinweise zur Umsetzung mit SAS PROC MIXED geben H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Einleitung, Folie 2
Die sieben Beispiele 1. Streifenanlage (P) 2. Eine ungewöhnliche Spaltanlage (P) 3. Feldversuch mit Messwiederholungen im Raum (P) 4. Streifen-Spaltanlage, Messwiederholungen in der Zeit (B) 5. Dauerversuch in dreifeldriger Fruchtfolge (B) 6. Transformation von Prozentzahlen (P) 7. Räumliche Statistik (Nearest-Neighbor-Adjusted BLUP) (P) 8. (P = Vortrag Piepho, B = Vortrag Büchse) H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Einleitung, Folie 3
Was ist (k)ein gemischtes Modell? Modell für Blockanlage: yij = + j + i + eij yij = Ertrag der i-ten Behandlung im j-ten Block = Gesamtmittelwert j = Effekt des j-ten Blocks i = Effekt der i-ten Behandlung fest eij = Fehler zufällig Nur ein zufälliger Effekt kein gemischtes Modell Mehr als ein zufälliger Effekt gemischtes Modell (z. B. Spaltanlage) H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Einleitung, Folie 4
Denk ich an gemischte Modelle. . Text H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Einleitung, Folie 5
Beispiel 1 Streifenanlage Daten von Dr. U. Thumm Institut für Pflanzenbau und Grünland, Uni Hohenheim H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 1, Folie 6
Der Datensatz Nutzungshäufigkeit: (nutz_h) S 2 = 2 Schnitte/Jahr S 3 = 3 Schnitte/Jahr S 4 = 4 Schnitte/Jahr S 5 = 5 Schnitte/Jahr N- Düngung: (n_stufe) N 1 = 30 kg N/ha je Aufwuchs N 2 = 60 kg N/ha je Aufwuchs Wiederholungen: (block) 4 Blöcke Zielvariable: TM-Ertrag (Summe über Schnitte) H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 1, Folie 7
Randomisation je Wiederholung: • S-Stufen auf Spalten • N-Stufen auf Zeilen Streifenanlage (strip plot/split block) H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 1, Folie 8
Modellierung Behandlungen: i + j + ( )ij wobei i = Haupteffekt der i-ten N-Menge j = Haupteffekt der j-ten Nutzungshäufigkeit ( )ij = Wechselwirkung Nutzungshäufigkeit x N-Menge H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 1, Folie 9
Modellierung Versuchseinheiten (Blockeffekte): rk + zik + sjk + eijk wobei rk = Effekt des k-ten Blocks zik = Effekt der i-ten Zeile (N-Menge) im k-ten Block sjk = Effekt der j-ten Spalte (Nutzhäufigkeit) im k-ten Block eijk = Restfehler H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 1, Folie 10
Varianzanalyse-Tabelle Ursache Blöcke A (N-Menge) Fehler(A) Freiheitsgrade (FG) MQ (a 1)(r 1) Ea B (Nutzhäufigkeit) Fehler(B) (b 1)(r 1) Eb A B Fehler(C) (a 1)(b 1)(r 1) Ec (r 1) H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 1, Folie 11
Varianzanalyse-Tabelle Ursache FG A (N-Menge) (a 1) Fehler(A) (a 1)(r 1) Erwartungswert MQ usw. für die anderen MQ H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 1, Folie 12
SAS Datenschritt data a; input aufwuchs N_Stufe Nutz_h Block dt_ha; datalines; 1 2 1 58. 4616 1 2 2 72. 5483. <mehr Daten> . 5 2 5 3 6. 7861 5 2 5 4 11. 2373 ; H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 1, Folie 13
PROC GLM Anweisungen proc glm; class n_stufe nutz_h block; model dt_ha= block n_stufe nutz_h n_stufe*nutz_h; random n_stufe*block nutz_h*block/test; run; zik sjk Erwartungswerte für MQ und richtige F-Tests automatisch berechnet! H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 1, Folie 14
ANOVA F-Test Source DF Type III SS F Value Pr > F * Nutz_h 3 3176. 944124 13. 64 0. 0011 Error 9 698. 586933 Error: MS(Block*Nutz_h) * This test assumes one or more other fixed effects are zero. H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 1, Folie 15
PROC MIXED proc mixed data=b nobound; class block n_stufe nutz_h; Model dt_ha=block nutz_h n_stufe nutz_h*n_stufe; random nutz_h*block n_stufe*block; run; Ergebnis: Cov Parm Estimate Block*Nutz_h 16. 6652 Block*N_Stufe -7. 4850 Residual 44. 2903 H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 1, Folie 16
Restricted Maximum Likelihood (REML) Fit Statistics -2 Res Log Likelihood 156. 8 AIC (smaller is better) 162. 8 AICC (smaller is better) 164. 2 BIC (smaller is better) 165. 1 H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 1, Folie 17
Wald-F-Test Type 3 Tests of Fixed Effects Num Den Effect DF F Value Pr > F Block 3 3 1. 42 0. 3905 Nutz_h 3 9 13. 64 0. 0011 N_Stufe 1 3 91. 40 0. 0024 N_Stufe*Nutz_h 3 9 2. 59 0. 1171 H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 1, Folie 18
Was macht MIXED anders als GLM? (1) Mit Hilfe der Restricted Maximum Likelihood (REML) Methode werden die Varianzen für Zeilen-, Spalten, und Restfehler geschätzt. (2) Die Varianzen werden verwendet, um die festen Effekte zu schätzen (gewichtete kleinste Quadrate; BLUE). (3) Mittels der geschätzten Effekte und Varianzen wird eine sog. Wald-F-Statistik berechnet. Hierbei tauchen keine MQ auf wie bei GLM. Bei balancierten Daten Ergebnisse identisch mit F-Statistik in GLM, aber nicht bei unbalancierten Daten! H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 1, Folie 19
Mittelwertvergleiche Vergleich A Mittelwerte (N-Menge) Varianz der Differenz (V) B Mittelwerte (Nutzhäufigkeit) 2 Eb/(ar) A B Mittelwerte auf gleicher Stufe von B 2[(b 1)Ec + Ea]/(br) A B Mittelwerte auf gleicher Stufe von A 2[(a 1)Ec + Eb]/(ar) 2 Ea/(br) Grenzdifferenz: LSD = t-Wert V H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 1, Folie 20
Satterthwaite-Freiheitsgrade A-Mittelwerte (N-Menge) auf gleicher B-Stufe (Nutzhäufigkeit): V = ha. Ea + hc. Ec wobei hc = 2(b 1)/(br) und ha = 2/(br) 2 MQ beteiligt (Ea und Ec)! H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 1, Folie 21
Mittelwertvergleiche Das kann GLM nicht: • Standardfehler einer Differenz ( V) • Satterthwaite-Freiheitsgrade MIXED kann beides! DDFM = SATTERTHWAITE (DDFM=SATTERTH) DDFM = KENWARDROGER (DDFM=KR) H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 1, Folie 22
MIXED Anweisungen ods output diffs=diffs; proc mixed data=b nobound; class block n_stufe nutz_h; model dt_ha=block nutz_h n_stufe nutz_h*n_stufe/ddfm=kr; random nutz_h*block n_stufe*block; lsmeans nutz_h*n_stufe/pdiff; run; data diffs; set diffs; lsd=Std. Err*tinv(0. 975, DF); proc print data=diffs; run; H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 1, Folie 23
MIXED Output Least Squares Means N_Stufe Nutz_h Estimate 1 2 92. 7543 1 3 79. 1983 1 4 74. 5458 1 57. 0985 2 99. 4671 2 3 85. 4866 2 4 91. 0730 2 5 78. 7876 H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 1, Folie 24
MIXED Output Differences of Least Squares Means N_Stufe Nutz_h _N_Stufe _Nutz_h Std. Err DF lsd 1 2 1 3 5. 5207 16. 7 11. 66 . . 1 2 2 2 4. 2898 10. 7 9. 48 . . <28 Differenzen> H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 1, Folie 25
Mittelwert-Tabelle TM-Ertrag: Vergleich der Nutzungshäufigkeiten bei gleicher N-Stufe. § N-Menge N 1 N 2 Nutzungshäufigkeit S 2 92, 8 c 99, 5 S 3 79, 2 b 85, 5 S 4 74, 5 b 91, 1 S 5 57, 1 a 78, 8 LSD = 11, 66 c ab bc a § Mittelwerte in derselben Spalte, die einen Buchstaben gemeinsam haben, sind nicht signifikant verschieden ( = 5%) H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 1, Folie 26
Mittelwert-Tabelle TM-Ertrag: Vergleich der N-Menge bei gleicher Nutzungshäufigkeit. § N-Menge N 1 N 2 Nutzungshäufigkeit S 2 92, 8 a 99, 5 S 3 79, 2 a 85, 5 S 4 74, 5 a 91, 1 S 5 57, 1 a 78, 8 LSD = 9, 48 a a b b § Mittelwerte in derselben Zeile, die einen Buchstaben gemeinsam haben, sind nicht signifikant verschieden ( = 5%) H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 1, Folie 27
Fazit Beispiel 1 • GLM und MIXED haben viele Gemeinsamkeiten • MIXED berechnet Wald-F-Tests statt ANOVA F-Tests - Keine SQ und MQ - Bei balancierten Daten dasselbe Ergebnisse wie GLM • Standardfehler und Satterthwaite-FG: - Fehlanzeige bei GLM - MIXED rechnet automatisch richtig • Darstellung von Mittelwertvergleichen: - MIXED gibt keine Buchstabendarstellung oder LSD aus - etwas zusätzlicher Aufwand notwendig - %MULT-Makro (Piepho, 2003) H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 1, Folie 28
Beispiel 2 Eine ungewöhnliche Spaltanlage Daten von Dr. D. Kauter Institut für Pflanzenbau und Grünland, Uni Hohenheim H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 2, Folie 29
Behandlungen Variante K-Düngung Strohdüngung 1 KCl im Herbst + 2 KCl im Frühjahr + 3 K 2 SO 4 im Herbst + 4 Kontrolle + 5 KCl im Herbst - 6 KCl im Frühjahr - 7 K 2 SO 4 im Herbst - 8 Kontrolle - H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 2, Folie 30
Randomisation GS = Großspalte Z = Zeile • Randomisation für Stroh aus technischen Gründen stark eingeschränkt H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 2, Folie 31
Randomisation GS = Großspalte Z = Zeile 2 Großteilstücke (S) je Großspalte • Strohvarianten auf Spalten randomisiert • Großspalten = Blöcke H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 2, Folie 32
Randomisation GS = Großspalte Z = Zeile 4 Kleinteilstücke je Zeile und Strohvariante • K-Varianten auf Kleinteilstücke randomisiert H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 2, Folie 33
Modellierung Versuchsseinheiten: GS = Großspalten (bestehend aus je 4 Spalten) S = Großteilstücke (bestehend aus je 2 Spalten) Z = Zeilen (Blöcke) PLOT = Parzellen-Nummer Behandlungsfaktoren: A = Strohvariante B = K-Variante H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 2, Folie 34
Modellierung Modellsyntax von Piepho, Büchse & Emrich (2003; JACS) Behandlungsstruktur: A B = A + B + A B [entspricht i + j + ( )ij] Versuchseinheiten: Großteilstücke: GS/S = GS + GS S Kleinteilstücke: (Z A)/PLOT = Z A + Z A PLOT H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 2, Folie 35
Modell zusammensetzen Y = A + B + A B + GS + GS S + Z A + Z A PLOT Großteilstücke Kleinteilstücke Behandlungen Versuchseinheiten H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 2, Folie 36
Modell fertigstellen Feste und zufällige Effekte sortieren: Y = A + B + A B + GS + Z A : GS S + Z A PLOT fest zufällig H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 2, Folie 37
Modell fertigstellen Feste und zufällige Effekte sortieren: Y = A + B + A B + GS + Z A : GS S + Z A PLOT fest zufällig proc mixed; class a b gs s z; model y= a b a*b gs z*a/ddfm=kr; random gs*s; run; H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 2, Folie 38
Fazit Beispiel 2 • Oft muss aus technischen Gründen die Randomisation stark eingeschränkt werden • Für solche Fälle gibt es viele Randomisationspläne (Statistiker fragen!) • Auch für Nicht-Standard-Anlagen kann ein adäquates gemischtes Modell aufgestellt werden H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 2, Folie 39
Beispiel 3 Feldversuch mit Messwiederholungen im Raum Daten von F. Wald Institut für Pflanzenbau und Grünland, Uni Hohenheim H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 3, Folie 40
Versuchsbeschreibung • Leguminosen-Grasgemenge als N-Quelle • Mineralisierung unter Weizen nach Umbruch • Nmin in 4 Tiefen gemessen • 3 verschiedene Bodenbearbeitungen in Blockanlage: Nummer Beschreibung 1 2 3 Rotortiller (2 mal), abschließend Pflugfurche Rotortiller (1 mal), abschließend Pflugfurche ausschließlicher Pflugumbruch H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 3, Folie 41
Vier Schichten im Bodenkörper einer Blockanlage H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 3, Folie 42
Modell für eine Schicht yij = + bj + i + eij wobei yij = Nmin-Gehalt der i-ten Behandlung (Bodenbearbeitung) im j-ten Block (log-transformiert!) = Gesamteffekt bj = Effekt des j-ten Block i = Effekt der i-ten Behandlung eij = Fehler der ij-ten Parzelle H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 3, Folie 43
Modell über Schichten Keine Randomisation der Tiefen möglich Fehler eij 1, eij 2, eij 3, eij 4 sind nicht unabhängig! H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 3, Folie 44
Modell über Schichten yijt = t + bjt + it + eijt t =1, 2, 3, 4: Index für Tiefe Behandlungseffekte zweifaktoriell aufspalten: it = i + t + ( )it wobei i = Haupteffekt der i-ten Bodenbearbeitungsmaßnahme t = Haupteffekt der t-ten Tiefe ( )it = it-te Wechselwirkung H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 3, Folie 45
Korrelationsstrukturen Unabhängigkeit: corr(eijs, eijt) = 0 Compound Symmetry (CS): corr(eijs, eijt) = Autoregressiv [AR(1)]: corr(eijs, eijt) = |s-t| H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 3, Folie 46
Compound Symmetry eijt = fij + gijt (Split-Plot Modell) wobei fij = ij-ter Parzellenhaupteffekt gijt = tiefenspezifische Abweichung in der ij-ten Parzelle H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 3, Folie 47
AR(1)-Modell H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 3, Folie 48
Wahl der Korrelationsstruktur Modell § -2 log L $ AIC (kleiner = besser) Homogene Varianzen: Unabhängig 21, 9 23, 9 CS 15, 7 19, 7 AR(1) 13, 9 17, 9 Heterogene Varianzen: Unabhängig 15, 1 23, 1 CS 6, 7 16, 7 AR(1) 6, 4 16, 4 Unstrukturiert -2, 5 17, 5 § log L = log-Likelihood; p = Zahl der Varianzparameter $ AIC = Akaike Information Criterion = -2 log L + 2 p H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 3, Folie 49
MIXED Anweisungen proc mixed; class tiefe block boden; model log_nmin= tiefe block*tiefe boden*tiefe/ddfm=kr; repeated tiefe/sub=block*boden type=arh(1); run; Beobachtungen aus verschiedenen Parzellen („Subjects“) sind unabhängig „Subject“ = Einheit, auf der wiederholte Messungen gemacht werden H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 3, Folie 50
MIXED: Mittelwertvergleiche getrennt nach Tiefe ods output diffs=diffs; ods output lsmeans=lsmeans; proc mixed; class tiefe block boden; model log_nmin= tiefe block*tiefe boden*tiefe/ddfm=kr; repeated tiefe/sub=block*boden type=arh(1); lsmeans boden*tiefe/pdiff; run; %mult(trt=boden, by=tiefe, level=1); %mult(trt=boden, by=tiefe, level=2); %mult(trt=boden, by=tiefe, level=3); %mult(trt=boden, by=tiefe, level=4); H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 3, Folie 51
Mittelwert-Tabelle (log-Skala) $ log(Nmin) Tiefe Bodenbearbeitung 1 2 3 4 2*Rotortiller+Pflug 3, 70 b C 2, 95 c B 1, 99 c A 1, 99 b A 1*Rotortiller+Pflug 3, 63 b C 2, 26 b B 1, 42 b A 1, 52 b A Pflug 1, 72 a B 1, 49 a B 0, 92 a A 0, 80 a A § Mittelwerte in einer Zeile, die einen großen Buchstaben gemeinsam haben, sind nicht signifikant voneinander verschieden (t-Test, = 5%). Mittelwerte in einer Spalte, die einen kleinen Buchstaben gemeinsam haben, sind nicht signifikant voneinander verschieden (t-Test, = 5%). H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 3, Folie 52
Rücktransformation x = log(y) = arithmetisches Mittel Schätzwert Erwartungswert Nur bei Normalverteilung: Erwartungswert = Median = Schätzwert für Median aber: kein Schätzwert für Erwartungswert! H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 3, Folie 53
Median-Tabelle (Originalskala) § Nmin Tiefe Bodenbearbeitung 1 2 3 4 2*Rotortiller+Pflug 40, 4 b C 19, 1 c B 7, 3 c A 7, 3 b A 1*Rotortiller+Pflug 37, 7 b C 9, 6 b B 4, 1 b A 4, 6 b A Pflug 5, 6 a B 4, 4 a B 2, 5 a A 2, 2 a A § Mittelwerte in einer Zeile, die einen großen Buchstaben gemeinsam haben, sind nicht signifikant voneinander verschieden (t-Test, = 5%). Mittelwerte in einer Spalte, die einen kleinen Buchstaben gemeinsam haben, sind nicht signifikant voneinander verschieden (t-Test, = 5%). H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 3, Folie 54
Fazit Beispiel 3 • Messwiederholungen erfordern besondere Auswertung • Split-Plot-Analyse ist veraltet; es gibt bessere Korrelationsstrukturen, z. B. AR(1) • Modellwahl mit AIC • Mittelwertvergleiche mit %MULT-Makro • Volle Analyse nach verschiedenen gemischten Modellen kaum anspruchsvoller als für naive Split-Plot Analyse • Rücktransformierte Mittelwerte sind Mediane! H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 3, Folie 55
Text Beispiel 4 Streifen-Spalt-Anlage Messwiederholungen in der Zeit Daten von C. Pringas Institut für Zuckerrübenforschung, Göttingen H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 4, Folie 56
Versuchsfrage Einfluss pflanzenbaulicher Maßnahmen auf Fusarium. Befall von Winterweizen. Zielvariable: DON-Gehalt (Deoxynivalenol) - Sorte (2 Stufen) - Bodenbearbeitung (2 Stufen) - Fungizid (2 Stufen) - 4 Wiederholungen Zweijähriger Versuch auf gleicher Fläche ØMesswiederholung in der Zeit H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 4, Folie 57
Versuchsdesign Fungizidbehandlung in Streifen H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 4, Folie 58
Versuchsdesign Bodenbearbeitung in Spalten H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 4, Folie 59
Versuchsdesign Sorten in Unterspalten H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 4, Folie 60
Modellierung Behandlungseffekte: Bodenbearbeitung = BB Fungizid = F Sorte = S Modellsyntax entsprechend Piepho, Büchse & Emrich (2003; JACS) A B = A + B + A B [entspricht i + j + ( )ij] Modell für Behandlungseffekte: BB F S = BB + F + S + BB F + BB S + F S + BB F S H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 4, Folie 61
Modellierung Randomisierungseinheiten: Zeile*Wdh = Großteilstück Spalte*Wdh = Großteilstück Zeile*Spalte*Wdh = Mittelteilstück Spalte*Unterspalte*Wdh = Mittelteilstück Zeile*Spalte*Unterspalte*Wdh = Kleinteilstück = Parzelle Modell für Designeffekte: Wdh + Z Wdh + Sp Wdh + Ze Sp Wdh + Sp U Wdh + Plot H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 4, Folie 62
Modell zusammensetzen Modell für Behandlungseffekte: BB + F + S + BB F + BB S + F S + BB F S Modell für Designeffekte: Wdh + Z Wdh + Sp Wdh + Ze Sp Wdh + Sp U Wdh + Plot Komplettes Modell: BB + F + S + BB F + BB S + F S + BB F S + Wdh : fix Z Wdh + Sp Wdh + Ze Sp Wdh + Sp U Wdh + Plot zufällig H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 4, Folie 63
Modell für einjährige Auswertung yijkl = i+ j+ γk+ ij+ γik+ γjk+ γijk+ rl + r il+ r jl+ r ijl+ r γjkl+ eijkl rl Effekt der l-ten Wiederholung i Effekt der i-ten Fungizidstufe j Effekt der j-ten Bodenbearbeitung γk Effekt der k-ten Sorte γijk Interaktionen Fungizid*Bodenbearbeitung*Sorte r il Fehler des il-ten Großteilstücks ~ N(0, s²ra) r jl Fehler des jl-ten Großteilstücks ~ N(0, s²rb) r ijl Fehler des ijl-ten Mittelteilstücks (Kombination Zeile/Spalte) ~ N(0, s²rab) r γjkl Fehler des ikl-ten Mittelteilstücks (Kombination Spalte/Unterspalte) ~ N(0, s²rbc) eijkl Fehler der ijkl-ten Parzelle ~ N(0, s²e) H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik fix zufällig Gießen, 25. 09. 2003, Beispiel 4, Folie 64
SAS-Code einjährige Auswertung Proc mixed data=fusarium; by jahr; class BB Sorte Fungi WDH; model DON = Wdh BB|Sorte|Fungi/ddfm=kr outpred=pred; Residuen in Datei random BB*Wdh Fungi*Wdh BB*Sorte*Wdh; pred speichern run; H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 4, Folie 65
SAS-Code einjährige Auswertung Proc mixed data=fusarium; by jahr; class BB Sorte Fungi WDH; model DON = Wdh BB|Sorte|Fungi/ddfm=kr outpred=pred; random BB*Wdh Fungi*Wdh BB*Sorte*Wdh; run; Kurzschreibweise für BB x SORTE x FUNGI = alle Haupteffekte und Interaktionen H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 4, Folie 66
Voraussetzungen der Varianzanalyse (Unter anderem) § Normalverteilung der Residuen § Varianzhomogenität = Keine Beziehung zwischen Mittelwert und Varianz H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 4, Folie 67
Voraussetzungen der Varianzanalyse Normalverteilung der Residuen: Prüfung z. B. über QQ-Plot (Quantile der Normalverteilung vs. stud. Residuen) Residuen sollten auf Diagonale liegen H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 4, Folie 68
Transformationen zur Erzielung der Voraussetzungen Falls Voraussetzungen verletzt hilft oft Transformation z. B. Log-Transformation y’ = log (y) oder Wurzel-Transformation y’ = wurzel (y) data neu; set alt; log_DON = log (DON); run; In SAS meint LOG den natürlichen Logarithmus! H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 4, Folie 69
Problem: Negative Varianzkomponenten Output von Proc Mixed: Covariance Parameter Estimates Cov Parm Estimate BB*WDH 0 Fungi*WDH 0 BB*Fungi*WDH 0. 007211 BB*Sorte*WDH 0 Residual 0. 2420 ? Iterativer Algorithmus in Proc MIXED lässt nicht zu, dass Varianzen negativ werden Negative Varianzkomponenten werden auf Null gesetzt und damit de facto aus dem Modell entfernt H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 4, Folie 70
Problem: Negative Varianzkomponenten Im Falle balancierter Daten kann diese Restriktion mit der nobound-Option umgangen werden Proc mixed data=fusarium nobound; by jahr; class BB Sorte Fungi WDH BD; model log_DON= Wdh BB|Sorte|Fungi/ddfm=kr outpred=pred; random BB*Wdh Fungi*Wdh BB*Sorte*Wdh; run; Cov Parm Estimate BB*WDH -0. 03595 Fungi*WDH -0. 1082 BB*Fungi*WDH 0. 07709 BB*Sorte*WDH -0. 1575 Residual 0. 3995 H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 4, Folie 71
Mehrjährige Auswertung H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 4, Folie 72
Mehrjährige Auswertung Einjähriges Modell wird um den Faktor Jahr erweitert > Für alle Effekte zusätzlich eine Interaktion mit dem Jahr in das Modell nehmen Für die Groß-, Mittel- und Kleinteilstücke liegt Messwiederholung vor > Korrelationsstruktur festlegen Da nur zwei Jahre: CS = AR(1) Faktor Jahr fix oder zufällig? Wenn Jahre fix > retrospektive Betrachtung Wenn Jahre zufällig > Prognose für Zukunft H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 4, Folie 73
Umsetzung in SAS-Code Proc mixed data=fusarium; class JAHR PARZ BB Sorte Fungi WDH BD; model log_DON= Wdh BB|Sorte|Fungi/ddfm=kr; random Jahr jahr*wdh Jahr*BB Jahr*Sorte Jahr*Fungi Jahr*BB*Sorte Jahr*BB*Fungi Jahr*Sorte*Fungi Jahr*BB*Sorte*Fungi; random Jahr/subject =BB*Wdh type =cs; random Jahr/subject =Fungi*Wdh type =cs; Groß- und random Jahr/subject=BB*Fungi*Wdh type=cs; Mittelteilstücke random Jahr/subject=BB*Sorte*Wdh type=cs; repeated jahr/subject=parz type=cs; Kleinteilstücke lsmeans BB*Sorte*Fungi/diff; run; H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 4, Folie 74
Output mehrjährige Auswertung WARNING: Did not converge. Cov Parm Subject Estimate JAHR 0. 3743 JAHR*WDH 0. 01607 JAHR*BB 0 JAHR*Sorte 0 JAHR*Fungi 0 JAHR*BB*Sorte 2. 93 E-20 Keine Konvergenz, JAHR*BB*Fungi 0 Programm bricht ab : -( JAHR*Sorte*Fungi 0 JAHR*BB*Sorte*Fungi 0 Variance BB*WDH 0. 005695 CS BB*WDH -0. 01234 Variance Fungi*WDH 0 CS Fungi*WDH -0. 02491 Variance BB*Fungi*WDH 0 CS BB*Fungi*WDH 0. 004398 Variance BB*Sorte*WDH 0. 06794 CS BB*Sorte*WDH -0. 09298 CS PARZ 0. 006838 Residual 0. 3515 H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Kovarianzstruktur = CS Gießen, 25. 09. 2003, Beispiel 4, Folie 75
Was tun bei fehlender Konvergenz und sonstigen Abbrüchen ? • Modell reduzieren (fixe und zufällige Effekte) • Varianzkomponenten mit Wert Null rauswerfen. . . Proc mixed …; class …; model log_DON= Wdh BB|Sorte|Fungi /ddfm=kr; random . . . ; random Jahr/subject =BB*Wdh type =cs; random Jahr/subject =Fungi*Wdh type =cs; *random Jahr/subject=BB*Fungi*Wdh type=cs; wird von random Jahr/subject=BB*Sorte*Wdh type=cs; SAS repeated jahr/subject=parz type=cs rcorr; ignoriert run; H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 4, Folie 76
Output für das reduzierte Modell Cov Parm Subject Estimate JAHR 0. 2393 JAHR*WDH 0. 004935 JAHR*BB 0. 002621 JAHR*Sorte 0 JAHR*Fungi 3. 93 E-19 JAHR*BB*Sorte 0 JAHR*BB*Fungi 0 JAHR*Sorte*Fungi 0 JAHR*BB*Sorte*Fungi 0 Variance BB*WDH 0 CS BB*WDH 0. 03860 Variance Fungi*WDH 0 CS Fungi*WDH -0. 02789 Variance BB*Sorte*WDH 0. 08363 CS BB*Sorte*WDH -0. 1073 CS PARZ 0. 1433 Residual 0. 1181 H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 4, Folie 77
Output für das reduzierte Modell -2 Res Log Likelihood 96. 3 AIC (smaller is better) 114. 3 Type 3 Tests of Fixed Effects Num Den Effect DF DF F Value Pr > F WDH 3 1 0. 39 0. 7936 BB 1 1. 33 47. 80 0. 0525 Sorte 1 6 330. 84 <. 0001 BB*Sorte 1 6 9. 66 0. 0209 Fungi 1 3 48. 58 0. 0061 BB*Fungi 1 9 1. 63 0. 2338 Sorte*Fungi 1 9 5. 03 0. 0517 BB*Sorte*Fungi 1 9 0. 20 0. 6685 H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 4, Folie 78
Alternative Auswertungen Jahre fix Einfacheres Modell, weniger Varianzkomponenten zu schätzen Aber: Aussagekraft auf die Jahre beschränkt in denen Versuch durchgeführt wurde! Mittelwerte über beide Jahre Zunächst Mittelwerte bilden und dann mit Modell für einjährige Daten auswerten > ebenfalls begrenzte Aussagekraft Im Fall der Beispieldaten führten beide Vereinfachungen zu sehr ähnlichen Resultaten wie das komplette Modell H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 4, Folie 79
Fazit Beispiel 4 § Bei Modellaufbau Designeffekte und Behandlungseffekte separat formulieren § Jede Randomisierungseinheit ein Fehlerterm § Voraussetzungen der Varianzanalyse über Residuenplot prüfen § Falls notwendig Transformation durchführen § Mixed setzt negative Varianzkomponenten auf Null (wenn nicht nobound angegeben) § Bei komplexen Modellen oft interaktive Reduktion des Modells notwendig § Zusammenfassung über Mittelwerte oder Differenzen „summary measures“ bei Messwiederholung oft sinnvolle Vereinfachung H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 4, Folie 80
Text Beispiel 5 Dauerversuch mit Fruchtwechsel Daten von ´Dr. H. -P. König Institut für Zuckerrübenforschung, Göttingen H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 5, Folie 81
Versuchsdesign § dreifeldrige Fruchtfolge: Zuckerrüben-WW-WG § auf drei benachbarten Teilschlägen mit Fruchtwechsel - Bodenbearbeitung (2 Stufen) - Stickstoff-Düngung (4 Stufen) - 4 Wiederholungen Mehrjähriger Versuch auf gleicher Fläche ØMesswiederholung in der Zeit H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 5, Folie 82
Versuchsdesign H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 5, Folie 83
Versuchsdesign H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 5, Folie 84
Versuchsdesign H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 5, Folie 85
Versuchsdesign Beachte: Design ist einjährig über die Fruchtarten nicht auswertbar, da Schlag und Fruchtart vermengt sind! Innerhalb einer Rotation sind Schlag, Jahr und Fruchtart vermengt H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 5, Folie 86
Versuchsfrage § Auswertung von Dauerversuchen üblicherweise nach Fruchtarten getrennt § Hier Auswertung von Bodenmerkmalen über alle Fruchtarten interessant: - Wie wirkt Behandlung auf Nährstoffgehalt im Boden - Gibt es Interaktionen Behandlung*Fruchtart? - Gibt es zeitliche Trends? Wann ist Gleichgewicht erreicht? Biometrische Fragestellung: § Wie kommt man zum Modell? H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 5, Folie 87
Modellierung Modellsyntax entsprechend Piepho, Büchse & Emrich (2003; JACS) A B = A + B + A B [entspricht i + j + ( )ij] Modell für Behandlungseffekte (einjährig): B N F = B + N + F + B N + B F + N F + B N F B = Bodenbearbeitung N = Stickstoffdüngung F = Fruchtart H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 5, Folie 88
Modellierung Modell für Behandlungseffekte (einjährig): B N F = B + N + F + B N + B F + N F + B N F + BN + BF + NF + BNF Kurzschreibweise B N F = B + N + F H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 5, Folie 89
Modellierung Modell für Behandlungseffekte (mehrjährig): B N F (R/J) = B + N + F + BN + BF + NF + BR + NR + FR + BNR + BFR + NFR + BRJ + NRJ + FRJ + BNRJ + BFRJ + NFRJ + BNFRJ R/J = R + R J R = Rotationseffekt = zeitlicher Trend (fix) R J = Jahr geschachtelt in Rotation (zufällig) Zufälliger Jahreseffekt erlaubt Prognosen für zukünftige Jahre H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 5, Folie 90
Modellierung Modell für Designeffekte (einjährig): S / W / Mainplot / Subplot = S + SWBN S = Effekt eines Schlages SW = Effekt einer Wiederholung innerhalb eines Schlages SWB = Großteilstückfehler SWBN = Parzellen- bzw. Restfehler H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 5, Folie 91
Modellierung Modell für Designeffekte (mehrjährig): (S / W / Mainplot / Subplot) (R/J) = S + SWB + SR + SWBR + SJR + SWBJR + SWBNJR Rotationsspezifischer Schlag- und Wiederholungseffekt sowie Großteilstückfehler nicht sinnvoll SWBNJR = Restfehler H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 5, Folie 92
Modellierung Alternative Modell für Designeffekte (mehrjährig): (S / W / Mainplot / Subplot) pt (R/J) (nach Piepho, Büchse & Richter 2003 b) = S + SWB + SJR + SWBJR + SWBNJR = Restfehler H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 5, Folie 93
Modell zusammensetzen Mehrjähriges Modell für Behandlungseffekte Mehrjähriges Modell für Designeffekte Y = R + B + N + F + B N + B F + N F + B R + N R + F R + B N R + B F R + N F R + B N F R + S W : J R + S W J R + B R J + N R J + F R J + B N R J + B F R J + N F R J + B N F R J + S W B J R + S W B N J R + Korrelationsstruktur für Groß- und Kleinteilstückfehler H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 5, Folie 94
Modell zusammensetzen 11 Designeffekte und 21 Behandlungseffekte Postulat: keine Interaktionen zwischen Behandlung und Block keine Interaktionen zwischen Behandlung und Schlag H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 5, Folie 95
Achtung Vermengung! § einige Effekte miteinander vermengt (confounded) § nur ein Drittel der Kombinationen Jahr*Schlag*Frucht realisiert § in einem Jahr jede Fruchtart nur auf einem Schlag § jeder Schlag jährlich nur eine Frucht § Effekt Schlag*Jahr = Frucht*Jahr Modellreduktion um diese vermengten bzw. redundanten Effekte notwendig H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 5, Folie 96
Modell Letztendliches Modell Y = R + B + N + F + B N + B F + N F + B R + N R + F R + B N R + B F R + N F R + B N F R + S W : J R + S F W J R + B R J + N R J + B N R J + S W B R + S F W B J R + S J R F + S B F R J + S N F R J + S B N F R J + S W B N J R + Korrelationsstruktur für Groß- und Kleinteilstückfehler H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 5, Folie 97
Sind Schläge Blöcke oder Orte? Falls Schläge sehr heterogen, evtl. doch Interaktionen Schlag Behandlung zu erwarten (Analogie zu Versuchsserie: Schläge = Orte); Problem hier: Viele Vermengungen! H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 5, Folie 98
Umsetzung in SAS-Code Berücksichtigung der Messwiederholung für Großteilstücke und Kleinteilstücke z. B. Struktur autoregressiv Proc Mixed ; Class. . . ; Tipp: Parallel Auswertung mit PROC GLM, da bei Model. . . ; Vermengung von Effekten einige SQ = 0. 000. . . random jahr/subject=Wdh*schlag*Mainplot Type=AR(1); repeated jahr/subject=wdh*schlag*subplot Type=AR(1); … run; H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 5, Folie 99
Fazit Beispiel 5 § Bei Aufbau komplexer Modelle Behandlungs- und Designeffekte zunächst trennen § Behandlungs- und Designeffekte separat mit Messwiederholungsfaktor kombinieren § Falls notwendig Zusammenfassung vermengter Effekte § Dauerversuch verlangt Modellierung der Korrelationsstruktur da Messwiederholung vorliegt § Überlegen, ob Interaktionen zwischen Blöcken bzw. Superblöcken und Behandlungen in das Modell gehören H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 5, Folie 100
Beispiel 6 Transformation von Prozentzahlen Daten von S. Gruber Institut für Pflanzenbau und Grünland, Uni Hohenheim H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 6, Folie 101
Versuchsbeschreibung • Dormanzinduktion bei Raps • Vier genetisch modifizierte Sorten und deren nahisogene Pendants • Frage: beeinflusst genetische Modifikation die Dormanz? • Keimverhalten in Petrischalen • Mehrere Petrischalen (von verschiedenen Sorten!) in Kontainer zur Abdunkelung • Mehrere Experimente (Versuchsserie) • Versuche unbalanciert • Zielvariable: Anteil gekeimter Körner H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 6, Folie 102
Modellierung yijkh = + i + rj + ( r)ij + cjk + eijkh wobei yijkh = Anteil gekeimter Samen in h-ter Wiederholung für i-te Sorte im j-ten Experiment und k-ten Kontainer i = allgemeiner Effekt = Haupteffekt der i-ten Sorte fix rj = Haupteffekt des j-ten Experiments ( r)ij = Wechselwirkung Sorte Experiment cjk = Effekt des kj-ten Kontainers eijkh = Restfehler (Petrischaleneffekt) zufällig H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 6, Folie 103
Varianzheterogenität (ohne Transformation) H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 6, Folie 104
Varianzstabilisierung nach Transformation H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 6, Folie 105
Box-Cox-Familie von Transformation Spezialfälle: y = x für = 1 Keine Transformation y = x für = 0, 5 Wurzel-Transformation y = log(x) für = 0 Log-Transformation y = 1/x für = -1 Inverse Transformation H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 6, Folie 106
Zwei spezielle Transformationen für Prozentzahlen 1. Winkel-Transformation 2. Gefaltete Exponential-Transformation (Piepho 2003 b) H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 6, Folie 107
Maximum-Likelihood Schätzung der Transformation H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 6, Folie 108
Ein SAS Makro %foldedmanly( phimin=0, phimax=8, steps=100, class=expt kontr sorte, model=sorte, stmts=%str(random expt*kontr expt*sorte; ), data=d, response=x); H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 6, Folie 109
Mittelwertvergleiche § Mittelwerte Gruppe Sorte Transformiert Untransformiert 1 mod. 1 1 6, 52 A 1, 01 B 0, 148 0, 581 mod. 2 2 12, 26 A 9, 76 B 0, 007 0, 056 mod. 3 3 9, 77 A 10, 05 A 0, 060 0, 049 mod. 4 2, 80 A 4 (Ort 1) 1, 98 A 4 (Ort 2) 5, 03 B 0, 313 0, 352 0, 216 2 3 4 5 (Kontrolle) 5 1, 02 0, 431 § Sorten einer Gruppe, die einen Buchstaben gemeinsam haben, sind nicht signifikant verschieden. H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 6, Folie 110
Fazit für Beispiel 6 • Datentransformationen bei Problemdaten sinnvoll • Kein Problem in gemischten Modellen • Kann optimale Transformation einer Familie aus Daten schätzen (Maximum Likelihood) • Für Prozentzahlen neue Familie: Gefaltete Exponential-Transformation • SAS-Makro verfügbar H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 6, Folie 111
Beispiel 7 Räumliche Statistik (Nearest-Neighbor-Adjusted BLUP) Daten von Dr. T. Presterl Institut für Pflanzenzüchtung, Uni Hohenheim H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 7, Folie 112
Versuchsbeschreibung • Züchtung von Kühletoleranz bei Mais • Über 720 DH-Linien • Versuche als „Augmented Design“ mit 10 Standards und 90 Linien je Block angelegt DH-Linien ohne Wiederholungen geprüft • Problem: - Ein unvollständiger Block hat 100 Parzellen - Große Heterogenität zwischen Parzellen • Ziel einer Auswertung: - Optimale Schätzung des genetischen Wertes der Linien - Dabei Nutzung der Standards und Korrektur für kleinräumige Gradienten innerhalb Block H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 7, Folie 113
Best Linear Unbiased Prediction (BLUP) • Bisher Behandlungseffekte fix • Genetik: Behandlungen = Genotypen • Genotypen entstammen hier spaltender Population Zufallsverteilung der genetischen Effekte der Linien • Bei Nutzung der Information über Verteilung kann die Schätzung der Effekte verbessert werden • Brauche anderes Schätzverfahren als bei festen Effekten: BLUP statt LSMEANS Ursprung: Zuchtwertschätzung in Tierzüchtung • In MIXED: Behandlungseffekt einfach in RANDOMAnweisung – fertig! H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 7, Folie 114
Modell Standards: yi = s + ei s = Erwartungswert des s-ten Standard ei = Abweichung der i-ten Beobachtung vom Erwartungswert Linien: yi = + gs + ei gs = Erwartungswert über alle Linien = Effekt der s-ten Linie (zufällig) BLUP(gs) H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 7, Folie 115
Nearest-Neighbor-Analyse Idee: • Für Linien jeweils nur eine Parzelle beobachteter Wert stark umweltabhängig • Problem v. a. bei hoher Streuung zwischen Parzellen • Kann Fruchtbarkeit einer Parzelle aus Erträgen der Nachbarparzellen abschätzen Korrektur des beobachteten Wertes einer Parzelle Umsetzung: • Viele alte Ansätze mit heuristischen Rechenformeln (Papadakis-Methode, etc. ) • Seit ca. 20 Jahren Beziehung zu gemischten Modellen und Geostatistik ausgenutzt H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 7, Folie 116
Nearest-Neighbor Adjusted BLUP Idee: • Bei Korrektur einer Parzelle sollen direkt benachbarte Parzellen höheren Einfluss haben als entferntere • Modelliere Umweltstreuung mit Geostatistik • Baue das ganze in gemischtes Modell ein • Korrelation zweier Parzellen um so enger je näher beieinander • Korrelation fungiert als Abstandsmaß; Höhe der Korrelation bestimmt den Einfluss einer Parzelle auf die Korrektur H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 7, Folie 117
Räumliche Korrelation (Geostatistik) wobei ei = Fehler auf i-ter Parzelle ej = Fehler auf j-ter Parzelle dij = Euklidische Distanz zwischen zwei Parzellen i und j 2 = Varianz = Korrelationsparameter Philosophie: Ignoriere Randomisationsstruktur H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 7, Folie 118
Kodierung der Variablen PGL GEN Z 1 1000 1 2 1000 1 3 1000 1 4 1000 1. . . 1001 0 1002 0 1003 0 1004 0 1005 0 1006 0 H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Linien Standards Gießen, 25. 09. 2003, Beispiel 7, Folie 119
MIXED Anweisungen proc mixed; class pgl gen; model g_m 2=gen; s, random z*pgl/solution; gs repeated/sub=int type=sp(pow) (x y); run; ei [x, y: räumliche Koordinaten] H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 7, Folie 120
Vergleich NNA-BLUP und LSMEANS • Schrumpfung • Rangfolge verändert (rs = 0, 92) H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Einleitung, Folie 121
Fazit Beispiel 7 • Das Schätzverfahren für zufällige Effekte heisst BLUP • BLUP bedingt Schrumpfung zum Gesamtmittel im Vergleich zu LSMEANS • BLUP kann genauer sein als LSMEANS wenn: - der Faktor viele Stufen hat - die Verteilungsannahme stimmt • Adjustierung von Messwerten durch nächste Nachbarn durch räumliche Korrelationsstruktur (NNA-BLUP) H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Einleitung, Folie 122
Zusammenfassung Workshop • Auswertung gemischter Modelle mit MIXED sehr ähnlich der mit GLM • Richtige Standardfehler und Mittelwertvergleiche nur mit MIXED • Gemischte Modelle sehr flexibel einsetzbar für die Modellierung in Nicht-Standard-Designs • Wichtig für Daten mit zeitlicher und räumlicher Korrelation (Messwiederholungen, Geostatistik) • Transformationen in gemischten Modellen leicht einsetzbar Fazit: Gemischte Modelle gehören in Handwerkskasten des Pflanzenbauwissenschaftlers H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Einleitung, Folie 123
- Slides: 123