Spaltanlage Messwiederholung Dauerversuch Hinweise zur Auswertung komplexer pflanzenbaulicher

Spaltanlage - Messwiederholung - Dauerversuch: Hinweise zur Auswertung komplexer pflanzenbaulicher Versuche mit gemischten Modellen Hans-Peter Piepho & Andreas Büchse Universität Hohenheim, Fachgebiet Bioinformatik 46. Jahrestagung der Gesellschaft für Pflanzenbauwissenschaften, Gießen, 25. September 2003

Was will dieser Workshop? Warum? • Viele Versuche und Datenstrukturen erfordern gemischte Modelle • Beispiele: Spaltanlagen, Messwiederholungen, Versuchserien, räumliche Daten • Gemischte Modelle bisher wenig eingesetzt Ziele: • Appetit auf gemischte Modelle machen • Konzepte anhand von 7 Beispielen verdeutlichen • Hinweise zur Umsetzung mit SAS PROC MIXED geben H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Einleitung, Folie 2

Die sieben Beispiele 1. Streifenanlage (P) 2. Eine ungewöhnliche Spaltanlage (P) 3. Feldversuch mit Messwiederholungen im Raum (P) 4. Streifen-Spaltanlage, Messwiederholungen in der Zeit (B) 5. Dauerversuch in dreifeldriger Fruchtfolge (B) 6. Transformation von Prozentzahlen (P) 7. Räumliche Statistik (Nearest-Neighbor-Adjusted BLUP) (P) 8. (P = Vortrag Piepho, B = Vortrag Büchse) H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Einleitung, Folie 3

Was ist (k)ein gemischtes Modell? Modell für Blockanlage: yij = + j + i + eij yij = Ertrag der i-ten Behandlung im j-ten Block = Gesamtmittelwert j = Effekt des j-ten Blocks i = Effekt der i-ten Behandlung fest eij = Fehler zufällig Nur ein zufälliger Effekt kein gemischtes Modell Mehr als ein zufälliger Effekt gemischtes Modell (z. B. Spaltanlage) H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Einleitung, Folie 4

Denk ich an gemischte Modelle. . Text H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Einleitung, Folie 5

Beispiel 1 Streifenanlage Daten von Dr. U. Thumm Institut für Pflanzenbau und Grünland, Uni Hohenheim H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 1, Folie 6

Der Datensatz Nutzungshäufigkeit: (nutz_h) S 2 = 2 Schnitte/Jahr S 3 = 3 Schnitte/Jahr S 4 = 4 Schnitte/Jahr S 5 = 5 Schnitte/Jahr N- Düngung: (n_stufe) N 1 = 30 kg N/ha je Aufwuchs N 2 = 60 kg N/ha je Aufwuchs Wiederholungen: (block) 4 Blöcke Zielvariable: TM-Ertrag (Summe über Schnitte) H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 1, Folie 7

Randomisation je Wiederholung: • S-Stufen auf Spalten • N-Stufen auf Zeilen Streifenanlage (strip plot/split block) H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 1, Folie 8

Modellierung Behandlungen: i + j + ( )ij wobei i = Haupteffekt der i-ten N-Menge j = Haupteffekt der j-ten Nutzungshäufigkeit ( )ij = Wechselwirkung Nutzungshäufigkeit x N-Menge H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 1, Folie 9

Modellierung Versuchseinheiten (Blockeffekte): rk + zik + sjk + eijk wobei rk = Effekt des k-ten Blocks zik = Effekt der i-ten Zeile (N-Menge) im k-ten Block sjk = Effekt der j-ten Spalte (Nutzhäufigkeit) im k-ten Block eijk = Restfehler H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 1, Folie 10

Varianzanalyse-Tabelle Ursache Blöcke A (N-Menge) Fehler(A) Freiheitsgrade (FG) MQ (a 1)(r 1) Ea B (Nutzhäufigkeit) Fehler(B) (b 1)(r 1) Eb A B Fehler(C) (a 1)(b 1)(r 1) Ec (r 1) H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 1, Folie 11

Varianzanalyse-Tabelle Ursache FG A (N-Menge) (a 1) Fehler(A) (a 1)(r 1) Erwartungswert MQ usw. für die anderen MQ H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 1, Folie 12

SAS Datenschritt data a; input aufwuchs N_Stufe Nutz_h Block dt_ha; datalines; 1 2 1 58. 4616 1 2 2 72. 5483. <mehr Daten> . 5 2 5 3 6. 7861 5 2 5 4 11. 2373 ; H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 1, Folie 13

PROC GLM Anweisungen proc glm; class n_stufe nutz_h block; model dt_ha= block n_stufe nutz_h n_stufe*nutz_h; random n_stufe*block nutz_h*block/test; run; zik sjk Erwartungswerte für MQ und richtige F-Tests automatisch berechnet! H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 1, Folie 14

ANOVA F-Test Source DF Type III SS F Value Pr > F * Nutz_h 3 3176. 944124 13. 64 0. 0011 Error 9 698. 586933 Error: MS(Block*Nutz_h) * This test assumes one or more other fixed effects are zero. H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 1, Folie 15

PROC MIXED proc mixed data=b nobound; class block n_stufe nutz_h; Model dt_ha=block nutz_h n_stufe nutz_h*n_stufe; random nutz_h*block n_stufe*block; run; Ergebnis: Cov Parm Estimate Block*Nutz_h 16. 6652 Block*N_Stufe -7. 4850 Residual 44. 2903 H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 1, Folie 16

Restricted Maximum Likelihood (REML) Fit Statistics -2 Res Log Likelihood 156. 8 AIC (smaller is better) 162. 8 AICC (smaller is better) 164. 2 BIC (smaller is better) 165. 1 H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 1, Folie 17

Wald-F-Test Type 3 Tests of Fixed Effects Num Den Effect DF F Value Pr > F Block 3 3 1. 42 0. 3905 Nutz_h 3 9 13. 64 0. 0011 N_Stufe 1 3 91. 40 0. 0024 N_Stufe*Nutz_h 3 9 2. 59 0. 1171 H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 1, Folie 18

Was macht MIXED anders als GLM? (1) Mit Hilfe der Restricted Maximum Likelihood (REML) Methode werden die Varianzen für Zeilen-, Spalten, und Restfehler geschätzt. (2) Die Varianzen werden verwendet, um die festen Effekte zu schätzen (gewichtete kleinste Quadrate; BLUE). (3) Mittels der geschätzten Effekte und Varianzen wird eine sog. Wald-F-Statistik berechnet. Hierbei tauchen keine MQ auf wie bei GLM. Bei balancierten Daten Ergebnisse identisch mit F-Statistik in GLM, aber nicht bei unbalancierten Daten! H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 1, Folie 19

Mittelwertvergleiche Vergleich A Mittelwerte (N-Menge) Varianz der Differenz (V) B Mittelwerte (Nutzhäufigkeit) 2 Eb/(ar) A B Mittelwerte auf gleicher Stufe von B 2[(b 1)Ec + Ea]/(br) A B Mittelwerte auf gleicher Stufe von A 2[(a 1)Ec + Eb]/(ar) 2 Ea/(br) Grenzdifferenz: LSD = t-Wert V H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 1, Folie 20

Satterthwaite-Freiheitsgrade A-Mittelwerte (N-Menge) auf gleicher B-Stufe (Nutzhäufigkeit): V = ha. Ea + hc. Ec wobei hc = 2(b 1)/(br) und ha = 2/(br) 2 MQ beteiligt (Ea und Ec)! H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 1, Folie 21

Mittelwertvergleiche Das kann GLM nicht: • Standardfehler einer Differenz ( V) • Satterthwaite-Freiheitsgrade MIXED kann beides! DDFM = SATTERTHWAITE (DDFM=SATTERTH) DDFM = KENWARDROGER (DDFM=KR) H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 1, Folie 22

MIXED Anweisungen ods output diffs=diffs; proc mixed data=b nobound; class block n_stufe nutz_h; model dt_ha=block nutz_h n_stufe nutz_h*n_stufe/ddfm=kr; random nutz_h*block n_stufe*block; lsmeans nutz_h*n_stufe/pdiff; run; data diffs; set diffs; lsd=Std. Err*tinv(0. 975, DF); proc print data=diffs; run; H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 1, Folie 23

MIXED Output Least Squares Means N_Stufe Nutz_h Estimate 1 2 92. 7543 1 3 79. 1983 1 4 74. 5458 1 57. 0985 2 99. 4671 2 3 85. 4866 2 4 91. 0730 2 5 78. 7876 H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 1, Folie 24

MIXED Output Differences of Least Squares Means N_Stufe Nutz_h _N_Stufe _Nutz_h Std. Err DF lsd 1 2 1 3 5. 5207 16. 7 11. 66 . . 1 2 2 2 4. 2898 10. 7 9. 48 . . <28 Differenzen> H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 1, Folie 25

Mittelwert-Tabelle TM-Ertrag: Vergleich der Nutzungshäufigkeiten bei gleicher N-Stufe. § N-Menge N 1 N 2 Nutzungshäufigkeit S 2 92, 8 c 99, 5 S 3 79, 2 b 85, 5 S 4 74, 5 b 91, 1 S 5 57, 1 a 78, 8 LSD = 11, 66 c ab bc a § Mittelwerte in derselben Spalte, die einen Buchstaben gemeinsam haben, sind nicht signifikant verschieden ( = 5%) H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 1, Folie 26

Mittelwert-Tabelle TM-Ertrag: Vergleich der N-Menge bei gleicher Nutzungshäufigkeit. § N-Menge N 1 N 2 Nutzungshäufigkeit S 2 92, 8 a 99, 5 S 3 79, 2 a 85, 5 S 4 74, 5 a 91, 1 S 5 57, 1 a 78, 8 LSD = 9, 48 a a b b § Mittelwerte in derselben Zeile, die einen Buchstaben gemeinsam haben, sind nicht signifikant verschieden ( = 5%) H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 1, Folie 27

Fazit Beispiel 1 • GLM und MIXED haben viele Gemeinsamkeiten • MIXED berechnet Wald-F-Tests statt ANOVA F-Tests - Keine SQ und MQ - Bei balancierten Daten dasselbe Ergebnisse wie GLM • Standardfehler und Satterthwaite-FG: - Fehlanzeige bei GLM - MIXED rechnet automatisch richtig • Darstellung von Mittelwertvergleichen: - MIXED gibt keine Buchstabendarstellung oder LSD aus - etwas zusätzlicher Aufwand notwendig - %MULT-Makro (Piepho, 2003) H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 1, Folie 28

Beispiel 2 Eine ungewöhnliche Spaltanlage Daten von Dr. D. Kauter Institut für Pflanzenbau und Grünland, Uni Hohenheim H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 2, Folie 29

Behandlungen Variante K-Düngung Strohdüngung 1 KCl im Herbst + 2 KCl im Frühjahr + 3 K 2 SO 4 im Herbst + 4 Kontrolle + 5 KCl im Herbst - 6 KCl im Frühjahr - 7 K 2 SO 4 im Herbst - 8 Kontrolle - H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 2, Folie 30

Randomisation GS = Großspalte Z = Zeile • Randomisation für Stroh aus technischen Gründen stark eingeschränkt H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 2, Folie 31

Randomisation GS = Großspalte Z = Zeile 2 Großteilstücke (S) je Großspalte • Strohvarianten auf Spalten randomisiert • Großspalten = Blöcke H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 2, Folie 32

Randomisation GS = Großspalte Z = Zeile 4 Kleinteilstücke je Zeile und Strohvariante • K-Varianten auf Kleinteilstücke randomisiert H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 2, Folie 33

Modellierung Versuchsseinheiten: GS = Großspalten (bestehend aus je 4 Spalten) S = Großteilstücke (bestehend aus je 2 Spalten) Z = Zeilen (Blöcke) PLOT = Parzellen-Nummer Behandlungsfaktoren: A = Strohvariante B = K-Variante H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 2, Folie 34

Modellierung Modellsyntax von Piepho, Büchse & Emrich (2003; JACS) Behandlungsstruktur: A B = A + B + A B [entspricht i + j + ( )ij] Versuchseinheiten: Großteilstücke: GS/S = GS + GS S Kleinteilstücke: (Z A)/PLOT = Z A + Z A PLOT H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 2, Folie 35

Modell zusammensetzen Y = A + B + A B + GS + GS S + Z A + Z A PLOT Großteilstücke Kleinteilstücke Behandlungen Versuchseinheiten H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 2, Folie 36

Modell fertigstellen Feste und zufällige Effekte sortieren: Y = A + B + A B + GS + Z A : GS S + Z A PLOT fest zufällig H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 2, Folie 37

Modell fertigstellen Feste und zufällige Effekte sortieren: Y = A + B + A B + GS + Z A : GS S + Z A PLOT fest zufällig proc mixed; class a b gs s z; model y= a b a*b gs z*a/ddfm=kr; random gs*s; run; H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 2, Folie 38

Fazit Beispiel 2 • Oft muss aus technischen Gründen die Randomisation stark eingeschränkt werden • Für solche Fälle gibt es viele Randomisationspläne (Statistiker fragen!) • Auch für Nicht-Standard-Anlagen kann ein adäquates gemischtes Modell aufgestellt werden H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 2, Folie 39

Beispiel 3 Feldversuch mit Messwiederholungen im Raum Daten von F. Wald Institut für Pflanzenbau und Grünland, Uni Hohenheim H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 3, Folie 40

Versuchsbeschreibung • Leguminosen-Grasgemenge als N-Quelle • Mineralisierung unter Weizen nach Umbruch • Nmin in 4 Tiefen gemessen • 3 verschiedene Bodenbearbeitungen in Blockanlage: Nummer Beschreibung 1 2 3 Rotortiller (2 mal), abschließend Pflugfurche Rotortiller (1 mal), abschließend Pflugfurche ausschließlicher Pflugumbruch H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 3, Folie 41

Vier Schichten im Bodenkörper einer Blockanlage H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 3, Folie 42

Modell für eine Schicht yij = + bj + i + eij wobei yij = Nmin-Gehalt der i-ten Behandlung (Bodenbearbeitung) im j-ten Block (log-transformiert!) = Gesamteffekt bj = Effekt des j-ten Block i = Effekt der i-ten Behandlung eij = Fehler der ij-ten Parzelle H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 3, Folie 43

Modell über Schichten Keine Randomisation der Tiefen möglich Fehler eij 1, eij 2, eij 3, eij 4 sind nicht unabhängig! H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 3, Folie 44

Modell über Schichten yijt = t + bjt + it + eijt t =1, 2, 3, 4: Index für Tiefe Behandlungseffekte zweifaktoriell aufspalten: it = i + t + ( )it wobei i = Haupteffekt der i-ten Bodenbearbeitungsmaßnahme t = Haupteffekt der t-ten Tiefe ( )it = it-te Wechselwirkung H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 3, Folie 45

Korrelationsstrukturen Unabhängigkeit: corr(eijs, eijt) = 0 Compound Symmetry (CS): corr(eijs, eijt) = Autoregressiv [AR(1)]: corr(eijs, eijt) = |s-t| H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 3, Folie 46

Compound Symmetry eijt = fij + gijt (Split-Plot Modell) wobei fij = ij-ter Parzellenhaupteffekt gijt = tiefenspezifische Abweichung in der ij-ten Parzelle H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 3, Folie 47

AR(1)-Modell H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 3, Folie 48

Wahl der Korrelationsstruktur Modell § -2 log L $ AIC (kleiner = besser) Homogene Varianzen: Unabhängig 21, 9 23, 9 CS 15, 7 19, 7 AR(1) 13, 9 17, 9 Heterogene Varianzen: Unabhängig 15, 1 23, 1 CS 6, 7 16, 7 AR(1) 6, 4 16, 4 Unstrukturiert -2, 5 17, 5 § log L = log-Likelihood; p = Zahl der Varianzparameter $ AIC = Akaike Information Criterion = -2 log L + 2 p H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 3, Folie 49

MIXED Anweisungen proc mixed; class tiefe block boden; model log_nmin= tiefe block*tiefe boden*tiefe/ddfm=kr; repeated tiefe/sub=block*boden type=arh(1); run; Beobachtungen aus verschiedenen Parzellen („Subjects“) sind unabhängig „Subject“ = Einheit, auf der wiederholte Messungen gemacht werden H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 3, Folie 50

MIXED: Mittelwertvergleiche getrennt nach Tiefe ods output diffs=diffs; ods output lsmeans=lsmeans; proc mixed; class tiefe block boden; model log_nmin= tiefe block*tiefe boden*tiefe/ddfm=kr; repeated tiefe/sub=block*boden type=arh(1); lsmeans boden*tiefe/pdiff; run; %mult(trt=boden, by=tiefe, level=1); %mult(trt=boden, by=tiefe, level=2); %mult(trt=boden, by=tiefe, level=3); %mult(trt=boden, by=tiefe, level=4); H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 3, Folie 51

Mittelwert-Tabelle (log-Skala) $ log(Nmin) Tiefe Bodenbearbeitung 1 2 3 4 2*Rotortiller+Pflug 3, 70 b C 2, 95 c B 1, 99 c A 1, 99 b A 1*Rotortiller+Pflug 3, 63 b C 2, 26 b B 1, 42 b A 1, 52 b A Pflug 1, 72 a B 1, 49 a B 0, 92 a A 0, 80 a A § Mittelwerte in einer Zeile, die einen großen Buchstaben gemeinsam haben, sind nicht signifikant voneinander verschieden (t-Test, = 5%). Mittelwerte in einer Spalte, die einen kleinen Buchstaben gemeinsam haben, sind nicht signifikant voneinander verschieden (t-Test, = 5%). H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 3, Folie 52

Rücktransformation x = log(y) = arithmetisches Mittel Schätzwert Erwartungswert Nur bei Normalverteilung: Erwartungswert = Median = Schätzwert für Median aber: kein Schätzwert für Erwartungswert! H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 3, Folie 53

Median-Tabelle (Originalskala) § Nmin Tiefe Bodenbearbeitung 1 2 3 4 2*Rotortiller+Pflug 40, 4 b C 19, 1 c B 7, 3 c A 7, 3 b A 1*Rotortiller+Pflug 37, 7 b C 9, 6 b B 4, 1 b A 4, 6 b A Pflug 5, 6 a B 4, 4 a B 2, 5 a A 2, 2 a A § Mittelwerte in einer Zeile, die einen großen Buchstaben gemeinsam haben, sind nicht signifikant voneinander verschieden (t-Test, = 5%). Mittelwerte in einer Spalte, die einen kleinen Buchstaben gemeinsam haben, sind nicht signifikant voneinander verschieden (t-Test, = 5%). H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 3, Folie 54

Fazit Beispiel 3 • Messwiederholungen erfordern besondere Auswertung • Split-Plot-Analyse ist veraltet; es gibt bessere Korrelationsstrukturen, z. B. AR(1) • Modellwahl mit AIC • Mittelwertvergleiche mit %MULT-Makro • Volle Analyse nach verschiedenen gemischten Modellen kaum anspruchsvoller als für naive Split-Plot Analyse • Rücktransformierte Mittelwerte sind Mediane! H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 3, Folie 55

Text Beispiel 4 Streifen-Spalt-Anlage Messwiederholungen in der Zeit Daten von C. Pringas Institut für Zuckerrübenforschung, Göttingen H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 4, Folie 56

Versuchsfrage Einfluss pflanzenbaulicher Maßnahmen auf Fusarium. Befall von Winterweizen. Zielvariable: DON-Gehalt (Deoxynivalenol) - Sorte (2 Stufen) - Bodenbearbeitung (2 Stufen) - Fungizid (2 Stufen) - 4 Wiederholungen Zweijähriger Versuch auf gleicher Fläche ØMesswiederholung in der Zeit H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 4, Folie 57

Versuchsdesign Fungizidbehandlung in Streifen H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 4, Folie 58

Versuchsdesign Bodenbearbeitung in Spalten H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 4, Folie 59

Versuchsdesign Sorten in Unterspalten H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 4, Folie 60

Modellierung Behandlungseffekte: Bodenbearbeitung = BB Fungizid = F Sorte = S Modellsyntax entsprechend Piepho, Büchse & Emrich (2003; JACS) A B = A + B + A B [entspricht i + j + ( )ij] Modell für Behandlungseffekte: BB F S = BB + F + S + BB F + BB S + F S + BB F S H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 4, Folie 61

Modellierung Randomisierungseinheiten: Zeile*Wdh = Großteilstück Spalte*Wdh = Großteilstück Zeile*Spalte*Wdh = Mittelteilstück Spalte*Unterspalte*Wdh = Mittelteilstück Zeile*Spalte*Unterspalte*Wdh = Kleinteilstück = Parzelle Modell für Designeffekte: Wdh + Z Wdh + Sp Wdh + Ze Sp Wdh + Sp U Wdh + Plot H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 4, Folie 62

Modell zusammensetzen Modell für Behandlungseffekte: BB + F + S + BB F + BB S + F S + BB F S Modell für Designeffekte: Wdh + Z Wdh + Sp Wdh + Ze Sp Wdh + Sp U Wdh + Plot Komplettes Modell: BB + F + S + BB F + BB S + F S + BB F S + Wdh : fix Z Wdh + Sp Wdh + Ze Sp Wdh + Sp U Wdh + Plot zufällig H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 4, Folie 63

Modell für einjährige Auswertung yijkl = i+ j+ γk+ ij+ γik+ γjk+ γijk+ rl + r il+ r jl+ r ijl+ r γjkl+ eijkl rl Effekt der l-ten Wiederholung i Effekt der i-ten Fungizidstufe j Effekt der j-ten Bodenbearbeitung γk Effekt der k-ten Sorte γijk Interaktionen Fungizid*Bodenbearbeitung*Sorte r il Fehler des il-ten Großteilstücks ~ N(0, s²ra) r jl Fehler des jl-ten Großteilstücks ~ N(0, s²rb) r ijl Fehler des ijl-ten Mittelteilstücks (Kombination Zeile/Spalte) ~ N(0, s²rab) r γjkl Fehler des ikl-ten Mittelteilstücks (Kombination Spalte/Unterspalte) ~ N(0, s²rbc) eijkl Fehler der ijkl-ten Parzelle ~ N(0, s²e) H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik fix zufällig Gießen, 25. 09. 2003, Beispiel 4, Folie 64

SAS-Code einjährige Auswertung Proc mixed data=fusarium; by jahr; class BB Sorte Fungi WDH; model DON = Wdh BB|Sorte|Fungi/ddfm=kr outpred=pred; Residuen in Datei random BB*Wdh Fungi*Wdh BB*Sorte*Wdh; pred speichern run; H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 4, Folie 65

SAS-Code einjährige Auswertung Proc mixed data=fusarium; by jahr; class BB Sorte Fungi WDH; model DON = Wdh BB|Sorte|Fungi/ddfm=kr outpred=pred; random BB*Wdh Fungi*Wdh BB*Sorte*Wdh; run; Kurzschreibweise für BB x SORTE x FUNGI = alle Haupteffekte und Interaktionen H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 4, Folie 66

Voraussetzungen der Varianzanalyse (Unter anderem) § Normalverteilung der Residuen § Varianzhomogenität = Keine Beziehung zwischen Mittelwert und Varianz H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 4, Folie 67

Voraussetzungen der Varianzanalyse Normalverteilung der Residuen: Prüfung z. B. über QQ-Plot (Quantile der Normalverteilung vs. stud. Residuen) Residuen sollten auf Diagonale liegen H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 4, Folie 68

Transformationen zur Erzielung der Voraussetzungen Falls Voraussetzungen verletzt hilft oft Transformation z. B. Log-Transformation y’ = log (y) oder Wurzel-Transformation y’ = wurzel (y) data neu; set alt; log_DON = log (DON); run; In SAS meint LOG den natürlichen Logarithmus! H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 4, Folie 69

Problem: Negative Varianzkomponenten Output von Proc Mixed: Covariance Parameter Estimates Cov Parm Estimate BB*WDH 0 Fungi*WDH 0 BB*Fungi*WDH 0. 007211 BB*Sorte*WDH 0 Residual 0. 2420 ? Iterativer Algorithmus in Proc MIXED lässt nicht zu, dass Varianzen negativ werden Negative Varianzkomponenten werden auf Null gesetzt und damit de facto aus dem Modell entfernt H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 4, Folie 70

Problem: Negative Varianzkomponenten Im Falle balancierter Daten kann diese Restriktion mit der nobound-Option umgangen werden Proc mixed data=fusarium nobound; by jahr; class BB Sorte Fungi WDH BD; model log_DON= Wdh BB|Sorte|Fungi/ddfm=kr outpred=pred; random BB*Wdh Fungi*Wdh BB*Sorte*Wdh; run; Cov Parm Estimate BB*WDH -0. 03595 Fungi*WDH -0. 1082 BB*Fungi*WDH 0. 07709 BB*Sorte*WDH -0. 1575 Residual 0. 3995 H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 4, Folie 71

Mehrjährige Auswertung H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 4, Folie 72

Mehrjährige Auswertung Einjähriges Modell wird um den Faktor Jahr erweitert > Für alle Effekte zusätzlich eine Interaktion mit dem Jahr in das Modell nehmen Für die Groß-, Mittel- und Kleinteilstücke liegt Messwiederholung vor > Korrelationsstruktur festlegen Da nur zwei Jahre: CS = AR(1) Faktor Jahr fix oder zufällig? Wenn Jahre fix > retrospektive Betrachtung Wenn Jahre zufällig > Prognose für Zukunft H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 4, Folie 73

Umsetzung in SAS-Code Proc mixed data=fusarium; class JAHR PARZ BB Sorte Fungi WDH BD; model log_DON= Wdh BB|Sorte|Fungi/ddfm=kr; random Jahr jahr*wdh Jahr*BB Jahr*Sorte Jahr*Fungi Jahr*BB*Sorte Jahr*BB*Fungi Jahr*Sorte*Fungi Jahr*BB*Sorte*Fungi; random Jahr/subject =BB*Wdh type =cs; random Jahr/subject =Fungi*Wdh type =cs; Groß- und random Jahr/subject=BB*Fungi*Wdh type=cs; Mittelteilstücke random Jahr/subject=BB*Sorte*Wdh type=cs; repeated jahr/subject=parz type=cs; Kleinteilstücke lsmeans BB*Sorte*Fungi/diff; run; H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 4, Folie 74

Output mehrjährige Auswertung WARNING: Did not converge. Cov Parm Subject Estimate JAHR 0. 3743 JAHR*WDH 0. 01607 JAHR*BB 0 JAHR*Sorte 0 JAHR*Fungi 0 JAHR*BB*Sorte 2. 93 E-20 Keine Konvergenz, JAHR*BB*Fungi 0 Programm bricht ab : -( JAHR*Sorte*Fungi 0 JAHR*BB*Sorte*Fungi 0 Variance BB*WDH 0. 005695 CS BB*WDH -0. 01234 Variance Fungi*WDH 0 CS Fungi*WDH -0. 02491 Variance BB*Fungi*WDH 0 CS BB*Fungi*WDH 0. 004398 Variance BB*Sorte*WDH 0. 06794 CS BB*Sorte*WDH -0. 09298 CS PARZ 0. 006838 Residual 0. 3515 H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Kovarianzstruktur = CS Gießen, 25. 09. 2003, Beispiel 4, Folie 75

Was tun bei fehlender Konvergenz und sonstigen Abbrüchen ? • Modell reduzieren (fixe und zufällige Effekte) • Varianzkomponenten mit Wert Null rauswerfen. . . Proc mixed …; class …; model log_DON= Wdh BB|Sorte|Fungi /ddfm=kr; random . . . ; random Jahr/subject =BB*Wdh type =cs; random Jahr/subject =Fungi*Wdh type =cs; *random Jahr/subject=BB*Fungi*Wdh type=cs; wird von random Jahr/subject=BB*Sorte*Wdh type=cs; SAS repeated jahr/subject=parz type=cs rcorr; ignoriert run; H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 4, Folie 76

Output für das reduzierte Modell Cov Parm Subject Estimate JAHR 0. 2393 JAHR*WDH 0. 004935 JAHR*BB 0. 002621 JAHR*Sorte 0 JAHR*Fungi 3. 93 E-19 JAHR*BB*Sorte 0 JAHR*BB*Fungi 0 JAHR*Sorte*Fungi 0 JAHR*BB*Sorte*Fungi 0 Variance BB*WDH 0 CS BB*WDH 0. 03860 Variance Fungi*WDH 0 CS Fungi*WDH -0. 02789 Variance BB*Sorte*WDH 0. 08363 CS BB*Sorte*WDH -0. 1073 CS PARZ 0. 1433 Residual 0. 1181 H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 4, Folie 77

Output für das reduzierte Modell -2 Res Log Likelihood 96. 3 AIC (smaller is better) 114. 3 Type 3 Tests of Fixed Effects Num Den Effect DF DF F Value Pr > F WDH 3 1 0. 39 0. 7936 BB 1 1. 33 47. 80 0. 0525 Sorte 1 6 330. 84 <. 0001 BB*Sorte 1 6 9. 66 0. 0209 Fungi 1 3 48. 58 0. 0061 BB*Fungi 1 9 1. 63 0. 2338 Sorte*Fungi 1 9 5. 03 0. 0517 BB*Sorte*Fungi 1 9 0. 20 0. 6685 H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 4, Folie 78

Alternative Auswertungen Jahre fix Einfacheres Modell, weniger Varianzkomponenten zu schätzen Aber: Aussagekraft auf die Jahre beschränkt in denen Versuch durchgeführt wurde! Mittelwerte über beide Jahre Zunächst Mittelwerte bilden und dann mit Modell für einjährige Daten auswerten > ebenfalls begrenzte Aussagekraft Im Fall der Beispieldaten führten beide Vereinfachungen zu sehr ähnlichen Resultaten wie das komplette Modell H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 4, Folie 79

Fazit Beispiel 4 § Bei Modellaufbau Designeffekte und Behandlungseffekte separat formulieren § Jede Randomisierungseinheit ein Fehlerterm § Voraussetzungen der Varianzanalyse über Residuenplot prüfen § Falls notwendig Transformation durchführen § Mixed setzt negative Varianzkomponenten auf Null (wenn nicht nobound angegeben) § Bei komplexen Modellen oft interaktive Reduktion des Modells notwendig § Zusammenfassung über Mittelwerte oder Differenzen „summary measures“ bei Messwiederholung oft sinnvolle Vereinfachung H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 4, Folie 80

Text Beispiel 5 Dauerversuch mit Fruchtwechsel Daten von ´Dr. H. -P. König Institut für Zuckerrübenforschung, Göttingen H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 5, Folie 81

Versuchsdesign § dreifeldrige Fruchtfolge: Zuckerrüben-WW-WG § auf drei benachbarten Teilschlägen mit Fruchtwechsel - Bodenbearbeitung (2 Stufen) - Stickstoff-Düngung (4 Stufen) - 4 Wiederholungen Mehrjähriger Versuch auf gleicher Fläche ØMesswiederholung in der Zeit H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 5, Folie 82

Versuchsdesign H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 5, Folie 83

Versuchsdesign H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 5, Folie 84

Versuchsdesign H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 5, Folie 85

Versuchsdesign Beachte: Design ist einjährig über die Fruchtarten nicht auswertbar, da Schlag und Fruchtart vermengt sind! Innerhalb einer Rotation sind Schlag, Jahr und Fruchtart vermengt H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 5, Folie 86

Versuchsfrage § Auswertung von Dauerversuchen üblicherweise nach Fruchtarten getrennt § Hier Auswertung von Bodenmerkmalen über alle Fruchtarten interessant: - Wie wirkt Behandlung auf Nährstoffgehalt im Boden - Gibt es Interaktionen Behandlung*Fruchtart? - Gibt es zeitliche Trends? Wann ist Gleichgewicht erreicht? Biometrische Fragestellung: § Wie kommt man zum Modell? H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 5, Folie 87

Modellierung Modellsyntax entsprechend Piepho, Büchse & Emrich (2003; JACS) A B = A + B + A B [entspricht i + j + ( )ij] Modell für Behandlungseffekte (einjährig): B N F = B + N + F + B N + B F + N F + B N F B = Bodenbearbeitung N = Stickstoffdüngung F = Fruchtart H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 5, Folie 88

Modellierung Modell für Behandlungseffekte (einjährig): B N F = B + N + F + B N + B F + N F + B N F + BN + BF + NF + BNF Kurzschreibweise B N F = B + N + F H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 5, Folie 89

Modellierung Modell für Behandlungseffekte (mehrjährig): B N F (R/J) = B + N + F + BN + BF + NF + BR + NR + FR + BNR + BFR + NFR + BRJ + NRJ + FRJ + BNRJ + BFRJ + NFRJ + BNFRJ R/J = R + R J R = Rotationseffekt = zeitlicher Trend (fix) R J = Jahr geschachtelt in Rotation (zufällig) Zufälliger Jahreseffekt erlaubt Prognosen für zukünftige Jahre H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 5, Folie 90

Modellierung Modell für Designeffekte (einjährig): S / W / Mainplot / Subplot = S + SWBN S = Effekt eines Schlages SW = Effekt einer Wiederholung innerhalb eines Schlages SWB = Großteilstückfehler SWBN = Parzellen- bzw. Restfehler H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 5, Folie 91

Modellierung Modell für Designeffekte (mehrjährig): (S / W / Mainplot / Subplot) (R/J) = S + SWB + SR + SWBR + SJR + SWBJR + SWBNJR Rotationsspezifischer Schlag- und Wiederholungseffekt sowie Großteilstückfehler nicht sinnvoll SWBNJR = Restfehler H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 5, Folie 92

Modellierung Alternative Modell für Designeffekte (mehrjährig): (S / W / Mainplot / Subplot) pt (R/J) (nach Piepho, Büchse & Richter 2003 b) = S + SWB + SJR + SWBJR + SWBNJR = Restfehler H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 5, Folie 93

Modell zusammensetzen Mehrjähriges Modell für Behandlungseffekte Mehrjähriges Modell für Designeffekte Y = R + B + N + F + B N + B F + N F + B R + N R + F R + B N R + B F R + N F R + B N F R + S W : J R + S W J R + B R J + N R J + F R J + B N R J + B F R J + N F R J + B N F R J + S W B J R + S W B N J R + Korrelationsstruktur für Groß- und Kleinteilstückfehler H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 5, Folie 94

Modell zusammensetzen 11 Designeffekte und 21 Behandlungseffekte Postulat: keine Interaktionen zwischen Behandlung und Block keine Interaktionen zwischen Behandlung und Schlag H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 5, Folie 95

Achtung Vermengung! § einige Effekte miteinander vermengt (confounded) § nur ein Drittel der Kombinationen Jahr*Schlag*Frucht realisiert § in einem Jahr jede Fruchtart nur auf einem Schlag § jeder Schlag jährlich nur eine Frucht § Effekt Schlag*Jahr = Frucht*Jahr Modellreduktion um diese vermengten bzw. redundanten Effekte notwendig H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 5, Folie 96

Modell Letztendliches Modell Y = R + B + N + F + B N + B F + N F + B R + N R + F R + B N R + B F R + N F R + B N F R + S W : J R + S F W J R + B R J + N R J + B N R J + S W B R + S F W B J R + S J R F + S B F R J + S N F R J + S B N F R J + S W B N J R + Korrelationsstruktur für Groß- und Kleinteilstückfehler H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 5, Folie 97

Sind Schläge Blöcke oder Orte? Falls Schläge sehr heterogen, evtl. doch Interaktionen Schlag Behandlung zu erwarten (Analogie zu Versuchsserie: Schläge = Orte); Problem hier: Viele Vermengungen! H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 5, Folie 98

Umsetzung in SAS-Code Berücksichtigung der Messwiederholung für Großteilstücke und Kleinteilstücke z. B. Struktur autoregressiv Proc Mixed ; Class. . . ; Tipp: Parallel Auswertung mit PROC GLM, da bei Model. . . ; Vermengung von Effekten einige SQ = 0. 000. . . random jahr/subject=Wdh*schlag*Mainplot Type=AR(1); repeated jahr/subject=wdh*schlag*subplot Type=AR(1); … run; H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 5, Folie 99

Fazit Beispiel 5 § Bei Aufbau komplexer Modelle Behandlungs- und Designeffekte zunächst trennen § Behandlungs- und Designeffekte separat mit Messwiederholungsfaktor kombinieren § Falls notwendig Zusammenfassung vermengter Effekte § Dauerversuch verlangt Modellierung der Korrelationsstruktur da Messwiederholung vorliegt § Überlegen, ob Interaktionen zwischen Blöcken bzw. Superblöcken und Behandlungen in das Modell gehören H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 5, Folie 100

Beispiel 6 Transformation von Prozentzahlen Daten von S. Gruber Institut für Pflanzenbau und Grünland, Uni Hohenheim H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 6, Folie 101

Versuchsbeschreibung • Dormanzinduktion bei Raps • Vier genetisch modifizierte Sorten und deren nahisogene Pendants • Frage: beeinflusst genetische Modifikation die Dormanz? • Keimverhalten in Petrischalen • Mehrere Petrischalen (von verschiedenen Sorten!) in Kontainer zur Abdunkelung • Mehrere Experimente (Versuchsserie) • Versuche unbalanciert • Zielvariable: Anteil gekeimter Körner H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 6, Folie 102

Modellierung yijkh = + i + rj + ( r)ij + cjk + eijkh wobei yijkh = Anteil gekeimter Samen in h-ter Wiederholung für i-te Sorte im j-ten Experiment und k-ten Kontainer i = allgemeiner Effekt = Haupteffekt der i-ten Sorte fix rj = Haupteffekt des j-ten Experiments ( r)ij = Wechselwirkung Sorte Experiment cjk = Effekt des kj-ten Kontainers eijkh = Restfehler (Petrischaleneffekt) zufällig H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 6, Folie 103

Varianzheterogenität (ohne Transformation) H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 6, Folie 104

Varianzstabilisierung nach Transformation H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 6, Folie 105

Box-Cox-Familie von Transformation Spezialfälle: y = x für = 1 Keine Transformation y = x für = 0, 5 Wurzel-Transformation y = log(x) für = 0 Log-Transformation y = 1/x für = -1 Inverse Transformation H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 6, Folie 106

Zwei spezielle Transformationen für Prozentzahlen 1. Winkel-Transformation 2. Gefaltete Exponential-Transformation (Piepho 2003 b) H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 6, Folie 107

Maximum-Likelihood Schätzung der Transformation H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 6, Folie 108

Ein SAS Makro %foldedmanly( phimin=0, phimax=8, steps=100, class=expt kontr sorte, model=sorte, stmts=%str(random expt*kontr expt*sorte; ), data=d, response=x); H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 6, Folie 109

Mittelwertvergleiche § Mittelwerte Gruppe Sorte Transformiert Untransformiert 1 mod. 1 1 6, 52 A 1, 01 B 0, 148 0, 581 mod. 2 2 12, 26 A 9, 76 B 0, 007 0, 056 mod. 3 3 9, 77 A 10, 05 A 0, 060 0, 049 mod. 4 2, 80 A 4 (Ort 1) 1, 98 A 4 (Ort 2) 5, 03 B 0, 313 0, 352 0, 216 2 3 4 5 (Kontrolle) 5 1, 02 0, 431 § Sorten einer Gruppe, die einen Buchstaben gemeinsam haben, sind nicht signifikant verschieden. H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 6, Folie 110

Fazit für Beispiel 6 • Datentransformationen bei Problemdaten sinnvoll • Kein Problem in gemischten Modellen • Kann optimale Transformation einer Familie aus Daten schätzen (Maximum Likelihood) • Für Prozentzahlen neue Familie: Gefaltete Exponential-Transformation • SAS-Makro verfügbar H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 6, Folie 111

Beispiel 7 Räumliche Statistik (Nearest-Neighbor-Adjusted BLUP) Daten von Dr. T. Presterl Institut für Pflanzenzüchtung, Uni Hohenheim H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 7, Folie 112

Versuchsbeschreibung • Züchtung von Kühletoleranz bei Mais • Über 720 DH-Linien • Versuche als „Augmented Design“ mit 10 Standards und 90 Linien je Block angelegt DH-Linien ohne Wiederholungen geprüft • Problem: - Ein unvollständiger Block hat 100 Parzellen - Große Heterogenität zwischen Parzellen • Ziel einer Auswertung: - Optimale Schätzung des genetischen Wertes der Linien - Dabei Nutzung der Standards und Korrektur für kleinräumige Gradienten innerhalb Block H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 7, Folie 113

Best Linear Unbiased Prediction (BLUP) • Bisher Behandlungseffekte fix • Genetik: Behandlungen = Genotypen • Genotypen entstammen hier spaltender Population Zufallsverteilung der genetischen Effekte der Linien • Bei Nutzung der Information über Verteilung kann die Schätzung der Effekte verbessert werden • Brauche anderes Schätzverfahren als bei festen Effekten: BLUP statt LSMEANS Ursprung: Zuchtwertschätzung in Tierzüchtung • In MIXED: Behandlungseffekt einfach in RANDOMAnweisung – fertig! H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 7, Folie 114

Modell Standards: yi = s + ei s = Erwartungswert des s-ten Standard ei = Abweichung der i-ten Beobachtung vom Erwartungswert Linien: yi = + gs + ei gs = Erwartungswert über alle Linien = Effekt der s-ten Linie (zufällig) BLUP(gs) H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 7, Folie 115

Nearest-Neighbor-Analyse Idee: • Für Linien jeweils nur eine Parzelle beobachteter Wert stark umweltabhängig • Problem v. a. bei hoher Streuung zwischen Parzellen • Kann Fruchtbarkeit einer Parzelle aus Erträgen der Nachbarparzellen abschätzen Korrektur des beobachteten Wertes einer Parzelle Umsetzung: • Viele alte Ansätze mit heuristischen Rechenformeln (Papadakis-Methode, etc. ) • Seit ca. 20 Jahren Beziehung zu gemischten Modellen und Geostatistik ausgenutzt H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 7, Folie 116

Nearest-Neighbor Adjusted BLUP Idee: • Bei Korrektur einer Parzelle sollen direkt benachbarte Parzellen höheren Einfluss haben als entferntere • Modelliere Umweltstreuung mit Geostatistik • Baue das ganze in gemischtes Modell ein • Korrelation zweier Parzellen um so enger je näher beieinander • Korrelation fungiert als Abstandsmaß; Höhe der Korrelation bestimmt den Einfluss einer Parzelle auf die Korrektur H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 7, Folie 117

Räumliche Korrelation (Geostatistik) wobei ei = Fehler auf i-ter Parzelle ej = Fehler auf j-ter Parzelle dij = Euklidische Distanz zwischen zwei Parzellen i und j 2 = Varianz = Korrelationsparameter Philosophie: Ignoriere Randomisationsstruktur H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 7, Folie 118

Kodierung der Variablen PGL GEN Z 1 1000 1 2 1000 1 3 1000 1 4 1000 1. . . 1001 0 1002 0 1003 0 1004 0 1005 0 1006 0 H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Linien Standards Gießen, 25. 09. 2003, Beispiel 7, Folie 119

MIXED Anweisungen proc mixed; class pgl gen; model g_m 2=gen; s, random z*pgl/solution; gs repeated/sub=int type=sp(pow) (x y); run; ei [x, y: räumliche Koordinaten] H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Beispiel 7, Folie 120

Vergleich NNA-BLUP und LSMEANS • Schrumpfung • Rangfolge verändert (rs = 0, 92) H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Einleitung, Folie 121

Fazit Beispiel 7 • Das Schätzverfahren für zufällige Effekte heisst BLUP • BLUP bedingt Schrumpfung zum Gesamtmittel im Vergleich zu LSMEANS • BLUP kann genauer sein als LSMEANS wenn: - der Faktor viele Stufen hat - die Verteilungsannahme stimmt • Adjustierung von Messwerten durch nächste Nachbarn durch räumliche Korrelationsstruktur (NNA-BLUP) H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Einleitung, Folie 122

Zusammenfassung Workshop • Auswertung gemischter Modelle mit MIXED sehr ähnlich der mit GLM • Richtige Standardfehler und Mittelwertvergleiche nur mit MIXED • Gemischte Modelle sehr flexibel einsetzbar für die Modellierung in Nicht-Standard-Designs • Wichtig für Daten mit zeitlicher und räumlicher Korrelation (Messwiederholungen, Geostatistik) • Transformationen in gemischten Modellen leicht einsetzbar Fazit: Gemischte Modelle gehören in Handwerkskasten des Pflanzenbauwissenschaftlers H. -P. Piepho & A. Büchse, Universität Hohenheim, FG Bioinformatik Gießen, 25. 09. 2003, Einleitung, Folie 123