1 Taller sobre Estudios Hidrolgicos en Areas Serranas
1 Taller sobre Estudios Hidrológicos en Areas Serranas de la Provincia de Córdoba Teoría de Valores Extremos Rafael Santiago Seoane Instituto Nacional del Agua FIUBA, CONICET Córdoba Octubre 2011
Presentación de la teoría de valores extremos • Conceptos clásicos • Nuevos temas de estudio
Aplicaciones e importancia de la teoría Estimación de caudales máximos y mínimos y su frecuencia de ocurrencia. Definir la relación caudal-periodo de retorno. Estimación de una función de densidad de probabilidades. Numerosas obras hidráulicas se diseñan con esta metodología. Algunos países trataron de definir este problema con una legislación,
Nuevos temas Procesos No estacionarios. Los procesos hidrológicos pueden presentar características que cambian con el tiempo. En el contexto hidrológico se definen: a) ocurren en ciertas épocas del año y b) asociados con la presencia de tendencias relacionadas a cambios climáticos de largo plazo (long term period). Algunos orígenes de la No estacionariedad. Se asocian con cambios en el uso del suelo en la cuenca, presencia de nuevas obras (por ejemplo: embalses) y modificaciones en las propiedades de la precipitación.
Modelos y temas Principales modelos de valores extremos: Gumbel, Log-Normal II y III, Pearson III, Log. Pearson III. Problemas clásicos: selección del modelo y estimación de sus parámetros. Principales hipótesis de la teoría clásica. Modelos en un contexto no estacionario. Detección de tendencias en máximos y mínimos. Modelos de función de densidad derivada de caudales extremos.
Evolución de los temas Selección de modelos. Estimación de parámetros y verificación del modelo. Máxima verosimilitudes irregulares. No estacionariedad. Detección de tendencias. Modelo Generalizado de Valores Extremos. Máxima verosimilitud. Ecuaciones con la variación temporal de los parámetros.
Temas a considerar Existen numerosos métodos de estimación de los parámetros del modelo. Orígenes de la incertidumbre de las estimaciones con los modelos de valores extremos. Presentación de algunos criterios de selección del modelo.
Proceso de selección y estimación de un modelo Seleccionar una función de densidad de probabilidades para representar una serie de caudales máximos o mínimos(*). Estimar los parámetros de la función de densidad de probabilidades Estimar los caudales máximos o mínimos asociados con distintos períodos de retorno. (*) importancia de la autocorrelación entre los datos.
Métodos de estimación Los parámetros desconocidos del modelo son inferidos a partir de datos históricos. Existen numerosas técnicas para la estimación de los parámetros pero todas tienen ventajas y desventajas. Los métodos de estimación no son independientes del problema de la selección del modelo. La estimación de parámetros en modelos asimétricos es más complicada debido a la presencia de verosimilitudes irregulares.
Histograma Río Paraná
Función GEV en Posadas
Fuentes de incertidumbre Incertidumbre en los parámetros: corresponde a la asociada con la estimación de los parámetros del proceso utilizando una cantidad limitada de datos. Incertidumbre en el modelo: corresponde a la asociada con la idea de que el modelo probabilístico asumido del proceso estocástico sea el correcto.
Cuantificación de la incertidumbre Los análisis estadísticos definen estimaciones a partir de datos históricos. Diferentes muestras igualmente representativas pueden definir otras y distintas estimaciones. En el análisis de valores extremos resulta muy importante la cuantificación de la incertidumbre debido a que cambios pequeños en los parámetros pueden influir en las extrapolaciones de la variable.
Algunos conceptos sobre el modelo Paradigma de valores extremos que implica: la independencia y la estacionaridad. Existe una hipótesis implícita que consiste en suponer que el mecanismo estocástico subyacente del proceso es suave para permitir la extrapolación de los valores de la muestra.
Procesos aleatorios Un proceso aleatorio es una secuencia de variables aleatorias X 1, X 2, X 3 --- Xn. El ejemplo más simple consiste en las variables independientes e idénticamente distribuidas. Estacionario: un proceso aleatorio es estacionario si dado un conjunto de variables (i 1, i 2, i 3…in) si para cualquier entero m son idénticas las distribuciones conjuntas de (Xi, 1, …, Xi, k) y (Xi, 1+m, …, Xi, k+m).
Modelos matemáticos Son expresiones matemáticas que representan las principales características de los procesos. Algunos ejemplo son los modelos (PIC): ü Probabilísticos: Gumbel y GEV. ü Probabilísticos-Dererminísticos: FDD.
Algunas hipótesis básicas • Independencia temporal entre las observaciones. • Las observaciones tienen las mismas propiedades estadísticas (Existe una única función de densidad de probabilidades).
Presencia de autocorrelación (Caudales mínimos)
Funciones de densidad de probabilidades en Hidrología üGumbel üGeneralizada de Valores Extremos üPearson III üLog-Normal II y III
Modelos de valores extremos Modelo Log-Normal II Pearson III Log-Pearson III Gumbel GEV Función de densidad o distribución
Métodos de estimación de parámetros Momentos Máxima Verosimilitud Corregido Problema clave: la cantidad de combinaciones posibles entre distintos modelos y métodos de estimación.
Máxima verosimilitud Es un método flexible y general de estimación de los parámetros desconocidos θ 0 de un modelo dentro de una familia F de modelos. Siendo x 1, x 2, x 3, , , xn las ocurrencias independientes de una variable aleatoria con una unción de densidad de probabilidades f(x; θ 0).
Función de verosimilitud
Modelo de valores extremos /EV 1 -Gumbel) Valores extremos: máximos o mínimos. Caudal máximo o caudal mínimo. Precipitaciones máximas. Siendo el número de valores observado es grande la distribución converge a alguna de las tres formas denominadas I, II y III. 24
Modelo de Gumbel Moda α, Media α+γβ (where γ=0. 5772156649. . . is Euler's constant), and Varianza ⅙β 2π2
Modelo Gumbel y Máxima Verosimilitud
Modelo Gumbel Distribution of annual maximum streamflow follows an EV 1 distribution 27
Ecuaciones de MV del Modelo Pearson III Ecuaciones no lineales
Función de Verosimilitud Río Blackstone Modelo Pearson III
Importancia del modelo y método de estimación de parámetros
Diferencias según el modelo Río Blackstone (USA) (MV) Modelo 1000 5000 10000 Gumbel 430 578 681 726 Log-N II 747 1297 1795 2041 Log-N III 577 941 1261 1432 P III 560 802 974 1050 LP III 877 2520 5311 7343 Nota: Caudales en m 3/s, Período de retorno en años.
Criterios de selección entre modelos El Criterio de Información Bayesiano (BIC) contribuye a resolver el problema de la selección entre varios modelos alternativos. El Criterio de Información de Akaike (AIC) permite analizar la bondad del ajuste e incluye una penalización por el número de parámetros estimados para el modelo.
Criterios de selección entre modelos (AIC y BIC) Akaike Information Criterio (AIC, 1974) k: número de parámetros y L: verosimilitud. Bayesian Information Criterio (BIC, 1978) n: cantidad de datos.
Diferencias por método de estimación y un período de retorno 10000 años Modelo Log. Normal II (M o MV) Log-Normal III (M) III MV Blackstone 72117 80978 50082 Feather 660182 413930 983531 Limay (PL) 10483 7762 15366 Manawatu 8094 7207 8237
Selection of return period Type of project Return period (years) Examples Urban drainage (low risk, up to 1 km 2) 5 to 10 Small city Urban drainage (mediun risk, more than to 1 km 2) 25 to 50 Medium city Urban drainage (high risk, more than to 10 km 2) 50 to 100 Large city (Buenos Aires, Rosario) Principal spillways (dams) 20 to 100 Corpus y Yacireta Emergency spillways (dams) 100 to 10000 Corpus y Yacireta Bridges 100 to 500 Tancredo Neves Y Túnel subfluvial
Detección de la presencia de tendencias
Prueba no paramétrica de Mann - Kendall La prueba tiene como objetivo detectar una tendencia al incremento o al decrecimiento en los datos más que la ocurrencia de un evento aislado. § H 0) los datos son una muestra de n variables aleatorias independientes e idénticamente distribuidas. § H 1) la distribución de xj y xk no son idénticas para todos k, j < n con k j. (xj y xk son variables aleatorias independientes e idénticamente distribuidas)
Los estadísticos que intervienen en el análisis son S y Z, que se asocian con el estimador de pendiente B en el signo:
Prueba de Verosimilitud donde: : log-verosimilitud estimada con las observaciones de la primer parte de la serie para el modelo seleccionado; : log-verosimilitud estimada con las observaciones de la segunda parte de la serie para el modelo seleccionado; : log-verosimilitud estimada con las observaciones de la serie completa para el modelo seleccionado.
La estimación del estadístico de la prueba implica ajustar una función de densidad de probabilidades a la serie completa de las observaciones y a las dos series parciales correspondientes a la primera y segunda parte de la serie temporal. Ho: las observaciones pueden ser representadas por un único modelo. H 1: las observaciones no pueden ser representadas por un único modelo.
Prueba de Verosimilitud
Pruebas para detección del punto de cambio CUSUM Prueba de Pettitt
Análisis de tendencias
Caudales máximos ( Corrientes)
Extreme Values – Non Stationary proceses Gumbel: No estacionario M 0 = modelo estacionario M 1 =Tendencia lineal M 2 = SOI influence M 3 = Tendencia lineal + SOI Log-likelihood Gumbel: Estimación de parámetros
Resultados para Modelos No Estacionarios Inferencia para distintos períodos de retorno
Modelo GEV
Expresiones de Verosimilitud
Problemas asociados para considerar üAlguna distribuciones utilizadas en Hidrología presentan tres parámetros y el método de máxima verosimilitud podría producir problemas de estimación. üLas pruebas usadas (Chi-cuadrado y Kolmogorov -Smirnov) fueron diseñadas para discriminar modelos en la región de los medios. üLos valores estimados de los caudales asociados con un período de retorno dado difieren según el modelo y el método de estimación de parámetros.
Modelos de función de densidad derivada de caudales extremos
El procedimiento para la evaluación de una distribución de frecuencias de caudales máximos para cuencas con datos escasos tiene las siguientes etapas: 1. -Definir la función de densidad de probabilidades conjunta de intensidad y duración de la precipitación. 2. -Seleccionar el modelo de infiltración. 3. -Obtener la función de densidad de probabilidades conjunta del exceso de precipitación. 4. -Definir el proceso de escurrimiento directo. 5. -Definir la función de distribución acumulada del caudal directo máximo. 6. -Modelar el flujo base. 7. -Estimar los caudales máximos asociados a distintas probabilidades de excedencia.
Esquema de la función de densidad derivada de caudales (Eagleson, 1972) Modelo de precipitación f(ie, te) Obtención de la distribución de Qmáx FQmáx(Qmáx) Qmáx = g(ie, te) Parámetros climáticos Modelo de respuesta P-Q Parámetros de la cuenca
Nueva función de densidad de probabilidades derivada de caudales máximos que incluye el HUI de Nash como modelo de respuesta de la cuenca. Para estimar la probabilidad de excedencia del caudal máximo es necesario determinar la función de distribución acumulada de Qmáx que está dada por: Región del plano ie, te donde la convolución de fie, te con el modelo de respuesta de la cuenca produce caudales máximos menores o iguales a Qmáx Función de densidad de probabilidades conjunta de la intensidad y duración efectivas de la precipitación
La función de densidad de probabilidades conjunta de la intensidad y duración efectivas está dada en dos partes, (Raines y Valdés, 1993): l: inversa del valor medio de la duración [1/L], b: inversa del valor medio de la intensidad puntual [T/L], AW: Area de la cuenca CN: Número de curva
Aplicando la aproximación de Díaz Granados et al. (1984) para obtener la función de distribución acumulada de Qmáx, se llega a: i ai bi ci di 1 0. 0000 0. 1024 0. 5000 1. 0000 2 0. 1024 0. 2890 0. 6529 1. 1081 3 0. 2890 0. 5722 0. 8048 1. 3640 4 0. 5722 1. 0000 3. 1358
Aplicación de la metodología en dos cuencas del centro de la provincia de Buenos Aires Parámetros del modelo de precipitación Estación: Aeropuerto de Olavarría. Servicio Meteorológico Nacional. Período: 1988 – 1997. Precipitación media anual: 900 mm. Separación de eventos independientes: Córdova y Bras (1981). Serie Escala temporal Parámetros b (h/cm) l (1/h) Olavarría horaria 1. 014 0. 255
Comparación de las funciones de distribución acumuladas Cuenca arroyo Tapalqué
Cuenca arroyo Azul
Distancias de Kolmogorov -Smirnov Modelo Método de estimación Qmáx > 50 m 3/s Qmáx > 250 m 3/s 0. 212 0. 063 Media momentos 0. 269 0. 027 Mediana momentos 0. 264 0. 025 Rosso v=0. 18 m/s 0. 261 0. 023 Rosso v=0. 50 m/s 0. 200 0. 051 Rosso v=1. 07 m/s 0. 155 0. 082 Raines y Valdés Nuevo modelo Dn Dn: distancia de Kolmogorov-Smirnov, Xj: caudal máximo observado, Fx(Xj): función de distribución acumulada de Qmáx, j : número de orden, n: tamaño de la muestra.
Conclusiones La idea de un programa de investigación sobre máximos, muy importante durante la mayor parte del siglo XX implica incluir algunos nuevos temas. La hipótesis de no estacionariedad ha pasado a ser considerada importante de la modelación de valores extremos. La relación caudal-periodo de retorno depende de la autocorrelación (mínimos). El modelo de función derivada muestra la importancia de incluir las características de la cuenca y del clima en la representación de los extremos.
Fin
Bibliografía Bras, R. , 1990. Hydrology. An Introduction to Hydrologic Science. Addison Wisley, 1990. Maidment, D. , 1992. Handbook of Hydrology. Mc Graw-Hill. Ven Te Chow, 1962. Handbook of Applied Hydrology. Ven Te Chow, Maidment, D y L. Mays. 1994. Hidrología Aplicada. Mc Graw-Hill.
Bibliografía Tapley T. D. y P. R. Waylen, 1990. Spatial variability of annual precipitation and ENSO events in Western Peru. Hydrol. Sci. J. 35(4), 429 -446. World Meteorological Organization, 1989. Statistical distributions for flood frequency analysis. World Meterol. Organization, WMO-Nº 718, OH Rep. Nº 33.
Valores estimados del AIC y BIC Modelo Número de parámetros Pearson III 3 AIC BIC 671. 80 676. 71 Gumbel 2 674. 38 677. 66 Log. Normal III GEV 3 674. 13 679. 05 3 674. 72 679. 64 3 675. 66 680. 58
Modelo Gumbel
Bondad de ajuste Prueba de Kolmogorov-Smirnov :
Función GEV Corrientes
Función de verosimilitud GEV
Función GEV Estimates of GEV parameters estimate "s. e. " Mu 25923 832. 5 Sigma 5334 610. 7 Eta 0. 05845 0. 09646 Maximum Log-Likelihood = -1039. 633
Análisis del ajuste Q-Q Plot
Return period- projects • Type of projects (several return period) • Selection of projects at Paraná river • Non stationary processes (flood analysis and Gumbel models) • Precipitation analysis and largest cities at Paraná basin
Return Period Random variable: Threshold level: Extreme event occurs if: Recurrence interval: Return Period: Average recurrence interval between events equaling or exceeding a threshold If p is the probability of occurrence of an extreme event, then or 72
Hydrologic extremes Extreme events Floods Droughts Magnitude of extreme events is related to their frequency of occurrence The objective of frequency analysis is to relate the magnitude of events to their frequency of occurrence through probability distribution It is assumed the events (data) are independent and come from identical distribution 73
Flood • High stage in river when the river overflows and inundates the adjoining area • Flood peak and frequency of the peak is an important consideration in hydraulic design • Magnitude and time of the flood varies with change in watershed characteristics • Peak flood depends on rainfall, discharge and watershed area and type
Flood • Magnitude of flood can be estimated by • Rational method • Empirical method • Unit hydrograph technique • Flood frequency studies
Análisis de extremos y ENSO La modelación como población mezcla (Tapley y Waylen, 1990) que expresa que cuando una variable aleatoria, x, resulta de una gran cantidad de posibles procesos generados, su distribución de probabilidad, Fx, puede asumirse como la suma de m distribuciones de cada uno de los procesos generados Fk, donde k = 1, . . . , m, ponderándolos de acuerdo a su frecuencia de ocurrencia, gk,
Análisis de extremos y ENSO Modelo de población mixta
Modelación de extremos ENSO
Series de extremos
Series de extremos Río Blackstone Río Feather
Diferencias por la presencia de Autocorrelación
Selection of return period • " Type of project Return period (years) Examples Urban drainage (low risk, up to 1 km 2) 5 to 10 Small city Urban drainage (mediun risk, more than to 1 km 2) 25 to 50 Medium city Urban drainage (high risk, more than to 10 km 2) 50 to 100 Large city (Buenos Aires, Rosario) Principal spillways (dams) 20 to 100 Corpus y Yacireta Emergency spillways (dams) 100 to 10000 Corpus y Yacireta Bridges 100 to 500 Tancredo Neves Y Túnel subfluvial
Projects • Selection " of project Name River Dam Yacyreta Paraná Dam Corpus Paraná Bridge Tancredo Neves Paraná Bridge Rosario-Victoria Paraná Bridge Tunel Subfluvial Paraná Bridge Zarate Brazo Largo Paraná
Empirical Formula Characteristics of Empirical Formulae are : Regional formula Based on correlation Between flow(Qp) and catchment properties Almost all the formula represent discharge as a function of Area Neglects flood frequency The reason why empirical formulas are all regional and gives approximate results when applied to other regions
Climate Risk Dresden, river Elbe mean and variability risk and extremes Gardenier & Gardenier (1988) In: Encyclopedia of statistical sciences 8: 141, Wiley Mudelsee (2006) DKKV/ARL Workshop
Climate Change Dresden, river Elbe climate risk change? Solomon et al. (Eds. ) (2007) Climate Change 2007: The Physical Science Basis. Cambridge Univ. Press
Hydrologic extremes Extreme events Floods Droughts Magnitude of extreme events is related to their frequency of occurrence The objective of frequency analysis is to relate the magnitude of events to their frequency of occurrence through probability distribution It is assumed the events (data) are independent and come from identical distribution 87
Return Period Random variable: Threshold level: Extreme event occurs if: Recurrence interval: Return Period: Average recurrence interval between events equaling or exceeding a threshold If p is the probability of occurrence of an extreme event, then or 88
More on return period If p is probability of success, then (1 -p) is the probability of failure Find probability that (X ≥ x. T) at least once in N years. 89
Frequency Factors Previous example only works if distribution is invertible, many are not. Once a distribution has been selected and its parameters estimated, then how do we use it? Chow proposed using: f. X(x) where x 90
Return period example Dataset – annual maximum discharge for 106 years on Colorado River near Austin x. T = 200, 000 cfs No. of occurrences = 3 2 recurrence intervals in 106 years T = 106/2 = 53 years If x. T = 100, 000 cfs 7 recurrence intervals T = 106/7 = 15. 2 yrs P( X ≥ 100, 000 cfs at least once in the next 5 years) = 1 - (1 -1/15. 2)5 = 0. 29 91
Data series Considering annual maximum series, T for 200, 000 cfs = 53 years. The annual maximum flow for 1935 is 481 cfs. The annual maximum data series probably excluded some flows that are greater than 200 cfs and less than 481 cfs Will the T change if we consider monthly maximum series or weekly maximum series? 92
Hydrologic data series • Complete duration series – All the data available • Partial duration series – Magnitude greater than base value • Annual exceedance series – Partial duration series with # of values = # years • Extreme value series – Includes largest or smallest values in equal intervals • • • Annual series: interval = 1 year Annual maximum series: largest values Annual minimum series : smallest values 93
Clima y estimación de valores extremos
- Slides: 94