Statisztikai paradoxonok Matematikai statisztika Adatbnyszat vs Statisztika Adatbnyszat
Statisztikai paradoxonok Matematikai statisztika
Adatbányászat vs Statisztika Adatbányászat • Valamely vizsgált populációra vonatkozólag nagymennyiségű, kontrollálatlan adathalmazból számítógépes adatkezelő technikákkal, algoritmusokkal a populációra vonatkozó hasznos információ, összefüggés kinyerése. • Az adatok begyűjtése spontán, többnyire véletlen folyamatok eredményeképpen, nem tervezett módon történik. • Megjelenése az informatikai világ kiteljesedése következtében történt meg. Modern tudományág. Az elméleti megalapozás napjainkban folyik.
Adatbányászat vs Statisztika • A vizsgált populációra vonatkozólag előre megtervezett módon, matematikai elvek figyelembe vételével beszerzett adatokkal, a minta feldolgozásával állítja elő a sokaságra vonatkozó hasznos következtetéseket. • A statisztikai mintának reprezentatívnak kell lennie, különben a következtetések pontatlanok, megtévesztők lesznek! • A valószínűségszámítással párhuzamosan fejlődött ki, erős matematikai elméleti háttérrel rendelkezik.
A statisztika eredete A statisztika eredetileg államszámtan volt. (Maga a „statisztika” szó is az „állam” jelentésű latin „status”-ból alakult ki. ) A statisztika az ókortól kezdve arról tájékoztatta az államok vezetőit, mekkora adókat vethetnek ki alattvalóikra és hány katonára számíthatnak egy eljövendő háborúban. A statisztika csak a polgári forradalmak után vált igazi tudománnyá. Úttörői JOHN GRAUNT (1620— 1674) és WILLIAM PETTY (1623— 1687). A kapitalizmusban már nemcsak az államok vezetőit, hanem a tőkés vállalkozókat is érdekelni kezdték a statisztikai felmérések, és egyre komolyabb matematikai eszközöket használtak föl adataik feldolgozására, egyre növekvő haszonnal, például a biztosításban. A jó biztosítás alapja a pontos felmérés és a helyes matematikai következtetés. A XVII. század óta a matematikai statisztika fokozatosan a matematika önálló ágává fejlődött, amelynek fő célja: minél megbízhatóbb hasznosítható információt nyerni a felmérési, megfigyelési és mérési adatokból: a statisztikai mintából. Székely J. Gábor „Paradoxonok a véletlen matematikájában”
Statisztika bonmotok „Csak abban a statisztikában hiszek, amit én magam hamisítok” „A statisztika olyan, mint a bikini: sok minden megmutat, de a lényeget eltakarja. ” W. Churchill „Az éhezőket nem lehet statisztikával táplálni” Lloyd George „Kis hazugság, nagy hazugság, statisztika!” Benjamin Disraeli "A statisztika nem ad választ minden tudásra. " „Az élet voltaképp nem más, mint a halál statisztikai hibája. ” „Nagy barátja vagyok a statisztikának; nem mintha azt hinném, hogy az csakugyan annyit bizonyít, mint sokan felteszik, hanem azért, mert mióta minden állításnak statisztikai adatokkal való támogatása divattá vált, a hamis tételek felállítása valamivel több nehézséggel jár, s a tudományos paradoxonok alkotói badarságaikat legalább jobb rendszerben adják elő. ” Eötvös József
Politikusok TV vitája Egy kívülálló nehezen tudja átlátni az igazságot…
Fátvágás… • Egy erdőgazdaság elhatározza, hogy az erdőből fenyőfákat vágnak ki. A környezetvédelmi tiltakozások hatására a gazdaság vezetője igyekszik megnyugtatni az érdekelteket: az erdő 99%-a fenyőfákból áll, a favágás után pedig az erdő 98%-a még mindig fenyő lesz. Az erdő hány százalékát akarják kivágni?
Fátvágás… fenyőfa+egyébfa=n n× 0. 99+n× 0. 01=n Hogy alakul a képlet, ha a fák felét kivágják? n/2× 0. 98+n/2× 0. 02=n× 0. 5 Tehát, ha az erdő felét kivágják, megmaradhat a beígért fenyőfa arány…
Politikusi magyarázat Egy politikai rendezvényre 140 ember jött el. Az alábbi táblázat a résztvevők életkorát mutatja be nagyság szerint rendezve: 15 15 16 16 16 17 17 18 18 18 19 19 19 20 20 20 21 21 21 22 22 23 23 23 24 24 25 25 25 26 26 26 27 27 28 30 32 33 35 37 38 38 39 39 40 40 41 41 41 42 42 42 43 43 43 44 44 44 45 45 45 46 46 46 47 47 47 48 48 49 49 50 50 50 52 52 53 53 54 54 54 56 56 57 58 58 59 60 60 61 64 65 67 67 68 68 69 Próbáljuk megmutatni - alkalmas grafikonválasztással, a tényeket szigorúan megőrizve - hogy: a) "A fiatalok nem érdeklődnek a politika iránt. " b) "Mindenekelőtt a fiatalokat érdekli a politika. " c) "A középkorúakat érdekli legkevésbé a politika. "
A pofonegyszerű megoldások a) "A fiatalok nem érdeklődnek a politika iránt. " Négy korcsoportra osztjuk a résztvevőket: I: 15 - 19 év közöttiek: számuk 20 fő; II: 20 - 29 év közöttiek: számuk 29 fő; III: 30 - 44 év közöttiek: számuk 41 fő; IV: 45 - 69 év közöttiek: számuk 50 fő. Ábrázoljuk pl. oszlopdiagrammal az egyes korcsoporthoz tartozó résztvevők számát! A kapott grafikon jellege: Jól látható, hogy a fiatalokat reprezentáló oszlop a legkisebb…
A pofonegyszerű megoldások b) "Mindenekelőtt a fiatalokat érdekli a politika. " Vegyük figyelembe az egyes korcsoportok időbeli szélességét, legyen pl. ezzel arányos az oszlopdiagramok szélessége! Ekkor az (életkor intervallum)/(szavazók száma) értéket ábrázolhatjuk korcsoportonként. A fiatalokat reprezentáló oszlop a legmagasabb…
A pofonegyszerű megoldások c) "A középkorúakat érdekli legkevésbé a politika. " Legyen a három korcsoport pl. az alábbi, ekkor az a) grafikon módosul. I: 15 - 24 év közöttiek: számuk 40 fő; II: 25 - 39 év közöttiek: számuk 20 fő; III: 40 - 69 év közöttiek: számuk 80 fő. Most a középkorúakat reprezentáló oszlop a legalacsonyabb…
Mi az igazság? Vizsgáljuk meg az alábbi táblázatot, mely a résztvevők számát mutatja a település kormegoszlása tükrében. Ebből a táblázatból úgy tűnik, hogy minden korosztály egyformán érdeklődik a politika iránt.
Hatásos vagy nem hatásos? Egy új gyógyszerrel kísérleteznek. Az eredményeket az alábbi táblázat tartalmazza: A kezelés a férfiak körében sikeres volt: a kezelt férfiak 46, 7%-a gyógyult meg, míg a nem kezeltek között ez az arány 38, 1%. A kezelés a nők körében is sikeres volt: a két arányszám 68, 2% és 58, 8%. Ami viszont megdöbbentő: ha az adatokat összesítjük, kiderül, hogy a kezelt emberek 49, 4%, míg a nem kezeltek 53, 9%-a gyógyult meg. Vagyis: ez a gyógyszer hatásos a férfiak és a nők számára is, de káros az emberek számára.
Hatásos vagy nem hatásos? Megjegyzések: 1. Ha mi lennénk a gyártó gyógyszergyár igazgatója, hogyan döntenénk: piacra dobjuk az új gyógyszert vagy sem? 2. A példánk azt mutatja, hogy óvatosan kell bánni az „adatok egységesítésével”. (Elvileg csak az azonos szórású sokaságokat lehetne összevonni, de a gyakorlatban ilyenek nem nagyon vannak. ) 3. De vegyük észre, hogy az eljárás fordítva is problematikus! Ha egy politikusnak jó statisztikusa van, bizony előfordulhat, hogy egy negatív eredményű adathalmazt szét tud bontani pozitív eredményű részekre, főnöke nagy-nagy megelégedésére.
Simpson-paradoxon Kaliforniai Egyetem Posztgraduális felvételi adatai (1973) Felmerül a nemi diszkrimináció vádja, hiszen kisebb arányban vettek fel nőt, mint férfit. Igaz lehet ez?
Simpson-paradoxon A részletekben van az ördög elrejtve: A karok többségében a nők felvételi aránya magasabb, mint a férfiaké…
Magyarázat Tényleg nagyobb arányban vették fel a férfiakat! Ez a tény. A probléma ott volt, amikor ok-okozati összefüggést feltételeztünk a felvételi arány és a nemi diszkrimináció között. Nem a diszkriminálás miatt szerepeltek jobban a férfiak, hanem mert a felvételi nehézsége karonként eltérő és a nők nagyobb arányban jelentkeztek a nehezebb szakokra mint a férfiak. Általánosabb nézőpontból összefüggést találtunk a "nem " és "sikeresség" változók között, ami a "kar" változó figyelembevételével eltűnt.
- Slides: 18