Selekcja danych Korelacja przedziaami Selekcja zmiennych w trybie
Selekcja danych Korelacja przedziałami
Selekcja zmiennych w trybie zaawansowanym metoda korelacji przedziałami: q Szukanie związków pomiędzy danymi q Automatyczne tworzenie powiązanych zmiennych
Ogólne informacje dotyczące metody – korelacja przedziałami W przypadku „korelacji przedziałami” - zakres czasowy badania miary podobieństwa jest dzielony na zdefiniowane przez Użytkownika przedziały. Warunkiem koniecznym do wybrania zmiennej jest spełnienie kryterium korelacyjnego w każdym z przedziałów. Zapobiega to sytuacjom, kiedy pożądane parametry współczynnika korelacji są uzyskiwane tylko na części interesującego nas zakresu czasowego. Sytuacja, w której jakikolwiek przedział nie spełnia kryterium podobieństwa korelacyjnego, powoduje że taka zmienna nie zostaje wybrana do grupy zmiennych podobnych. Minimalna wielkość przedziału wynosi 30 interwałów czasowych, dla których wykonywana jest analiza. Jest to spowodowane metodologią obliczeń statystycznych.
Ogólne informacje dotyczące metody – korelacja przedziałami - schemat Współczynnik korelacji liczony jest dla każdego z ROZŁĄCZNYCH przedziałów. Minimalna długość przedziału wynosi 30 interwałów czasowych. Jest to spowodowane wymaganiami obliczeń statystycznych.
Przejście do narzędzi selekcji zmiennych Opcja selekcji zmiennych W procesie automatycznej selekcji zmiennych przeszukiwane są bazy danych w celu wybrania grupy danych powiązanych z tzw. zmienną opisywaną. Zmienna opisywana to taka wielkość, którą analizujemy, np. waluta, surowiec wskaźnik makroekonomiczny, itp. Zwykle w pierwszym etapie analizy zależy nam na wybraniu czynników powiązanych z tą zmienną – wpływających na nią. Powiązania dotyczą parametrów statystycznych i mogą uwzględniać przesunięcia czasowe, dzięki czemu wybrane czynniki mogły stanowić bazę do budowania modeli prognostycznych interesującego nas zjawiska.
Wybór miary podobieństwa Przejście do kolejnego etapu selekcji W przypadku selekcji zmiennych metodą korelacji przedziałami – wybieramy odpowiednią opcję
Opcje selekcji zmiennych metodą korelacji przedziałami – widok ogólny Opcja pojemności informacyjnej tworzonego zbioru Grupa warunków logicznych Opcje wyprzedzenia czasowego Interwał czasowy dla którego obliczane są miary podobieństwa Definiowanie liczebności tworzonej grupy Sprawdzenie , czy znak współczynnika korelacji jest taki sam we wszystkich przedziałach Parametry przedziałów – z powodu metody obliczeń minimalna wielkość przedziału wynosi 30 interwałów czasowych Warunki brzegowe współczynnika korelacji
Opcje selekcji zmiennych metodą korelacji przedziałami – warunki logiczne 1/2 Warunki logiczne służą do ukierunkowania procesu selekcji. Warunki logiczne mogą dotyczyć: 1. Zakresu dat notowań w bazie – można określić, że w procesie selekcji chcemy uzyskać zmienne notowane odpowiednio długo („data od”) lub/oraz takie, które nie wygasły – mają „świeżą” datę notowań („data do”). Tylko długie szeregi dostarczają pożądanych informacji statystycznych. Tylko niewygasłe serie mogą służyć do bieżących analiz i prognoz. 2. Tematyki zdefiniowanej w nazwie serii – możemy ukierunkować selekcję na dane z określonej dziedziny 3. Źródeł danych – proces selekcji można zawęzić tylko do wybranych baz danych 4. Interwałów czasowych – baza zawiera serie o różnych interwałach czasowych. Wyszukiwanie można ograniczyć tylko do określonych interwałów, np. tylko dane dzienne lub tylko miesięczne.
Opcje selekcji zmiennych metodą korelacji przedziałami – warunki logiczne 2/2 Warunki dotyczące zakresu dat notowań w bazie Pola wyboru warunków logicznych Warunki dotyczące zakresu interwałów czasowych Warunki dotyczące źródeł danych Warunki dotyczące tematyki – nazwy zmiennych Warunki wybierane są z listy i łączone operatorami logicznymi AND/OR. Warunki mogą być dowolnie rozbudowywane przez Użytkownika
Opcje selekcji zmiennych metodą korelacji przedziałami – przesunięcia czasowe 1/2 Tworząc zbiór danych pod kątem ich wykorzystania do budowy modelu predykcyjnego, ważną rolę odgrywa przesunięcie czasowe między zmiennymi. Szukamy wówczas takich czynników, które wyprzedzają to, co dzieje się na zmiennej opisywanej, czyli na analizowanym i prognozowanym zjawisku. Baza wyselekcjonowanych zmiennych zawiera w takim przypadku tylko zmienne, które wykazują zdefiniowane podobieństwo statystyczne z ustalonym wyprzedzeniem czasowym związanym zazwyczaj z horyzontem czasowym na który tworzony jest model prognostyczny.
Opcje selekcji zmiennych metodą korelacji przedziałami – przesunięcia czasowe 2/2 Zakres przeszukiwań dotyczący optymalnego przesunięcia czasowego jest związany z wybranym interwałem czasowym procesu analitycznego. W tym przypadku szukamy czynników wyprzedzających od 2 do 12 miesięcy zachowanie zmiennej opisywanej. Wybór interwału czasowego, dla którego prowadzony jest proces analityczny.
Opcje selekcji zmiennych metodą korelacji przedziałami – liczebność tworzonej grupy 1/2 Wielkość tworzonej grupy może być zdefiniowana przez użytkownika. Grupa może zawierać wszystkie zmienne spełniające brzegowe warunki korelacji lub tylko określoną ilość zmiennych najbardziej skorelowanych z wielkością opisywaną. Zwykle do budowy modelu predykcyjnego wykorzystuje się od kilku do kilkudziesięciu najbardziej powiązanych czynników. W przypadku wcześniejszego ustawienia warunku dotyczącego wyprzedzenia czasowego, korelacja uwzględnia to wyprzedzenie.
Opcje selekcji zmiennych metodą korelacji przedziałami – liczebność tworzonej grupy 2/2 Definiowanie liczebności tworzonej grupy. W tym przypadku będzie ona zawierała 15 najbardziej skorelowane zmiennych, które jednocześnie muszą spełniać warunek brzegowy korelacji. Jeżeli w bazie nie znajdzie się tyle zmiennych spełniających warunki brzegowe, liczebność grupy będzie mniejsza Parametry przedziału Opcja pojemności informacyjnej powoduje miedzy innymi ograniczenie ryzyka współliniowości zmiennych w grupie Warunki brzegowe współczynnika korelacji przedziałami
Opcje selekcji zmiennych metodą korelacji przedziałami – różnicowanie danych 1/2 Opcja różnicowania zmiennych umożliwia znalezienie danych, które wykazują podobieństwo na poziomie zmian. W przypadku cen lub notowań rynkowych szukamy wtedy zmiennych podobnych co do dynamiki zmian cenowych lub różnicy notowań.
Opcje selekcji zmiennych metodą korelacji przedziałami– różnicowanie danych 2/2 Opcja różnicowania danych. Szukamy podobieństwa zmian kursów. Parametr różnicowania danych związany jest z interwałem czasowym. W tym przypadku szukamy danych, które wykazują podobieństwo na poziomie zmian 1 dniowych.
Opcje selekcji zmiennych metodą korelacji przedziałami – okres liczenia współczynnika korelacji. Zakres czasowy obliczania współczynnika korelacji – w tym przypadku szukamy danych skorelowanych w okresie od 1 stycznia 2004 roku do 1 stycznia 2017 roku. W przypadku budowania grupy pod kątem tworzenia modelu prognostycznego musimy uwzględnić okres testowy. Zdefiniowany zakres czasowy nie powinien uwzględniać okresu testowego – te okresy powinny być rozłączne. W bieżącym przykładzie okres testowy mógłby przebiegać, np. od lutego 2017 r. do stycznia 2018 r. Jest to warunek konieczny do prawidłowego testowania modeli prognostycznych.
Opcje selekcji zmiennych metodą korelacji przedziałami – warunek dotyczący przebiegu korelacji na ostatnim przedziale 1/2 Warunek dotyczący przebiegu funkcji korelacji umożliwia selekcję czynników, które są ze sobą powiązane miarą korelacyjną i jednocześnie miara ta zachowuje się w pożądany przez Użytkownika sposób na ostatnim badanym przedziale. W przypadku wybrania opcji „Trend korelacji – rosnący” – siła powiązań pomiędzy badanymi czynnikami musi się wzmacniać na ostatnim badanym przedziale.
Opcje selekcji zmiennych metodą korelacji przedziałami – warunek dotyczący przebiegu korelacji na ostatnim przedziale 2/2 Ustawianie warunku dotyczącego charakteru przebiegu funkcji korelacji
Dane kontaktowe Ex. Metrix Sp. Z o. o. ul. Grzegórzecka 21 31 -532 Kraków Zbigniew Łukoś zbyszek@exmetrix. com +48 609 293 976 NIP: 676 249 43 40 +48 570 202 650 www. exmetrix. com info@exmetrix. com Ryszard Łukoś ryszard@exmetrix. com +48 726 900 912 Konrad Pawlus konrad@exmetrix. com +48 608 500 834
- Slides: 19