w celu wyboru modelu o dobrych własnościach predykcyjnych
w celu wyboru modelu o dobrych własnościach predykcyjnych
W modelu regresji liniowej
wszystkie zmienne objaśniające muszą być ilościowe
zmienna zależna musi mieć rozkład normalny
reszty muszą mieć rozkład normalny o średniej zero i takiej samej wariancji
reszty muszą mieć rozkład normalny o średniej zero i takiej samej wariancji
Wartość odchylenia rzeczywistych realizacji zmiennej prognozowanej od prognoz jest to:
miernik dopasowania modelu do danych rzeczywistych
ocena ex ante błędu prognoz
miernik ex post błędu prognoz
ocena ex ante błędu prognoz
Narzędzia wykrycia zależności pomiędzy
interesującą nas zmienną objaśnianą (kilkoma zmiennymi
objaśnianymi) opisującą badane obiekty (jednostki) a
zbiorem innych zmiennych objaśniających (niezależnych,
predyktorów) też opisujących te obiekty
modelowanie predykcyjne
uczenie z nadzorem
uczenie bez nadzoru
uczenie z nadzorem
. Odkrywania nietrywialnych zależności, schematów, wzorców, reguł w zbiorach danych to
uczenie bez nadzoru
modelowanie predykcyjne
uczenie z nadzorem
uczenie bez nadzoru
Zapoznanie się z istniejącą teorią dotyczącą modelowanego zjawisk oraz z poświęconymi mu dotychczasowymi badaniami to czynności realizowane
na następującym etapie budowy modelu predykcyjnego:
analityczne przygotowanie danych
określenie kontekstu modelowania
sformułowanie zadania prognostycznego
określenie kontekstu modelowania
Reszty w poprawnie oszacowanego modelu liniowego
powinny:
mieć rozkład normalny być jednorodne i niezależne.
mieć rozkład normalny
i niezależne.
mieć rozkład normalny być jednorodne i niezależne.
Uogólnione modele liniowe (ang. generalized linear models
– GLMs) są rozszerzeniem zwykłych modeli regresji
Wariancja zmiennej zależnej może być funkcją jej średniej (nie musi być stała).
Zmienna objaśniana może być połączona z liniową kombinacją zmiennych objaśniających za pomocą funkcji nieliniowych (funkcji wiążących).
Zmienna objaśniana może mieć rozkład należący do wykładniczej rodziny rozkładów (np. normalny, gamma, Poissona, dwumianowy, Tweedie)
Wariancja zmiennej zależnej może być funkcją jej średniej (nie musi być stała).
Zmienna objaśniana może być połączona z liniową kombinacją zmiennych objaśniających za pomocą funkcji nieliniowych (funkcji wiążących).
Zmienna objaśniana może mieć rozkład należący do wykładniczej rodziny rozkładów (np. normalny, gamma, Poissona, dwumianowy, Tweedie)
⦁ Krzywą ROC można wykorzystać:
do oceny współliniowości zmiennych objaśniających
do ustalenia optymalnego punkt odcięcia
do ceny i porównywania między sobą modeli klasyfikacyjnych
do ustalenia optymalnego punkt odcięcia
do ceny i porównywania między sobą modeli klasyfikacyjnych
⦁ W uogólnionym modelu liniowym (GLM) funkcja wiążąca łączy:
predyktor liniowy z średnią zmiennej zależne
predyktor liniowy z wektorem parametrów modelu , ,...,
predyktor liniowy z kombinacją liniową średnich zmiennych niezależnych
predyktor liniowy z średnią zmiennej zależne
⦁ Dodanie do uogólnionego modelu liniowego (GLM) kolejnej zmiennej zależnej (regresora) skutkuje:
zwiększeniem dewiancji
zmniejszeniem dewiancji
zmniejszeniem lub zwiększeniem dewiancji (w zależności od tego, czy dodajemy zmienną jakościową, czy ilościową
zmniejszeniem lub zwiększeniem dewiancji (w zależności od tego, czy dodajemy zmienną jakościową, czy ilościową
⦁ Istotność parametrów modelu liniowego (każdego z osobna) sprawdzamy testem:
Durbina-Watsona
Breuscha-Pagana
Studenta
Studenta
⦁ Sumę kwadratów reszt (RSS) nazywamy:
zmiennością wyjaśnioną przez model
zmiennością niewyjaśnioną przez model
całkowitą zmiennością
zmiennością niewyjaśnioną przez model
⦁ Element diagonalny macierzy daszkowej nazywamy:
standaryzowaną resztą modelu
miarą Cooka
wskaźnikiem wpływu (dźwignią
wskaźnikiem wpływu (dźwignią
⦁ Średni błąd predykcji ex post (root mean square error, RMSE):
wskazuje, o ile przeciętnie wzrasta wartość zmiennej prognozowanej w porównaniu z "ostatnią" wartością rzeczywistą
mierzy, o ile średnio odchylają się rzeczywiste realizacje zmiennej prognozowanej od obliczonych prognoz
mierzy, w jakim stopniu model wyjaśnia zmiany zmiennej prognozowanej w czasie
mierzy, o ile średnio odchylają się rzeczywiste realizacje zmiennej prognozowanej od obliczonych prognoz
⦁ Wartość odchylenia rzeczywistych realizacji zmiennej prognozowanej od obliczonych prognoz jest to:
ocena ex ante błędu prognoz
miernik dopasowania modelu do danych rzeczywistych
miernik ex post błędu prognoz
miernik ex post błędu prognoz
⦁ Określenie wymagania co do dopuszczalności i horyzontu prognozy zaliczamy do następującego etapu budowy modelu predykcyjnego:
sformułowania zadania prognostycznego
określenia kontekstu modelowania
analitycznego przygotowania danych
sformułowania zadania prognostycznego
⦁ Uogólniony model liniowy o liczbie parametrów równej liczbie obserwacji nazywamy:
modelem zerowym
modelem Poissona
modelem nasyconym
modelem nasyconym
k-krotna walidacja krzyżowa służy do:
badania normalności reszt modelu
wyboru zmiennych objaśniających
określenia jakości modelu w trakcie jego uczenia
określenia jakości modelu w trakcie jego uczenia
Iloraz prawdopodobieństwa wystąpienia zdarzenia do prawdopodobieństwa jego niewystąpienia nazywamy