Когда регрессионную модель, например, простую линейную регрессию, применяют для решения практической задачи, заранее не известно адекватны или нет полученные с ее помощью результаты. Одно, или может сразу несколько предположений о характере модели, таких как: линейность регрессионной функции, нормальное распределение ошибки и т. д. может быть не выполнено для исходных данных. В этой связи представляется полезным предварительно изучать данные на основании которых строится регрессия и делаются статистические выводы.
Начнем серию статей на эту тему с простой графической диагностики независимой переменной \(x\). Наша цель - определить наличие резко выделяющихся наблюдений (выбросов) среди значений регрессора, способных повлиять на качество подбираемой регрессионной функции. Роль таких наблюдений будет подробно рассмотрена позднее, сейчас сосредоточимся лишь на информации о размахе и концентрации значений \(x_i\).
Рассмотрим данные:
x <- c(80, 30, 50, 90, 70, 60, 120, 80, 100, 50, 40, 70, 90, 20, 110, 100, 30, 50, 90, 110, 30, 90, 40, 80, 70);
и построим для них точечную диаграмму (dot plot) (рис. 1):
> library(ggplot2)
> ggplot(data.frame(x), aes(x = x)) + geom_dotplot(binwidth = 3) + theme_bw()
![]() |
Рис. 1 |
Вторым полезным инструментом является последовательный график (sequence plot) (рис. 2)
> ggplot(data.frame(x), aes(y = x, x = seq(1:25))) + geom_point(size = 2) + geom_line() + theme_bw()
График представляет собой значения переменной \(x\) взятых в соответствии с некоторым порядком (для большей наглядности точки соединены друг с другом прямыми линиями). Такой график используют, когда данные получены в виде временной последовательности или, например, взяты для соседних географических регионов. Как видно наш график не представляет собой какую-либо определенную закономерность. Однако если бы, например, меньшим значениям \(x\) соответствовали бы более ранние по порядку значения, а большим значениям \(x\) более поздние по порядку значения, то эта информация была бы полезной для дальнейшей диагностики построенной регрессионной модели.
Комментариев нет:
Отправить комментарий