среда, 26 декабря 2018 г.

Какие графики полезны для диагностики регрессора? (Линейная регрессия)

Когда регрессионную модель, например, простую линейную регрессию, применяют для решения практической задачи, заранее не известно адекватны или нет полученные с ее помощью результаты. Одно, или может сразу несколько предположений о характере модели, таких как: линейность регрессионной функции, нормальное распределение ошибки и т. д. может быть не выполнено для исходных данных. В этой связи представляется полезным предварительно изучать данные на основании которых строится регрессия и делаются статистические выводы. 

Начнем серию статей на эту тему с простой графической диагностики независимой переменной \(x\). Наша цель - определить наличие резко выделяющихся наблюдений (выбросов) среди значений регрессора, способных повлиять на качество подбираемой регрессионной функции. Роль таких наблюдений будет подробно рассмотрена позднее, сейчас сосредоточимся лишь на информации о размахе и концентрации значений \(x_i\).

Рассмотрим данные:
x <- c(80, 30, 50, 90, 70, 60, 120, 80, 100, 50, 40, 70, 90, 20, 110, 100, 30, 50, 90, 110, 30, 90, 40, 80, 70);
и построим для них точечную диаграмму (dot plot) (рис. 1):
> library(ggplot2)
> ggplot(data.frame(x), aes(x = x)) + geom_dotplot(binwidth = 3) + theme_bw()
Рис. 1
Точечная диаграмма эффективна, когда число наблюдений \(x_i\) невелико. Из нашей диаграммы видно, что минимальное и максимальное значения независимой переменной равны \(20\) и \(120\) соответственно, что значения \(x_i\) равномерно распределены в указанном интервале и что среди них нет значений, сильно отстоящих от основной группы наблюдений. Из диаграммы также видно, что для большинства точек \(x_i\) проведено по несколько измерений.

Вторым полезным инструментом является последовательный график (sequence plot) (рис. 2)
> ggplot(data.frame(x), aes(y = x, x = seq(1:25))) + geom_point(size = 2) + geom_line() + theme_bw()
Рис. 2.

График представляет собой значения переменной \(x\) взятых в соответствии с некоторым порядком (для большей наглядности точки соединены друг с другом прямыми линиями). Такой график используют, когда данные получены в виде временной последовательности или, например, взяты для соседних географических регионов. Как видно наш график не представляет собой какую-либо определенную закономерность. Однако если бы, например, меньшим значениям \(x\) соответствовали бы более ранние по порядку значения, а большим значениям \(x\) более поздние по порядку значения, то эта информация была бы полезной для дальнейшей диагностики построенной регрессионной модели.

Комментариев нет:

Отправить комментарий