Формально регрессионная модель должна отражать два основных компонента статистической зависимости: общую тенденцию изменения отклика \(Y\) в зависимости от изменения значений независимой переменной \(X\) и меру рассеяния в отклике относительно выбранной кривой статистической зависимости.
Математическая формализация регрессионной задачи состоит в следующем: предполагается, что каждому значению независимой переменной \(x_i\) поставлено в соответствие случайная величина \(Y_i\), при этом совокупность значений математических ожиданий \(E(Y_i)\) изменяется в зависимости от \(x_i\) определенным функциональным образом. Отметим здесь, что предикторов может быть несколько. Например, рассматривая регрессионную модель с двумя независимыми переменными, случайные величины \(Y_i\) ставятся в соответствие точкам с координатами (\(x^1_i, x^2_i\)), а постулируемая функциональная зависимость будет представлять собою поверхность.
При формализации регрессионной задачи необходимо ограничить число предикторов, поэтому вопрос о выборе и включении в модель тех или иных независимых переменных из числа возможных является ключевым. Основным критерием здесь является то, насколько включение новой независимой переменной в модель уменьшает существующую вариацию отклика. К другим критериям можно отнести: возможность контроля при выборе значений предиктора, а также точность, экономичность, скорость с которой необходимые данные могут быть собраны.
Далее, выбор регрессионной зависимости тесно связан с подбором предикторов. Иногда ее вид может подсказать теория, однако чаще регрессионную зависимость необходимо определить по экспериментальным данным. В одномерном случае, в качестве первого приближения обычно используют линейную функцию или полином. Использование даже таких простых зависимостей бывает достаточно для аппроксимации сложных типов кривых, например, разбив ее область определения на части и подобрав соответствующую функцию на каждом из участков. Отметим также, что естественная область определения регрессионной функции зависит от области определения включенных в модель предикторов и следует быть осторожным в выводах о поведении отклика вне данных границ.
Подобрав регрессионную модель изучаемого явления следует учитывать, что существование даже очень сильной статистической связи между откликом \(Y\) и объясняющими переменными \(X\) не доказывает причинно-следственный характер этой связи. Во-первых, и отклик и предикторы могут зависеть от некоторой третьей переменной. Во-вторых, даже если причинно-следственная зависимость существует, она может иметь противоположное направление.
Рассмотрим, например, задачу калибровки термометра. Здесь, показания исследуемого термометра (независимая переменная) и имеющаяся градуировочная кривая прибора используются для оценки точности прогноза реальной температуры (отклик). Очевидно, существующая причинно-следственная связь направлена в противоположном направлении: реальная температура определяет показание прибора, а не наоборот.
Снова подчеркнем, результаты регрессионного анализа не содержат сами по себе никакой информации о причинно-следственной связи в исследуемом явлении и требуется профессиональная интуиция для объяснения фактов подобного рода.
Комментариев нет:
Отправить комментарий