Как запустить регрессию в Excel

Регрессия в Excel - это способ автоматизировать статистический процесс сравнение нескольких наборов информации чтобы увидеть, как изменения в независимых переменных влияют на изменения в зависимых переменных. Если вы когда-либо хотели найти корреляцию между двумя вещами, использование регрессионного анализа в Excel - один из лучших способов сделать это.

Инструкции в этой статье применимы к Excel 2019, Excel 2016, Excel 2013, Excel 2010.

Что означает регресс?

Регрессия - это подход к статистическому моделированию, который аналитики используют для определения взаимосвязей между несколькими переменными.

Регрессионный анализ начинается с одной переменной, которую вы пытаетесь проанализировать, и независимых переменных, которые вы тестируете, чтобы увидеть, влияют ли они на эту единственную переменную. Анализ рассматривает изменения в независимых переменных и пытается сопоставить эти изменения с результирующими изменениями одной (зависимой) переменной.

Это может показаться расширенной статистикой, но Excel делает это комплексный анализ доступен для всех.

Выполнение линейной регрессии в Excel

Простейшей формой регрессионного анализа является линейная регрессия. Простая линейная регрессия рассматривает взаимосвязь только между двумя переменными.

Например, в следующей таблице показаны данные, содержащие количество калорий, которые человек ел каждый день, и их вес в этот день.

Скриншот таблицы веса и калорий

Поскольку эта электронная таблица содержит два столбца данных, и одна переменная потенциально может повлиять на другую, вы можете выполнить регрессионный анализ этих данных с помощью Excel.

Включение надстройки Analysis ToolPak

Прежде чем вы сможете использовать функцию регрессионного анализа Excel, вам необходимо включить надстройку Analysis ToolPak на экране параметров Excel.

  1. В Excel выберите Файл меню и выберите Параметры.

    Снимок экрана с параметрами в Excel
  2. Выбирать Надстройки в левом меню навигации. Затем убедитесь, что Надстройки Excel выбран в Управлять поле.

    Параметры Excel
  3. Наконец, выберите Идти кнопка.

    Параметры надстройки Excel и кнопка " Перейти"
  4. Во всплывающем окне надстройки. Давать возможность Пакет инструментов анализа щелкнув поле перед ним, чтобы поставить галочку, и выберите Ok.

    Всплывающее окно надстроек Excel

Теперь, когда пакет Analysis ToolPak включен, вы готовы приступить к регрессионному анализу в Excel.

Как выполнить простую линейную регрессию в Excel

Используя таблицу веса и калорий в качестве примера, вы можете выполнить линейный регрессионный анализ в Excel следующим образом.

  1. Выберите Данные меню. Затем в Анализ группа, выберите Анализ данных.

    Выбор анализа данных в Excel
  2. в Анализ данных окно, выберите Регресс из списка и щелкните Ok.

    Выбор регрессионного анализа данных в Excel
  3. В Входной диапазон Y - это диапазон ячеек, содержащий зависимую переменную. В этом примере это вес. В Вход X Диапазон это диапазон ячеек который содержит независимую переменную. В этом примере это столбец калорий.

    Поля для ввода диапазонов регрессии в Excel
  4. Выбирать Этикетки для ячеек заголовка, а затем выберите Новый рабочий лист отправить результаты в новый рабочий лист. Выбирать Ok чтобы Excel запустил анализ и отправил результаты на новый лист.

    Поля Excel для применения меток и отправки регрессии на новый рабочий лист
  5. Изучите новый рабочий лист. Выходные данные анализа содержат ряд значений, которые необходимо понимать для интерпретации результатов.

    Снимок экрана с результатами регрессионного анализа в Excel

    Каждое из этих чисел имеет следующие значения:

    • Множественный R: Коэффициент корреляции. 1 указывает на сильную корреляцию между двумя переменными, а -1 означает сильную отрицательную связь. 0 означает, что корреляции нет.
    • R квадрат: Коэффициент детерминации, который показывает, сколько точек между двумя переменными попадает на линию регрессии. Статистически это сумма квадратов отклонений от среднего.
    • Скорректированный квадрат R: Статистическое значение, называемое R-квадрат, скорректированное на количество выбранных вами независимых переменных.
    • Стандартная ошибка: Насколько точны результаты регрессионного анализа. Если эта ошибка небольшая, то ваши результаты регрессии будут более точными.
    • Наблюдения: Количество наблюдений в вашей регрессионной модели.

    Остальные значения в выходных данных регрессии предоставляют подробные сведения о более мелких компонентах регрессионного анализа.

    • df: Статистическая ценность, известная как степени свободы, относящиеся к источники отклонений.
    • SS: Сумма площадей. Отношение остаточной суммы квадратов к общей SS должно быть меньше, если большая часть ваших данных соответствует линии регрессии.
    • РС: Средний квадрат данных регрессии.
    • F: F-статистика (F-тест) для нулевой гипотезы. Это обеспечивает значимость регрессионной модели.
    • Значение F: Статистическое значение, известное как P-значение F.

    Если вы не разбираетесь в статистике и расчетах регрессионных моделей, значения в нижней части сводки не будут иметь большого значения. Однако Multiple R и R Square являются двумя наиболее важными.

Как видите, в этом примере калории сильно коррелируют с общим весом.

Анализ множественной линейной регрессии в Excel

Чтобы выполнить ту же линейную регрессию, но с несколькими независимыми переменными, выберите весь диапазон (несколько столбцов и строк) для Вход X Диапазон.

Снимок экрана выбора диапазона для входного диапазона X

При выборе нескольких независимых переменных маловероятно, что вы обнаружите столь сильную корреляцию, потому что существует очень много переменных.

Однако регрессионный анализ в Excel может помочь вам найти корреляции с одной или несколькими из тех переменных, о существовании которых вы можете не подозревать, просто просмотрев данные вручную.