LINEST (функція LINEST)

У цій статті наведено синтаксис формули й описано використання функції LINEST у Microsoft Excel. Посилання на докладні відомості про те, як створювати діаграми та проводити регресивний аналіз, див. в розділі Додаткові відомості.

Опис

Функція LINEST обчислює статистику для лінії за допомогою методу "найменших квадратів", щоб обчислити пряму лінію, яка найбільше відповідає вашим даним, а потім повертає масив, що описує цю лінію. Можна також поєднати функцію LINEST з іншими функціями, щоб обчислити статистику для інших типів моделей, які є лінійними в невідомих параметрах, у тому числі поліноміальні, логарифмічні, експоненційні та ступеневі ряди. Оскільки ця функція повертає масив значень, її потрібно вводити як формулу масиву. Необхідні вказівки наведено у прикладах цієї статті.

Формула для лінії має такий вигляд:

y = mx + b

-або-

y = m1x1 + m2x2 + ... + b

якщо існує кілька діапазонів х-значень, де залежні y-значення — це функція незалежних x-значень. m-значення — це коефіцієнти, які відповідають кожному x-значенню, а b — константа. Зауважте, що y, x і m можуть бути векторами. Масив, який повертає функція LINEST, — {mn;mn-1;...,m1;b}. Функція LINEST також може повертати додаткову статистику регресії.

Синтаксис

LINEST(відомі_значення_y;[відомі_значення_x];[конст];[статистика])

Синтаксис функції LINEST має такі аргументи:

Синтаксис

  • Відомі_значення_y.    Обов’язковий аргумент. Набір значень y, вже відомих із рівняння y = mx + b.

    • Якщо масив відомі_значення_y є окремим стовпцем, то кожний стовпець відомі_значення_x інтерпретується як окрема змінна.

    • Якщо масив відомі_значення_y міститься в одному рядку, то кожний рядок відомі_значення_x інтерпретується як окрема змінна.

  • Відомі_значення_x.    Необов’язковий аргумент. Сукупність значень x, які можуть бути вже відомі з рівняння y = mx + b.

    • Масив відомі_значення_x може містити один або кілька наборів змінних. Якщо використовується лише одна змінна, відомі_значення_y і відомі_значення_x можуть бути діапазонами будь-якої форми, за умови, що вони мають однакову розмірність. Якщо використовується кілька змінних, відомі_значення_y мають бути вектором (тобто діапазоном із висотою в один рядок і шириною в один стовпець).

    • Якщо відомі_значення_x не задано, вважається, що це буде масив {1;2;3;...}, який має той самий розмір, що й відомі_значення_y.

  • Конст.    Необов’язковий аргумент. Логічне значення, яке вказує, чи потрібно, щоб константа b дорівнювала 0.

    • Якщо аргумент конст приймає значення TRUE (істина) або його не вказано, b обчислюється у звичайний спосіб.

    • Якщо аргумент конст приймає значення FALSE (хибність), то b вважається рівним 0, а значення m добираються так, щоб y = mx.

  • Статистика.    Необов’язковий аргумент. Логічне значення, яке визначає, чи потрібно повертати додаткову статистику регресії.

    • Якщо аргумент статистика приймає значення TRUE (істина), функція LINEST повертає додаткову статистику регресії, тому повернений масив матиме вигляд {mn;mn-1;...;m1;b:sen;sen-1;...;se1;seb;r2;sey:F;df;ssreg;ssresid}.

    • Якщо аргумент статистика приймає значення FALSE (хибність) або цей аргумент не вказано, функція LINEST повертає лише m-коефіцієнти й константу b.

      Додаткова статистика регресії має такий вигляд.

Статистичні значення

Опис

se1;se2;...;sen

Стандартні значення помилок для коефіцієнтів m1;m2;...;mn.

seb

Стандартне значення помилок для константи b (seb=#N/A, коли аргумент конст має значення FALSE).

r2

Коефіцієнт визначення. Порівнює очікувані та фактичні y-значення і змінюється у значеннях від 0 до 1. Якщо коефіцієнт визначення дорівнює 1, то у зразку є досконала кореляція — немає відмінності між очікуваним і фактичним y-значенням. З іншого боку, якщо коефіцієнт визначення дорівнює 0, рівняння регресії не допоможе у прогнозуванні y-значення. Для отримання додаткових відомостей щодо обчислення r2 див. пункт «Примітки» нижче в цьому розділі.

sey

Стандартна помилка для очікуваного y

F

F-статистика, або спостережувані F-значення. Використовуйте для визначення, чи спостережуване відношення між залежною і незалежною змінними виникло випадково.

df

Ступені вільності. Використовуйте їх для пошуку критичних F-значень у статистичній таблиці. Порівняйте знайдені в таблиці значення з F-статистикою, поверненою функцією LINEST, щоб визначити довірчий рівень моделі. Для отримання додаткових відомостей щодо обчислення ступенів вільності див. пункт «Примітки» нижче в цьому розділі. Наведений нижче приклад 4 ілюструє використання значень F і df.

ssreg

Регресійна сума квадратів.

ssresid

Залишкова сума квадратів. Для отримання додаткових відомостей щодо обчислення значень ssreg і ssresid див. пункт «Примітки» нижче в цьому розділі.

На наведеному нижче рисунку показано порядок повернення статистики додаткової регресії.

Ключ до статистики регресії

Примітки

  • Можна описати будь-яку пряму лінію за допомогою нахилу та перетину з віссю y:

    Нахил (m):
    щоб знайти нахил лінії (зазвичай позначається як m), візьміть дві точки на лінії – (x1,y1) і (x2,y2); тоді нахил дорівнює (y2-y1)/(x2-x1).

    Перетин із віссю Y (b):
    перетин із віссю (зазвичай позначається як b) – це значення y в точці, де лінія перетинає вісь Y.

    Рівняння прямої має вигляд y = mx + b. Якщо відомі значення m і b, можна обчислити будь-яку точку прямої, підставляючи до рівняння значення y або х Також можна використовувати функцію TREND.

  • Якщо є лише одна незалежна x-змінна, можна отримати значення нахилу та перетину з віссю y безпосередньо за допомогою таких формул:

    Нахил:
    =INDEX(LINEST(відомі_значення_y;відомі_значення_x);1)

    Перетин із віссю Y:
    =INDEX(LINEST(відомі_значення_y;відомі_значення_x);2)

  • Точність апроксимації за допомогою прямої, обчисленої функцією LINEST, залежить від степеня розкиду даних. Чим ближчі дані до прямої, тим точніша модель, яка використовується функцією LINEST. Функція LINEST використовує метод найменших квадратів для визначення найкращої апроксимації даних. Якщо є лише одна незалежна x-змінна, m і b обчислюються за такими формулами:

    Формула

    Формула

    де x і y – вибіркові середні значення, тобто x = AVERAGE(відомі_значення_x), а y = AVERAGE(відомі_значення_y).

  • Функції апроксимації LINEST і LOGEST можуть обчислити пряму або експоненційну криву, яка найкраще описує дані. Проте вони не визначають, який із двох результатів найкраще підходить для опису даних. Можна обчислити функцію TREND(відомі_значення_y;відомі_значення_x) для прямої або функцію GROWTH(відомі_значення_y; відомі_значення_x) для експоненційної кривої. Якщо не вказувати аргумент нові_значення_x, ці функції повертають масив прогнозованих значень у для фактичних значень х відповідно до прямої або кривої. Потім можна порівняти прогнозовані значення з фактичними. Можна також побудувати діаграми для візуального порівняння.

  • Здійснюючи регресійний аналіз, Excel обчислює для кожної точки квадрат різниці між прогнозованим значенням у та фактичним значенням у. Сума цих квадратів різниць називається залишковою сумою квадратів (ssresid). Потім Excel обчислює загальну суму квадратів (sstotal). Якщо аргумент конст приймає значення TRUE (істина) або цей аргумент не вказано, загальна сума квадратів дорівнюватиме сумі квадратів різниць між фактичними значеннями y та середніми значеннями у. Якщо аргумент конст приймає значення FALSE (хибність), загальна сума квадратів дорівнюватиме сумі квадратів фактичних значень у (без віднімання середнього значення у від кожного окремого значення у). Після цього регресійну суму квадратів (ssreg) можна обчислити таким чином: ssreg=sstotal-ssresid. Чим менше залишкова сума квадратів, тим більше значення коефіцієнта детермінованості r2, який показує, наскільки вдало рівняння, отримане в результаті регресійного аналізу, пояснює взаємозв’язок між змінними. Коефіцієнт r2 дорівнює ssreg/sstotal.

  • У деяких випадках один або кілька стовпців X (вважаємо, що значення Y і значення X є у стовпцях) можуть не мати додаткового прогнозованого значення за присутності інших стовпців X. Іншими словами, видалення одного або кількох стовпців X може призвести до рівності прогнозованих значень Y. У такому випадку ці надлишкові стовпці X потрібно не вказувати в моделі регресії. Це явище називається "колінеарність", оскільки будь-який надлишковий стовпець X можна виразити як суму добутків ненадлишкових стовпців X. Функція LINEST перевіряє колінеарність і видаляє будь-які надлишкові стовпці X з моделі регресії, якщо такі є. Видалені стовпці X можна розпізнати у результатах LINEST як такі, що мають нульові коефіцієнти на додаток до нульових значень se. Якщо один або кілька стовпців видалено як надлишкові, то аргумент "df" зазнає впливу, оскільки "df" залежить від кількості стовпців X, фактично використовуваних із метою прогнозування. Для отримання додаткових відомостей про обчислення аргументу "df" див. наведений нижче приклад 4. Якщо "df" змінено через видалення надлишкових стовпців X, значення аргументів "sey" і "F" також зазнають впливу. Колінеарність на практиці повинна виникати досить рідко. Проте вона часто виникає у випадку, коли деякі стовпці X містять лише значення 0 та 1 як індикатори того, чи є суб’єкт експерименту учасником певної групи. Якщо аргумент конст приймає значення TRUE (істина) або цей аргумент не вказано, функція LINEST ефективно вставляє додатковий стовпець X, всі значення якого дорівнюють 1, для моделювання перетину. Наприклад, коли є стовпець зі значеннями 1 для кожного суб’єкта чоловічого роду або 0, якщо ні, і є також стовпець зі значенням 1 для кожного суб’єкта жіночого роду або 0, якщо ні, цей останній стовпець буде зайвий, оскільки дані в ньому можна отримати за допомогою віднімання даних у стовпці "чоловічого індикатору" від даних у додатковому стовпці всіх значень 1, доданих за допомогою функції LINEST.

  • Для випадків, коли стовпці Х не видаляються з моделі внаслідок колінеарності, значення df обчислюється таким чином: якщо існує k стовпців аргументу відомі_значення_x і аргумент конст має значення TRUE (істина), або цей аргумент не вказано, то df=n-k-1. Якщо аргумент конст має значення FALSE (хибність), то df=n-k. В обох випадках видалення стовпців Х унаслідок колінеарності збільшує значення df на 1.

  • Формули, які повертають масиви, слід вводити як формули масивів.

    Примітка :  У веб-програмі Excel Online не можна створювати формули масиву.

  • Вводячи константу масиву як, наприклад, аргумент відомі_значення_x, слід використовувати крапку з комою для розділення значень, які містяться в одному рядку, та двокрапку — для розділення рядків. Символи-роздільники можуть відрізнятися залежно від регіональних параметрів.

  • Зауважте, що y-значення, прогнозовані рівнянням регресії, можуть не бути припустимими, якщо вони перебувають поза межами діапазону y-значень, використаного для визначення рівняння.

  • Основний алгоритм, використовуваний у функції LINEST, відрізняється від основного алгоритму, використовуваного у функціях SLOPE і INTERCEPT. Відмінність між цими алгоритмами може призвести до отримання різних результатів, якщо дані є невизначеними і колінеарними. Наприклад, якщо точки даних аргументу відомі_значення_y дорівнюють 0, а точки даних аргументу відомі_значення_x дорівнюють 1:

    • Функція LINEST повертає значення 0. Алгоритм функції LINEST створено, щоб повертати придатні результати для колінеарних даних, і в такому випадку можна знайти принаймні одну відповідь.

    • Функції SLOPE і INTERCEPT повертають помилку #DIV/0!. Алгоритм SLOPE і INTERCEPT створено для пошуку лише однієї відповіді, а в такому випадку може бути кілька відповідей.

  • Крім того, що функцію LOGEST можна використати для обчислення статистики для інших типів регресії, функцію LINEST можна використати для обчислення діапазону інших типів регресії за допомогою введення функцій змінних x та y як рядів x та y для функції LINEST. Наприклад, така формула:

    =LINEST(y-значення; x-значення^COLUMN($A:$C))

    працює, якщо є окремий стовпець y-значень і окремий стовпець x-значень для обчислення кубічного (поліноміального 3-го порядку) наближення форми:

    y = m1*x + m2*x^2 + m3*x^3 + b

    Цю формулу можна змінити для обчислення інших типів регресії, але в деяких випадках буде потрібно змінити результати та іншу статистику.

  • Значення F-test, яке повертає функція LINEST, відрізняється від значення F-test, яке повертає функція FTEST1. LINEST повертає статистику F, у той час як FTEST1 повертає ймовірність.

Приклади

Приклад 1. Нахил і Y-перетин

Скопіюйте дані прикладу з наведеної нижче таблиці та вставте їх у клітинку A1 нового аркуша Excel. Щоб відобразити результат обчислення формул, виберіть їх, натисніть клавішу F2, а потім натисніть клавішу Enter. За потреби можна змінити ширину стовпців, щоб відобразити всі дані.

Відоме значення Y

Відоме значення X

1

0

9

4

5

2

7

3

Результат (нахил)

Результат (перетин з віссю Y)

2

1

Формула (формула масиву у клітинках A7:B7)

=LINEST(A2:A5,B2:B5,,FALSE)

Приклад 2. Проста лінійна регресія

Скопіюйте дані прикладу з наведеної нижче таблиці та вставте їх у клітинку A1 нового аркуша Excel. Щоб відобразити результат обчислення формул, виберіть їх, натисніть клавішу F2, а потім натисніть клавішу Enter. За потреби можна змінити ширину стовпців, щоб відобразити всі дані.

Місяць

Продажі

1

3 100 грн.

2

4 500 грн.

3

4 400 грн.

4

5 400 грн.

5

7 500 грн.

6

8 100 грн.

Формула

Результат

=SUM(LINEST(B1:B6, A1:A6)*{9,1})

11 000 грн.

Обчислює орієнтовну суму виручки в дев’ятому місяці з урахуванням продажів із першого по шостий місяці.

Приклад 3. Множинна лінійна регресія

Скопіюйте дані прикладу з наведеної нижче таблиці та вставте їх у клітинку A1 нового аркуша Excel. Щоб відобразити результат обчислення формул, виберіть їх, натисніть клавішу F2, а потім натисніть клавішу Enter. За потреби можна змінити ширину стовпців, щоб відобразити всі дані.

Площа (x1)

Кількість офісів (x2)

Кількість входів (x3)

Час експлуатації (x4)

Оціночна вартість (y)

2310

2

2

20

142 000 грн.

2333

2

2

12

144 000 грн.

2356

3

1,5

33

151 000 грн.

2379

3

2

43

150 000 грн.

2402

2

3

53

139 000 грн.

2425

4

2

23

169 000 грн.

2448

2

1,5

99

126 000 грн.

2471

2

2

34

142 900 грн.

2494

3

3

23

163 000 грн.

2517

4

4

55

169 000 грн.

2540

2

3

22

149 000 грн.

-234,2371645

13,26801148

0,996747993

459,7536742

1732393319

Формула (формула масиву, введена у клітинках A14:A18)

=LINEST(E2:E12,A2:D12,TRUE,TRUE)

Приклад 4. Використання статистик F і r2

У попередньому прикладі коефіцієнт детермінованості r2 дорівнює 0,99675 (див. клітинку A17 у результатах функції LINEST), що вказує на сильний взаємозв’язок між незалежними змінними та ціною продажу. Можна використовувати F-статистику, щоб визначити, чи є ці результати (з таким високим значенням r2) випадковими.

Вважаємо, що насправді немає залежності між змінними, але відображено винятковий випадок створення вибірки з 11 адміністративних будівель, для якого статистичний аналіз свідчить про високу залежність. Елемент "Альфа" використовується на позначення ймовірності помилкового висновку про те, що така залежність є.

Значення F і df у результатах функції LINEST можна використати, щоб оцінити ймовірність випадкового отримання більш високого значення F. F можна порівняти із критичними значеннями в опублікованих таблицях F-розподілу, або можна використати функцію FDIST в Excel для обчислення ймовірності випадкового отримання більш високого значення F. Відповідний розподіл F має ступені вільності v1 і v2. Якщо n є кількістю точок даних, а аргумент "конст" має значення TRUE (істина), або цей аргумент не вказано, то v1=n-df-1 і v2=df. (Якщо аргумент "конст" має значення FALSE (хибність), то v1=n-df і v2=df.) Функція FDIST із синтаксисом FDIST(F;v1;v2)  повертатиме ймовірність випадкового отримання більш високого значення F. У прикладі 4 df=6 (клітинка B18) і F=459,753674 (клітинка A18).

Якщо вважати, що аргумент "Альфа" має значення 0,05, v1=11-6-1= 4 і v2=6, то критичний рівень F дорівнюватиме 4,53. Оскільки F=459,753674 набагато вище, ніж 4,53, дуже малоймовірно, що таке високе значення F було отримано випадково. (Коли аргумент "Альфа" має значення 0,05, припущення, що немає залежності між аргументами відомі_значення_y і відомі_значення_x, відкидається, якщо значення F перевищує критичний рівень, 4,53.) За допомогою функції FDIST у програмі Excel можна отримати ймовірність того, що таке високе значення F було отримано випадково. Наприклад, FDIST(459,753674; 4; 6)=1,37E-7, тобто надзвичайно мала ймовірність. Можна зробити висновок шляхом знаходження критичного рівня F у таблиці або за допомогою функції FDIST, що рівняння регресії допомагає прогнозувати оціночну вартість адміністративних будівель у цьому районі. Пам’ятайте, що важливо використовувати правильні значення v1 і v2, обчислені в попередньому абзаці.

Приклад 5. Обчислення t-статистики

Інша перевірка припущення визначить, чи кожний коефіцієнт нахилу допомагає в оціненні вартості адміністративної будівлі у прикладі 3. Наприклад, щоб визначити статистичну значність коефіцієнту часу експлуатації, поділіть -234,24 (коефіцієнт нахилу терміну) на 13,268 (очікувана стандартна помилка коефіцієнтів терміну у клітинці A15). Далі подано значення спостережуваного t:

t = m4 ÷ se4 = -234,24 ÷ 13,268 = -17,7

Якщо абсолютне значення t досить високе, можна зробити висновок, що коефіцієнт нахилу допомагає в оціненні вартості адміністративної будівлі у прикладі 3. У поданій нижче таблиці наведено абсолютні значення для 4 значень спостережуваного t.

Звернувшись до таблиць у довіднику з математичної статистики, можна дізнатися, що t-критичне двобічне з 6 степенями вільності та Альфа = 0,05 дорівнює 2,447. Це критичне значення можна також знайти за допомогою функції TINV у програмі Excel. TINV(0,05;6) = 2,447. Оскільки абсолютна величина t, яка дорівнює 17,7, більше за 2,447, час експлуатації є важливою змінною для оцінки вартості адміністративної будівлі. Аналогічно можна визначити статистичну значимість усіх інших змінних. Нижче наведено спостережувані значення t для кожної з незалежних змінних.

Змінна

Значення спостережуваного t

Площа

5,1

Кількість офісів

31,3

Кількість входів

4,8

Час експлуатації

17,7

Всі ці значення мають абсолютне значення, яке більше за 2,447; тому всі змінні, використані в рівнянні регресії, мають значення для прогнозування оціночної вартості адміністративних будівель у цьому районі.

Отримуйте нові функції раніше за інших
Приєднайтеся до оцінювачів Office

Ця інформація корисна?

Дякуємо за ваш відгук!

Дякуємо за відгук! Схоже, вам може стати в нагоді допомога одного з наших спеціалістів служби підтримки Office, з яким ми вас можемо з’єднати.

×