LINEST 함수

이 문서에서는 Microsoft Excel의 LINEST 함수에 사용되는 수식 구문과 이 함수를 사용하는 방법을 설명합니다. 차트 작성 및 회귀 분석에 대한 자세한 내용을 보려면 참고 항목 섹션에서 해당 링크를 클릭하세요.

설명

LINEST 함수는 데이터에 가장 적합한 직선을 구하는 "최소 자승법"을 사용하여 선의 통계를 계산하고 선에 대한 배열을 구합니다. LINEST를 다른 함수와 결합하여 다항식, 로그, 지수, 멱급수 등 알 수 없는 매개 변수에서 다른 유형의 선형 모델에 대한 통계를 구할 수도 있습니다. 이 함수는 값을 배열로 반환하므로 배열 수식으로 입력해야 합니다. 지침은 이 문서의 예제를 참조하세요.

선의 방정식은 다음과 같습니다.

y = mx + b

또는

y = m1x1 + m2x2 + ... + b

x 값의 범위가 여러 개일 때 종속 변수 y는 독립 변수 x의 함수입니다. m 값은 각각의 x 값에 해당하는 계수이고 b는 상수 값입니다. x, y, m은 벡터가 될 수 있습니다. LINEST 함수는 {mn,mn-1,...,m1,b} 배열을 반환하며 회귀 통계를 추가로 반환할 수도 있습니다.

구문

LINEST(known_y's, [known_x's], [const], [stats])

LINEST 함수 구문에는 다음과 같은 인수가 사용됩니다.

구문

  • known_y's    필수 요소입니다. y = mx + b 식에서 이미 알고 있는 y 값의 집합입니다.

    • known_y's 범위가 한 개의 열에 있으면 known_x's의 각 열은 별도의 변수로 해석됩니다.

    • known_y's 범위가 한 개의 행에 있으면 known_x's의 각 행은 별도의 변수로 해석됩니다.

  • known_x's    선택 요소입니다. y = mx + b 식에서 이미 알고 있는 x 값의 집합입니다.

    • known_x's 범위에는 하나 이상의 변수 집합이 포함될 수 있습니다. 변수가 하나만 사용될 경우 known_y'sknown_x's의 차원이 같으면 모든 형태의 범위를 사용할 수 있습니다. 둘 이상의 변수를 사용할 때 known_y's는 벡터(한 행의 높이 또는 한 열의 너비를 가진 범위)여야 합니다.

    • known_x's 를 생략하면 known_y's와 같은 크기의 배열 {1,2,3,...}으로 간주됩니다.

  • const    선택 요소입니다. 상수 b를 0으로 할지 여부를 지정하는 논리값입니다.

    • const 가 TRUE이거나 이를 생략하면 b는 정상적으로 계산됩니다.

    • const 가 FALSE이면 b는 0으로 설정되고 m 값은 y = mx에 맞게 조정됩니다.

  • stats    선택 요소입니다. 추가적인 회귀 통계 항목을 구할지 여부를 지정하는 논리값입니다.

    • stats 가 TRUE이면 LINEST 함수는 추가적인 회귀 통계 항목을 구하므로 반환되는 배열은 {mn,mn-1,...,m1,b;sen,sen-1,...,se1,seb;r2,sey;F,df;ssreg,ssresid}가 됩니다.

    • stats 가 FALSE이거나 생략되면 LINEST 함수는 m 계수와 상수 b만 반환합니다.

      추가적인 회귀 통계량은 다음과 같습니다.

통계

설명

se1,se2,...,sen

계수 m1,m2,...,mn에 대한 표준 오차값입니다.

seb

상수 b에 대한 표준 오차값(const가 FALSE이면 seb = #N/A)입니다.

r2

결정 계수입니다. y 값의 추정값과 실제값을 비교하며 값의 범위는 0부터 1까지입니다. 계수가 1이면 표본에 완전한 상관 관계가 성립하고 y 값의 추정값과 실제값 사이에는 아무런 차이가 없습니다. 결정 계수가 0이면 해당 회귀 방정식은 y 값을 예측하는 데 아무 도움이 되지 않습니다. r2의 계산 방법에 대한 자세한 내용은 뒷부분의 "주의"를 참조하세요.

sey

y 추정값에 대한 표준 오차입니다.

F

F 통계량 또는 F-관측값입니다. F 통계량을 사용하여 종속 변수와 독립 변수 사이에서 관측된 관계가 우연히 발생된 것인지 여부를 확인할 수 있습니다.

df

자유도이며 통계표에서 F 임계값을 찾는 데 사용됩니다. LINEST 함수로 구한 F 통계량과 표에서 찾은 값을 비교하여 모델에 대한 신뢰도를 판단할 수 있습니다. df의 계산 방법에 대한 자세한 내용은 뒷부분의 "주의"를 참조하세요. 아래의 예제 4에서 F와 df의 사용법을 보여 줍니다.

ssreg

회귀 제곱의 합입니다.

ssresid

잔차 제곱의 합입니다. ssreg와 ssresid를 계산하는 방법에 대한 자세한 내용은 뒷부분의 "주의"를 참조하세요.

다음 그림은 추가 회귀 통계를 구하는 순서를 보여 줍니다.

회귀 통계량 키

주의

  • 모든 직선을 기울기와 y 절편으로 설명할 수 있습니다.

    기울기(m):
    직선의 기울기 m은 직선 위의 두 점 (x1,y1)과 (x2,y2)에서 (y2 - y1)/(x2 - x1)로 구합니다.

    y 절편(b):
    직선의 y 절편 b는 직선이 y축과 교차하는 점의 y 값입니다.

    직선의 방정식은 y = mx + b입니다. m과 b의 값을 알고 있다면 x 값 또는 y 값을 방정식에 대입하여 직선의 모든 점을 계산할 수 있습니다. 또한 TREND 함수를 사용할 수도 있습니다.

  • 독립 변수 x가 하나뿐인 경우 다음 수식을 사용하여 기울기와 y 절편을 직접 구할 수 있습니다.

    기울기:
    =INDEX(LINEST(known_y's,known_x's),1)

    y 절편:
    =INDEX(LINEST(known_y's,known_x's),2)

  • LINEST 함수에 의해 계산된 회귀 직선의 정확도는 데이터의 분산 정도에 따라 결정됩니다. 데이터가 선형일수록 LINEST 모델은 더 정확해 집니다. LINEST는 데이터에 가장 적합한 회귀 직선을 결정하기 위하여 최소 자승법을 사용합니다. 독립 변수 x의 값을 하나만 갖고 있다면 m과 b의 계산식은 다음과 같습니다.

    수식

    수식

    여기에서 x와 y는 표본 평균, 즉 x = AVERAGE(known x's), y = AVERAGE(known_y's)입니다.

  • 회귀 직선과 회귀 곡선의 함수인 LINESTLOGEST는 모두 주어진 데이터에 가장 적합한 직선이나 지수 곡선을 계산할 수 있습니다. 그러나 두 결과 중 어느 쪽이 데이터에 가장 적합한지 결정해야 합니다. 직선인 경우 TREND(known_y's,known_x's)를, 지수 곡선인 경우 GROWTH(known_y's, known_x's)를 사용하여 계산합니다. 이 함수들은 new_x's 인수를 사용하지 않고 실제의 데이터 요소에서 직선이나 곡선에 따라 예측한 y 값의 배열을 구합니다. 이때 실제값과 예상값을 비교할 수 있으며, 쉽게 비교할 수 있도록 차트로 나타낼 수 있습니다.

  • Excel에서는 회귀 분석에서 각각의 데이터 요소에 대해 y 값의 추정값과 실제값 사이 차의 제곱을 계산합니다. 이러한 차의 제곱의 합을 잔차 제곱의 합, 즉 ssresid라고 하며 이 값 다음에 제곱의 총합 sstotal을 계산합니다. const 인수가 TRUE이거나 생략되었을 때 제곱의 총합은 실제 y 값과 y 값 평균의 차를 제곱하여 더한 값입니다. const 인수가 FALSE이면 각 y 값에서 평균 y 값을 뺀 값이 아닌 실제 y 값의 제곱을 더한 값이 제곱 총합이 됩니다. 그 결과 회귀 제곱의 합 ssreg는 ssreg = sstotal - ssresid로 계산됩니다. 잔차 제곱의 합이 제곱 총합에 비해 작을수록 회귀 분석의 결과 방정식이 변수 간의 관계를 얼마나 잘 설명하는지를 나타내는 결정 계수 r2의 값은 커집니다. r2 값은 ssreg/sstotal입니다.

  • 경우에 따라서는 (열에 Y와 X가 있다고 가정할 때) 다른 X 열이 있어도 하나 이상의 X 열에서 추정값을 추가로 계산하지 않을 수 있습니다. 즉, X 열을 한 개 이상 제거해도 변함 없이 정확한 Y 값을 추정할 수 있습니다. 이러한 경우에 중복되는 X 열은 회귀 분석 모델에서 제외해야 합니다. 중복되는 X 열은 중복되지 않은 X 열을 곱한 값의 합계로 표현할 수 있기 때문에 이러한 현상을 "공선성"이라고 합니다. LINEST 함수는 공선성을 검사하여 중복되는 X 열이 있으면 회귀 분석 모델에서 제거합니다. 제거된 X 열은 LINEST 결과에서 se 0과 계수 0을 갖는 것으로 인식될 수 있습니다. df는 추정 목적으로 실제 사용된 X 열의 개수에 영향을 받으므로 중복되는 열을 하나 이상 제거하면 df에 영향을 줍니다. df 계산에 대한 자세한 내용은 예제 4를 참조하세요. 중복되는 X 열을 제거하여 df가 변경되면 sey 값과 F 값도 영향을 받습니다. 공선성은 가급적 피해야 합니다. 그러나 실험 대상이 특정 그룹의 구성원인지 여부를 나타내는 표시기로 0과 1 값만 일부 X 열에 있는 경우에는 공선성이 발생할 가능성이 높습니다. const가 TRUE이거나 생략되면 LINEST 함수는 값이 모두 1인 추가 X 열을 절편에 맞도록 효과적으로 삽입합니다. 각 대상에 대한 값이 남성일 경우 1(여성일 경우 0)인 열이 있고 여성일 경우 1(남성일 경우 0)인 열도 있을 경우 후자는 중복된 열입니다. 이 열에 있는 값은 LINEST 함수를 통해 추가된 값이 모두 1인 추가 열에서 "남성 표시기" 열의 값을 빼면 구할 수 있기 때문입니다.

  • 공선성으로 인해 모델에서 제거되는 X 열이 하나도 없을 때 df의 값은 다음과 같이 계산됩니다. known_x’s의 열이 k개 있고 const가 TRUE이거나 생략되면 df = n - k - 1이고, const가 FALSE이면 df = n - k입니다. 두 경우 모두 공선성으로 인해 제거된 X 열 하나에 대해 df가 1씩 증가합니다.

  • 배열을 반환하는 수식은 배열 수식으로 입력해야 합니다.

    참고: Excel Online에서는 배열 수식을 만들 수 없습니다.

  • known_x's 와 같은 배열 상수를 인수로 입력할 때는 쉼표를 사용하여 같은 행에 있는 값을 구분하고 세미콜론을 사용하여 행을 구분합니다. 구분 기호는 국가별 설정에 따라 다를 수 있습니다.

  • 회귀 방정식으로 예측한 y 값이 방정식 결정에 사용한 범위 밖에 있을 때는 그 값이 유효하지 않을 수도 있습니다.

  • LINEST 함수에 사용되는 기본 알고리즘은 SLOPEINTERCEPT 함수에 사용되는 기본 알고리즘과 다릅니다. 이러한 알고리즘의 차이로 인해 데이터가 확정적이지 않고 동일한 선 위에 있는 경우 서로 다른 결과가 반환될 수 있습니다. 예를 들어 known_y's 인수의 데이터 요소가 0이고 known_x's 인수의 데이터 요소가 1인 경우

    • LINEST가 값 0을 반환합니다. LINEST 함수의 알고리즘은 공선 데이터에 대해 적당한 결과를 반환하도록 디자인되었으므로 이 경우 답을 하나 이상 찾을 수 있습니다.

    • SLOPEINTERCEPT가 #DIV/0! 오류를 반환합니다. SLOPEINTERCEPT 함수 알고리즘은 오직 하나의 답만 찾도록 디자인되어 있지만 이 경우 답이 여러 개일 수 있기 때문입니다.

  • LOGEST를 사용하여 다른 회귀 유형에 대한 통계를 구하는 것 외에도 LINEST를 통해 x 및 y 변수의 함수를 LINEST에 대한 x 및 y 계열로 입력하여 다른 회귀 유형의 범위를 계산할 수 있습니다. 예를 들어 다음과 같은 수식이 있다고 가정해 봅니다.

    =LINEST(y 값, x 값^COLUMN($A:$C))

    위의 수식은 다음 3차식(차수가 3인 다항식) 근사값을 구할 y 값으로 된 열과 x 값으로 된 열이 하나씩 있을 때 올바르게 계산됩니다.

    y = m1*x + m2*x^2 + m3*x^3 + b

    이 수식을 조정하여 다른 유형의 회귀를 계산할 수 있지만 경우에 따라 출력 값과 다른 통계를 조정해야 할 수도 있습니다.

  • LINEST 함수에서 반환되는 F-검정 값은 FTEST 함수에서 반환되는 F-검정 값과 다릅니다. LINEST는 F 통계량을 반환하고, FTEST는 확률을 반환합니다.

예제

예제 1 - 기울기와 y 절편

다음 표의 예제 데이터를 복사하여 새 Excel 워크시트의 A1 셀에 붙여 넣습니다. 수식의 결과를 표시하려면 수식을 선택하고 F2 키를 누른 다음 Enter 키를 누릅니다. 필요한 경우 열 너비를 조정하면 데이터를 모두 표시할 수 있습니다.

알려진 y

알려진 x

1

0

9

4

5

2

7

3

결과(기울기)

결과(y 절편)

2

1

수식(셀 A7:B7의 배열 수식)

=LINEST(A2:A5,B2:B5,,FALSE)

예제 2 - 단순 선형 회귀

다음 표의 예제 데이터를 복사하여 새 Excel 워크시트의 A1 셀에 붙여 넣습니다. 수식의 결과를 표시하려면 수식을 선택하고 F2 키를 누른 다음 Enter 키를 누릅니다. 필요한 경우 열 너비를 조정하면 데이터를 모두 표시할 수 있습니다.

판매액

1

\3,100,000

2

\4,500,000

3

\4,400,000

4

\5,400,000

5

\7,500,000

6

\8,100,000

수식

결과

=SUM(LINEST(B1:B6, A1:A6)*{9,1})

\11,000,000

1월부터 6월까지의 판매액을 기준으로 아홉 번째 달의 예상 판매액을 계산합니다.

예제 3 - 다중 선형 회귀

다음 표의 예제 데이터를 복사하여 새 Excel 워크시트의 A1 셀에 붙여 넣습니다. 수식의 결과를 표시하려면 수식을 선택하고 F2 키를 누른 다음 Enter 키를 누릅니다. 필요한 경우 열 너비를 조정하면 데이터를 모두 표시할 수 있습니다.

사무실 면적(x1)

사무실 수(x2)

출입구 수(x3)

건축 연수(x4)

평가액(y)

2310

2

2

20

\142,000,000

2333

2

2

12

\144,000,000

2356

3

1.5

33

\151,000,000

2379

3

2

43

\150,000,000

2402

2

3

53

\139,000,000

2425

4

2

23

\169,000,000

2448

2

1.5

99

\126,000,000

2471

2

2

34

\142,900,000

2494

3

3

23

\163,000,000

2517

4

4

55

\169,000,000

2540

2

3

22

\149,000,000

-234.2371645

13.26801148

0.996747993

459.7536742

1732393319

수식(A14:A18에 입력된 배열 수식)

=LINEST(E2:E12,A2:D12,TRUE,TRUE)

예제 4 - F와 r2 통계량 사용

앞의 예제에서 결정 계수 r2는 0.99675(LINEST의 결과에서 A17 셀 참고)이며 이것은 독립 변수와 판매 가격 사이의 강한 상관 관계를 나타냅니다. 높은 r2 값의 결과가 우연한 것인지 판단하기 위하여 F 통계를 사용할 수 있습니다.

사실은 변수 사이에 아무런 관계가 없지만, 겨우 11개 사무실 건물을 표본으로 채택했기 때문에 통계적 분석 결과는 강한 상관 관계를 나타낸 것이라고 가정해 보세요. 상관 관계가 있다는 잘못된 결론을 내릴 확률을 고려하여 조건 "Alpha"를 사용합니다.

LINEST 함수 결과의 F와 df 값을 사용하여 더 높은 F 값이 발생할 가능성을 평가할 수 있습니다. 게시된 F 분포표의 임계값과 F를 비교하거나 Excel의 FDIST 함수를 사용하여 더 큰 F 값이 발생할 확률을 계산할 수 있습니다. 적당한 F 분포의 자유도는 v1과 v2입니다. n이 데이터 요소의 개수이고 const가 TRUE이거나 생략되면 v1 = n - df - 1, v2 = df입니다. const가 FALSE이면 v1 = n - df, v2 = df입니다. FDIST(F,v1,v2) 구문이 있는 FDIST 함수는 더 높은 F 값이 발생할 확률을 계산합니다. 이 예제에서 df는 6(B18 셀)이고 F는 459.753674(A18 셀)입니다.

Alpha 값이 0.05, v1 = 11 - 6 - 1 = 4, v2 = 6이라고 가정하면 F 임계값은 4.53입니다. F = 459.753674는 4.53보다 훨씬 크므로 이 정도로 높은 F 값이 우연히 발생할 가능성은 극히 희박합니다. alpha = 0.05인 경우, F가 임계값 4.53을 초과하면 known_y’sknown_x’s 간에 관계가 없다는 가설은 기각됩니다. Excel의 FDIST 함수를 사용하여 이 정도 크기의 F 값이 우연히 발생할 확률을 계산할 수 있습니다. 예를 들어 FDIST(459.753674, 4, 6) = 1.37E-7, 즉 극히 적은 확률입니다. 표에서 F 임계값을 찾거나 FDIST 함수를 사용하면, 회귀 방정식은 이 지역 사무실 건물의 평가액을 예측할 때 유용하다는 결론을 내릴 수 있습니다. 앞 단락에서 계산된 정확한 v1과 v2 값을 사용하는 것이 매우 중요합니다.

예제 5 - t 통계 계산

다른 가설 검정으로 각 기울기 계수가 예제 3에서와 같이 사무실 건물의 평가액을 어림잡는 데 유용한지 판단합니다. 예를 들어 건축 연수 계수의 통계적 중요성을 검정하기 위해 -234.24(건축 연수의 기울기 계수)를 13.268(A15 셀에 있는 건축 연수 계수의 표준 오차 추정값)로 나눕니다. 다음은 t 관측값입니다.

t = m4 ÷ se4 = -234.24 ÷ 13.268 = -17.7

f의 절대값이 충분히 높으면 기울기 계수가 예제 3에서와 같이 사무실 건물의 평가액을 추정하는 데 유용하다는 결론을 내릴 수 있습니다. 아래 표에서는 4개의 t 관측값을 보여 줍니다.

통계표에서 자유도 6, Alpha = 0.05인 양측 검정 t 임계값이 2.447임을 확인할 수 있습니다. Excel의 TINV 함수로도 이 임계값을 찾을 수 있습니다. 즉, TINV(0.05,6) = 2.447입니다. t(17.7)의 절대값이 2.447보다 크므로 사무실 건물의 평가액을 추정할 때 건축 연수가 중요한 변수가 됩니다. 다른 독립 변수도 유사한 방법으로 검정할 수 있습니다. 다음은 각 독립 변수의 t 관측값입니다.

변수

t 관측값

사무실 면적

5.1

사무실 수

31.3

출입구 수

4.8

건축 연수

17.7

이러한 값은 절대값이 2.447보다 크므로 회귀 방정식에 사용된 모든 변수는 이 지역 사무실 건물의 평가액을 추정하는 데 유용합니다.

Office 기술 확장
교육 살펴보기
새로운 기능 우선 가져오기
Office Insider 참여

이 정보가 유용한가요?

의견 주셔서 감사합니다!

피드백을 주셔서 감사합니다. Office 지원 에이전트와 연락하는 것이 도움이 될 것 같습니다.

×