분포 분석: 곡선 피팅

(일부 작성중: Partially UNDER CONSTRUCTION)

분포 분석은 다양한 방법으로 진행될 수 있는데, 그 중 곡선 피팅에 대해 다뤄보도록 한다.

시작하기 전에, 간단 설명

Q1. 곡선 피팅을 간단하게 설명해주세요.
두 변수 (또는 그 이상의 갯수) 사이의 측정값의 분포를 이용하여 두 변수 사이의 “대략적인 관계식을 알고 싶을 때” 활용하는 방법입니다. 정확하게는, 정해지지 않은 계수와 상수가 있는 방정식에서, 분포에 맞추어 계수와 상수를 찾는 방법입니다.

Q2. 그래서 무엇이 필요하나요?
다음 것들이 필요합니다.

  1. 변수쌍
  2. 미지의 계수 또는 상수가 포함된 방정식
    • 단, 변수쌍은 미지의 계수 또는 상수의 갯수보다 많아야 함.

Q3. 그래서 수학적으로 뭘 풀어야 하나요?
옛날같았으면 모든 것을 손으로 풀어야 했었지만, 요새는 세상이 좋아서 컴퓨터로 거의 다 됩니다. 엑셀, SPSS, MATLAB 등의 프로그램이 있고 1변수 1차방정식 정도는 세상이 너무 좋은 나머지 인터넷에 뒤져보면 계산해주는 페이지가 있습니다. 예시 링크
뭐 굳이 손으로 풀고 싶다면 막지는 않겠지만, 일반물리학실험 교재 맨 앞 챕터에 있습니다.

왜 하나요?

두 변수 사이의 관계를 알고싶을 때 활용합니다.
아래와 같은 데이터를 가지고 있다고 합시다.

Image of datapoints on graph Figure 1) 어떤 1차식을 따르는 것 같아 보이는 그래프 위의 데이터포인트들

뭔가 의 분포가 값을 따르는 것 같고, 뭔가 관계가 있어 보입니다. 물론 그렇게 데이터를 찍었으니까… 근데 숫자로 된 값으로 가 어떤 관계가 있는지 관계식을 구하고 싶습니다. 그러면 어떻게 해야 할까요? 그냥 임의의 선 하나만 긋고 ‘아 이런 것 같애’ 하면 비논리적입니다. 수치계의 논리학은 수학이니 수학적인 것을 써먹어야 합니다.

우리가 구하고 싶어하는 방정식의 형태는 아래 그림과 같을겁니다. (아직 방정식이 무엇인지는 표시하지 않았고, 의 개형을 따른다고 가정합니다.)

Image of datapoints on graph with trendline Figure 2) Figure 1 에서 1차식 피팅을 포함한 그래프

간단히 말해서, 까만 데이터포인트와 거리를 최소화하는 빨간 직선을 찾는 겁니다.

자세한 개념에 대한 이야기는 전반적인 이야기를 다 하고 다룹니다. (더 깊게 들어가면 안읽음. 간단한 이야기만 여기서…)

그래서 뭘 볼까요?

(작성중: UNDER CONSTRUCTION)

자세한 이야기: 선지자의 부름

고맙게도 이런걸 어떻게 하는지에 대한 문제는 선지자님들께서 다 풀어놓았습니다. 아니면 갓-컴퓨터가 할 수 있거나 무언가를 최소화 하는 아이디어는 아주 옛날 영국으로부터 시작된 편지에서 부터 있었던 생각으로, 그래프에서의 곡선 피팅은 데이터포인트와 피팅할 곡선이 멀 수록 커지는 어떤 수를 최소화하는 아이디어에서 시작합니다. (물론 이런 방법이 한두개가 아닙니다)

최소제곱법

데이터 포인트 와 방정식 가 있다고 할 때, 를 최소로 하는 를 찾는 방법

저 수식들이 뭔지 모르겠어요!

네. 당연히 본격적인 분석을 과학자 코스프레 하려면 수식놀음을 해야합니다. 그런데 당연히 이해가 안가겠죠. 그러니 수식 나오는것을 하나하나 불러봅시다.

… (Eq. 1)
데이터포인트입니다. 실험에서 데이터를 뽑았을 때, 어떤 관계에 있는지는 모르는 두 변수 를 측정했고 그것을 번 진행했는데 그 중 번째 데이터입니다.

… (Eq. 2)
계수를 찾고 싶어하는 어떤 함수입니다. 이 때의 함수는 계수만 결정되어있지 않고 개형은 대충 결정되어있어야합니다. 라든지, 라든지의 계수, 상수값만 없고 형태는 갖추어져있어야 합니디.

… (Eq. 3)
[Eq. 1] 에서의 데이터포인트 에서의 을 바탕으로 구한 방정식 의 값과 데이터포인트 사이의 변위입니다. 간단히 말해서 데이터포인트와 사이의 세로 변위 이자, 데이터포인트의 방정식으로부터 구한 예상치에 대한 편차 입니다.

… (Eq. 4)
[Eq. 3] 을 모든 데이터포인트에 대해 적용하여 제곱한 후 그것을 합한 것입니다. 이 값을 최소화하는 의 계수를 찾는 것이 목표입니다. 아직 모르겠다고요?

편차의 제곱의 합과 비슷한 개념을 분산Variation이라는1 이름으로 통계시간에 배운 적이 있습니다. 다르게 말해서 평균값을 방정식의 값으로 간주하고 분산을 최소화하는 방향으로 방정식을 찾는 것이 목표입니다.

성능 판정

(작성중: UNDER CONSTRUCTION)

참고자료

  1. Steven J. Miller, The Method of Least Squares, https://web.williams.edu/Mathematics/sjmiller/public_html/BrownClasses/54/handouts/MethodLeastSquares.pdf
  1. 편차의 제곱의 평균  

Categories:

Updated: