R 히스토그램 계급구간 - r hiseutogeulaem gyegeubgugan

1. 히스토그램(Histogram)이란?

 히스토그램이란 어떤 조건하에 취해진 많은 데이터를 몇 개의 구간으로 나누고, 각 구간 내에 포함되는 데이터의 개수에 따라 막대 모양으로 나타내어 데이터가 어떤 값을 중심으로 어떻게 분포하고 있는가를 조사하는 데 사용되는 그림입니다.

 따라서 히스토그램을 작성함으로써 아래의 [표1]과 같은 데이터 자체만으로는 알아보기 어려웠던 전체의 모습을 한눈에 알 수 있고, 중심위치나 산포의 크기 등을 알 수 있습니다. 그리고 품질 특성의 규격과 대비하여 불량률을 추정할 수 있으며 공정능력도 평가할 수 있습니다. 또한 층별한 많은 데이터로부터 분포의 모습을 그림으로 나타내어 다른 그룹의 분포와 쉽게 비교할 수도 있습니다.

2. 작성방법

1) 순서 1 : 출처가 확실한 최근의 데이터 100개 이상을 모읍니다.

   부득이한 경우 50개 정도도 되지만 가능하면 100개 이상으로 합니다.

2) 순서 2 : 데이터 중에서 최대치(L)와 최소치 (S)를 구하고, 범위(R)를 계산합니다.

              범위(R) = 최대치(L) - 최소치(S) = 2.545 - 2.503 = 0.042

3) 순서 3 : 계급의 폭(h)을 결정합니다.

 최대치와 최소치를 포함하는 구간을 5~20의 같은 간격의 작은 구간, 즉 계급으로 나눌 수 있도록 계급의 폭을 정합니다. 이 때 계급의 폭은 R을 1, 2, 5 (또는 10, 20, 50, 0.1, 0.2, 0.5등)로 나누어 그 값이 5~20이 되는 것을 택합니다. 이것이 두 가지가 되었을 때에는 데이터 개수가 100개 이상인 경우는 계급의 폭이 작은 쪽을, 데이터 개수가 99개 이하인 경우는 계급의 폭이 큰 쪽을 사용합니다.

 흔히들 범위(R)를 10으로 나누어 계급의 폭을 간편하게 정하기도 하는데, 이 경우 10이 계급의 수(k)가 되고 나누어진 값이 계급의 폭(h)이 됩니다. 그러나 이때에도 계급의 폭은 1, 2, 5(또는 10, 20, 50, 0.1, 0.2, 0.5 등)과 같이 다루기 쉬운 값으로 정하는 것이 좋습니다.

 0.042 ÷ 0.002 = 21

 0.042 ÷ 0.005 = 8.4 → 9

 0.042 ÷ 0.010 = 4.2 → 5

 따라서 계급의 폭은 0.05로 정합니다.

2.532 2.525 2.511 2.522 2.510 2.510 2.522 2.517 2.519 2.543
2.536 2.524 2.515 2.541 2.512 2.527 2.506 2.536 2.521 2.529
2.538 2.534 2.528 2.523 2.519 2.529 2.523 2.523 2.543 2.518
2.526 2.520 2.530 2.534 2.526 2.520 2.512 2.514 2.532 2.523
2.530 2.514 2.522 2.525 2.532 2.535 2.526 2.523 2.503 2.522
2.535 2.528 2.521 2.524 2.530 2.533 2.542 2.510 2.522 2.540
2.542 2.528 2.527 2.519 2.526 2.525 2.520 2.515 2.522 2.540
2.529 2.513 2.519 2.522 2.520 2.531 2.524 2.545 2.519 2.522
2.528 2.521 2.527 2.519 2.531 2.518 2.511 2.527 2.529 2.519

[표1, 최대치 : 2.545, 최소치 : 2.503]

4) 순서 4 : 도수분포표 용지를 준비합니다.

  [표2]와 같이 계급, 중심치, 도수 마크, 도수 등을 기입할 수 있는 용지를 준비합니다.

No 계급 중심치(x) 도수마크 도수(f)
1 2.5005~2.5055 2.503 1
2 2.5055~2.5105 2.508 //// 4
3 2.5105~2.5155 2.513 ////  //// 9
4 2.5155~25205 2.518 //// //// //// 14
5 2.5205~2.5255 2.523 //// //// //// // 22
6 2.5255~2.5305 2.528 //// //// //// 19
7 2.5305~2.5355 2.533 //// //// 10
8 2.5355~2.5405 2.538 //// 5
9 2.5405~2.5455 2.543 //// / 6
      90

[표2, 도수분포표]

5) 순서 5 : 계급의 경계치를 결정합니다.

 최소치가 제 1계급의 중앙에 오도록 하고, 각 계급의 경계치(하한 및 상한 경계치)는 최소 측정단위의 1/2값이 오도록 정합니다.

 제1계급의 경계하한치 = 최소치 - 계급의폭/2

                              = 2.503 - 0.005/2

                              = 2.5005

6) 순서 6 : 각 계급의 중심치를 계산합니다.

 중심치 = 두 경계치의 합 ÷ 2

7) 순서 7 : 도수를 구합니다. 측정치를 차례로 읽어 가면서, 해당 계급에 도수 마크를 사용해 기록하고 각 계급에 들어 있는 측정치의 도수를 구합니다.

8) 순서 8 : 히스토그램 용지를 준비하고 작성합니다.

 도수분포표의 도수에 비례한 막대의 크기로 하여 아래 그림과 같이 히스토그램을 작성합니다. 이때 각 기둥의 눈금은 경계치를 기입하기보다는 중심치를 기입합니다.

R 히스토그램 계급구간 - r hiseutogeulaem gyegeubgugan
히스토그램

3. 계급 수 결정방법

 히스토그램을 작성할 때 가장 중요한 것은 계급의 수를 결정하는 것입니다. 계급의 수는  데이터의 수에 의해 결정하는 것이 좋으며, 일반적으로 다음과 같이 방법에 따릅니다.

1) 조건표를 사용하는 방법

 분포의 모양을 보기 좋게 하려면 계급의 수는 다음의 [표3]과 같이 합니다.

2) 스터지스(H. A. Sturges) 공식 사용방법

 데이터 수 N에서 계급의 수 k를 구하려면 다음과 같이 합니다.

  계급의 수(k) = 1 + logN/log2 = 1 + 3.32logN

3) 평방근 사용방법

 다음의 식으로 계급의 수를 간단히 구합니다. 

  계급의 수(k) = √데이터수 = √N

데이터 수 (N) 계급의 수 (k)
50 ~ 100 약 6 ~ 10
100 ~ 250 약 7 ~ 12
250 이상 약 10 ~ 20

4. 히스토그램의 유형과 해석

 보통 히스토그램은 7가지 모양으로 나타나는데 그 이유는 일반적으로 다음과 같습니다.

1) 정규 분포로서 품질 및 프로세스가 안정된 상태임을 뜻합니다.

2) 어떤 값 이상의 값을 취할 수 없는 경우에 나타납니다.

  예) 순도가 높은 성분의 함유율

3) 어떤 값 이하의 값을 취할 수 없는 경우에 나타납니다.

  예) 미량 성분의 함유율

4) 성질이 다른 두 종류의 데이터가 섞여 있는 경우에 나타납니다.

5) 규격 이하의 것을 전체 선별하여 제거했을 경우 나타납니다.

6) 규격이 벗어난 것을 손질하였거나 속여서 보고한 경우 나타납니다.

7) 측정에 잘못이 있던가 또는 공정에 이상이 있는 경우 나타납니다.

R 히스토그램 계급구간 - r hiseutogeulaem gyegeubgugan

QC의 7가지 도구에 대해서 더 알고 싶으면 다음글도 참고하십시오.

2022.03.02 - [분류 전체보기] - QC의 7가지 도구 (4. 체크시트)

QC의 7가지 도구 (4. 체크시트)

1. 체크시트(Check Sheet)란?  체크시트란 데이터를 간단히 취해서 정리하기 쉽도록 사전에 설계한 시트(용지)를 말합니다. 따라서 이것을 이용하면 간단한 체크만으로도 필요한 정보가 모아지고

verylazybear.tistory.com

R 히스토그램 계급구간 - r hiseutogeulaem gyegeubgugan