본문 바로가기
코딩/Spotfire

[Spotfire]통계 - Data Relationship

by JuBro 2025. 4. 3.
728x90

🔹 Spotfire의 Data Relationship 기능이란?

Spotfire의 Data Relationship 기능은 데이터 간의 상관관계를 분석하는 데 사용되며, 다양한 통계적 방법을 활용해 변수 간 연관성을 평가할 수 있다. Tool > Data relation에 들어가서 조절할 수 있다. 

spotfire data relationship

 

 

 


📌 1. Linear Regression (선형 회귀) - 숫자형 변수끼리 가능

  • 한 개 이상의 독립 변수(X)와 종속 변수(Y) 간의 선형적인 관계를 모델링하는 기법.
  • 공식:Y=aX+bY = aX + b
  • 예제: 성적에 영향을 미치는 다양한 요소 중 가장 영향력이 큰 것 고르기 (건강, 성별, 반, 나이, 친구 수, 등등) 

spotfire 선형회귀

 

Y에 종속변수, X에 독립변수를 넣어 진행하면 결과를 바로 출력해준다.

 

linear regression

다음과 같이 테이블과 차트 둘다 나오며, 테이블 젤 상위의 독립변수가 영향력이 가장 크다. (R square 값이 가장 크다.) 

 

 

⚠️데이터셋은 반드시 Pivot된 형태여야 한다.

 

 


📌 2. Spearman R (스피어만 순위 상관계수)

  • 두 변수 간 비선형적인 관계까지 포함하여 순위 기반의 상관관계를 측정.
  • 숫자형 변수끼리만 가능
  • 값의 범위: -1 ~ +1
    • +1: 강한 양의 상관관계
    • -1: 강한 음의 상관관계
    • 0: 관계 없음
  • 예제: 시험 점수와 학습 시간 간의 상관관계 분석

 

spotfire Spearman R

상관관계를 빠르게 판단(Rank)할 때 용이

비정규분포 / Small data / Outlier 판단할 때 용이

 

 

 


📌 3. ANOVA (분산 분석)

  • 세 개 이상의 그룹 간 평균 차이가 유의미한지를 검정하는 방법.
    > 분산분석 / 그룹 간 평균 비교
  • 귀무가설(H₀): 모든 그룹의 평균은 같다.
  • 대립가설(H₁): 적어도 하나의 그룹 평균이 다르다.
  • 예제: 세 개의 운동 그룹(A/B/C)에서 체중 감량 효과 비교

spotifre box plot

box plot 형태로 나오며, 마찬가지로 차트에서 p-value도 제공해주기에 가장 영향력이 변수도 바로 파악할 수 있다.

 

 

 


📌 4. Kruskal-Wallis Test (크루스칼-왈리스 검정)

  • ANOVA의 비모수 버전. 데이터가 정규분포를 따르지 않을 때 사용.
  • 그룹 간 중앙값 차이를 비교.
  • 예제: 세 개의 다이어트 방법(A/B/C)에 따른 체중 변화 분석 (데이터가 정규성을 만족하지 않을 경우)

 

 

 


📌 5. Chi-Square Test (카이제곱 검정)

  • 범주형 변수 간 독립성(연관성) 을 검정하는 방법.
  • 예제: 성별(Gender)과 흡연 여부(Smoking) 간의 관계 분석
  • 귀무가설(H₀): 두 변수는 독립적이다.
  • 대립가설(H₁): 두 변수 간 연관성이 있다.

카이제곱검정

 

 

 


📌Spotfire Data Relationships 분석 기법 총정리

  • Filter 조건 확인하기
  • Pivot 데이터인지 확인하기 
Pearson 상관분석 숫자 vs 숫자 두 변수 간 선형적 관계를 분석하는 기법. 상관계수(−1 ~ 1)를 계산하며, 1에 가까울수록 강한 양의 상관관계, -1에 가까울수록 강한 음의 상관관계를 의미함. 키(cm)와 몸무게(kg) 간의 관계 분석
Spearman 순위 상관분석 숫자 vs 숫자 두 변수의 순위(랭크) 기반 상관관계를 분석하는 기법. 비선형 관계도 파악 가능하며, 데이터가 정규성을 따르지 않아도 적용 가능. 공부시간(시간)과 시험점수(100점 만점)의 관계 분석
ANOVA (분산분석) 범주 vs 숫자 3개 이상의 그룹 간 평균 차이가 유의미한지 검정하는 기법. 데이터가 정규성을 따른다고 가정함. F-검정을 통해 그룹 간 평균 차이를 비교함. 운동 그룹(A, B, C)별 체중 감소량(kg) 차이 분석
Kruskal-Wallis 검정 범주 vs 숫자 ANOVA와 유사하지만, 비모수 검정으로 데이터가 정규성을 따르지 않아도 사용 가능. 3개 이상의 그룹 간 중앙값 차이가 유의미한지 검정하는 방법. 세 가지 학습법(A, B, C)에 따른 시험 점수 차이가 유의미한지 분석
Chi-Square (카이제곱 검정) 범주 vs 범주 두 개의 범주형 변수 간 독립성 검정을 수행. 기대 빈도와 실제 빈도의 차이를 분석하여 변수 간의 연관성을 파악함. 흡연 여부(Yes/No)와 운동 여부(Yes/No) 간 관계 분석

 

728x90