본문 바로가기

코딩31

[Spotfire]통계 - Data Relationship 🔹 Spotfire의 Data Relationship 기능이란?Spotfire의 Data Relationship 기능은 데이터 간의 상관관계를 분석하는 데 사용되며, 다양한 통계적 방법을 활용해 변수 간 연관성을 평가할 수 있다. Tool > Data relation에 들어가서 조절할 수 있다. 📌 1. Linear Regression (선형 회귀) - 숫자형 변수끼리 가능한 개 이상의 독립 변수(X)와 종속 변수(Y) 간의 선형적인 관계를 모델링하는 기법.공식:Y=aX+bY = aX + b예제: 성적에 영향을 미치는 다양한 요소 중 가장 영향력이 큰 것 고르기 (건강, 성별, 반, 나이, 친구 수, 등등) Y에 종속변수, X에 독립변수를 넣어 진행하면 결과를 바로 출력해준다. 다음과 같이 테.. 2025. 4. 3.

[Spotfire] Graphical Table Graphical Table은 Data를 요약해서 Dashboard 형태로 나타내기 좋다. 요런식으로 graphical graph를 만들고 properties에 들어가면 Axes라는 메뉴가 있다.거기서 Add로 추가할 수 있는 항목들이 있는데, Sparkline : 설정한 x축 기준으로 y value의 트렌드를 간단히 볼 수 있다. Calculated value : 원하는 value의 summary 값을 표현하고 coloring까지 가능하다.Icon : Summay 값을 간단한 아이콘으로 표현한다.Bullet Graph : Target 대비 실적표시 Calculated Value 추가하기Properties > Axes > Add > Calculated Value Values에서 어떠한 Summa.. 2025. 3. 31.

[Spotfire] Data handling - column 추가하기(calculated column, binned column, custom expression) 오늘은 기존의 데이터 셋에 새로운 column을 추가하는 방법을 배울 것이다.크게 세가지 방법으로 나눌 수 있다.Calculated ColumnBinned ColumnCustom expression 왼쪽 위 ...을 클릭하여 Data로 들어가면 해당 항목들을 볼 수 있다. Calculated Column기존에 다음과 같은 신체 데이터가 있다자고 하자. Calculated Column 창을 누르면음과 같이 뜬다.눈치 빠르신 분은 아시겠지만 Filter의 limit data using expression 창과 상당히 비슷하다. (⬇️아래 글에서 다뤘던 것 ⬇️) [Spotfire] Filter응용 - 시각화마다 다른 필터 적용Filter는 보통 페이지 단위로 적용되어 한꺼번에 필터링이 된다.. 2025. 3. 30.

[Spotfire] Line chart, Bar chart, Pie chart Line ChartLine chart는 y축의 summary된 값을 바탕으로 x축의 트렌드를 파악할 수 있다. 주식차트의 주가그래프가 대표적인 line chart이다. 실습용 예시 데이터는 우리 gpt한테 부탁하면 잘 뽑아주니 활용하자.다음은 월별 defect sum의 line chart이다. Point 표시 및 수치 표시선 그래프는 다들 아시다싶이 꺾이는 곳마다 데이터가 있다.이를 확실히 표현하기 위해 점을 찍고, 또 수치까지 표시해보자.우클릭 > properties > show markers를 하면 점을 표시할 수 있다. 이후 밑에서 상세 설정가능! labels > show in labels > individual values를 선택하면 각 점의 수치가 표현된다.이게 너무 지저.. 2025. 3. 28.

[Spotfire] Scatter plot 추세선, 기준선 Spotfire에서 가장 많이 쓰이는 시각화 중 하나인 Scatter Plot(산점도)에 대해 알아보자Scatter Plot은 X,Y간의 상관관계를 토대로 추세를 파악하기 쉽다. 다음과 같은 날짜별 주문량이 있다고 하면, 특정 기준(column, row)로 쪼개서 그리기 시각화 우클릭 > Trellis에 들어가면 특정 조건으로 쪼개서 각각의 시각화를 그릴 수 있다.시각화 오른쪽 필터가 있지만, 굳이 Order status로 쪼개서 그려보면 다음과 같이 나온다. 추세선 그리기 Scatter plot의 하이라이트인 추세선 그리기.우클릭 해서 properties의 Lines&Curves로 가면 된다.이 중 젤 아래인 Straight Line Fit을 클릭하면 추세선이 그려진다. 아래.. 2025. 3. 27.

[Spotfire] Filter응용 - 시각화마다 다른 필터 적용 Filter는 보통 페이지 단위로 적용되어 한꺼번에 필터링이 된다. 하지만 페이지 일괄 적용이 아닌, 각 시각화(Visualization)마다 다른 필터를 적용하고 싶을 때도 있을 것이다.크게 두가지 방법이 있는데,Filter SchemeLimit Data Using Expression Filter Scheme적용하고자 하는 시각화(Visualization) 우클릭 > properties > Data > Limit data using filterings여기서 여러개의 필터를 만들수 있고, 각 필터마다 다른 세트를 만들어 각 시각화 차트에 적용시킬수 있다. 개인적으로 필터는 필터 테이블에서 조절하는게 또 편하다. 필터테이블 우클릭 > 필터 스키마 체크 >적용시킨 필터 클릭해 수정하기 L.. 2025. 3. 26.

[KT AICE] Feature Engineering Binning : 연속형 변수를 범주형 변수로 만들기 - 그룹짓기cut - 길이 기준으로 구간 나누기qcut - 개수 기준으로 구간 나누기 (원하는 개수 입력) Scaling : 숫자 데이터간의 상대적인 크기 차이를 제거하기( 대표적 예시로 정규화) StandardScaler: 평균을 0, 표준편차를 1로 맞추어 정규화.RobustScaler: 중앙값과 IQR을 사용하여 이상치의 영향을 줄임.MinMaxScaler: 모든 특성 값을 [0, 1] 사이로 조정.MaxAbsScaler: 특성 값을 [-1, 1] 사이로 조정, 특히 음수값이 없는 경우 유용. Label Encoding : 범주형 변수의 문자열 값을 숫자로 매핑컴퓨터는 문자열 이해를 못하기에 그에 상응하는 숫자로 전달해줘야한다. One Hot.. 2024. 11. 5.

[KT AICE] 데이터 전처리 - 결측치처리 데이터 탐색하기함수설명예시head()데이터프레임의 처음 몇 줄을 반환합니다. 기본적으로 처음 5줄을 반환합니다.df.head() Name Age Score 0 Alice 24 85 1 Bob 30 90 2 Charlie 22 88 3 David 35 95 4 Eve 29 92tail()데이터프레임의 마지막 몇 줄을 반환합니다. 기본적으로 마지막 5줄을 반환합니다.df.tail() Name Age Score 5 Frank 33 84 6 Grace 28 89 7 Helen 26 87 8 Ian 32 93 9 Jack 31 91info()데이터프레임의 요약 정보를 제공하며, 각 열의 데이터 타입과 null이 아닌 값들의 개수를 포함합니다.df.info()describe()숫자형 열에 대한 기술 통계를 생성합니.. 2024. 8. 29.

[KT AICE] Pandas 기초 - Dataframe 병합하기 concat 함수동일한 컬럼명을 가지는 데이터프레임을 단순히 합칠때 사용 - (행,열 중복 제거 안해줌) ex) pandas.concat([A,B]) 기본적으로 axis = 0인 것을 전제하고 있다. 이 경우 위아래로 합쳐짐axis=1을 준다면 옆으로 합치는 것도 가능 ignore_index = True 옵션을 준다면, 합친 데이터 프레임 index 를 초기화해서 0부터 이쁘게 출력한다. merge 함수두 dataframe의 같은 컬럼을 기준으로 합침(집합 느낌) ex) pandas.merge(A, B, how='inner', on='기준 컬럼명') inner공통된 column 기준으로 합치는 교집합 느낌left왼쪽 데이터 프레임 기준으로, 왼쪽 데이터는 모두 들어감right오른쪽 데이터 프레임 기준으로.. 2024. 8. 22.

[KT AICE] Pandas 활용 - Dataframe 변형하기 Groupby범주형 컬럼을 기준으로 같은 값을 묶어 통계 또는 집계결과를 얻어 사용하는 것#Exampledataframe.groupby('성별').mean() groupby는 데이터 분할(split) > 적용(applying) > 데이터 병합(combine) 세 단계를 거쳐서 진행된다. Pivot_tableDataFrame 형태를 변경하는 것#Examplepd.pivot_table(data=sample, index='고객ID', columns='상품코드', values='구매금액',aggfunc='mean') stack, unstackstack : 컬럼 ➡️ 인덱스로 변환unstack : 인덱스 ➡️ 컬럼으로 변환 referencehttps://pandas.pydata.org/docs/user.. 2024. 8. 18.

이전 1 2 3 4 다음

티스토리툴바