본문 바로가기
반응형

코딩/Python7

[KT AICE] Feature Engineering Binning : 연속형 변수를 범주형 변수로 만들기 - 그룹짓기cut - 길이 기준으로 구간 나누기qcut - 개수 기준으로 구간 나누기 (원하는 개수 입력) Scaling : 숫자 데이터간의 상대적인 크기 차이를 제거하기( 대표적 예시로 정규화)  StandardScaler: 평균을 0, 표준편차를 1로 맞추어 정규화.RobustScaler: 중앙값과 IQR을 사용하여 이상치의 영향을 줄임.MinMaxScaler: 모든 특성 값을 [0, 1] 사이로 조정.MaxAbsScaler: 특성 값을 [-1, 1] 사이로 조정, 특히 음수값이 없는 경우 유용.  Label Encoding : 범주형 변수의 문자열 값을 숫자로 매핑컴퓨터는 문자열 이해를 못하기에 그에 상응하는 숫자로 전달해줘야한다. One Hot.. 2024. 11. 5.
[KT AICE] 데이터 전처리 - 결측치처리 데이터 탐색하기함수설명예시head()데이터프레임의 처음 몇 줄을 반환합니다. 기본적으로 처음 5줄을 반환합니다.df.head() Name Age Score 0 Alice 24 85 1 Bob 30 90 2 Charlie 22 88 3 David 35 95 4 Eve 29 92tail()데이터프레임의 마지막 몇 줄을 반환합니다. 기본적으로 마지막 5줄을 반환합니다.df.tail() Name Age Score 5 Frank 33 84 6 Grace 28 89 7 Helen 26 87 8 Ian 32 93 9 Jack 31 91info()데이터프레임의 요약 정보를 제공하며, 각 열의 데이터 타입과 null이 아닌 값들의 개수를 포함합니다.df.info()describe()숫자형 열에 대한 기술 통계를 생성합니.. 2024. 8. 29.
[KT AICE] Pandas 기초 - Dataframe 병합하기 concat 함수동일한 컬럼명을 가지는 데이터프레임을 단순히 합칠때 사용 - (행,열 중복 제거 안해줌) ex) pandas.concat([A,B]) 기본적으로 axis = 0인 것을 전제하고 있다. 이 경우 위아래로 합쳐짐axis=1을 준다면 옆으로 합치는 것도 가능 ignore_index = True 옵션을 준다면, 합친 데이터 프레임 index 를 초기화해서 0부터 이쁘게 출력한다. merge 함수두 dataframe의 같은 컬럼을 기준으로 합침(집합 느낌) ex) pandas.merge(A, B, how='inner', on='기준 컬럼명') inner공통된 column 기준으로 합치는 교집합 느낌left왼쪽 데이터 프레임 기준으로, 왼쪽 데이터는 모두 들어감right오른쪽 데이터 프레임 기준으로.. 2024. 8. 22.
[KT AICE] Pandas 활용 - Dataframe 변형하기 https://pandas.pydata.org/docs/user_guide/reshaping.html#stack-and-unstackGroupby범주형 컬럼을 기준으로 같은 값을 묶어 통계 또는 집계결과를 얻어 사용하는 것#Exampledataframe.groupby('성별').mean() groupby는 데이터 분할(split) > 적용(applying) > 데이터 병합(combine) 세 단계를 거쳐서 진행된다.   Pivot_tableDataFrame 형태를 변경하는 것#Examplepd.pivot_table(data=sample, index='고객ID', columns='상품코드', values='구매금액',aggfunc='mean')   stack, unstackstack : 컬럼 ➡️ 인덱스로.. 2024. 8. 18.
[KT AICE] Pandas 기초 - Dataframe 살펴보기 DataFrame 생성방법일단 pandas import 하기 import pandas as pd딕셔너리로 생성 ➡️ column 단위로 생성됨a1=pd.DataFrame({"a":[1,2,3],"b":[4,5,6],"c":[7,8,9]}) abc014712582369리스트로 생성 ➡️row 단위로 생성됨a2=pd.DataFrame([1,2,3], [4,5,6], [7,8,9],columns=['a','b','c']) abc012314562789파일을 불러서 생성df=pd.read_csv('파일명.csv')      DataFrame 조회 기초 함수들df.head데이터의 앞 5개 라인 출력(index [0:4]) df.tail데이터의 뒤 5개 라인 출력(index[n-4:n]) df.shaperow와 .. 2024. 8. 14.
[파이썬 웹크롤링] beautiful soup를 이용한 웹크롤링 후 간단한 게임 만들기 주제 : 웹크롤링을 이용한 술게임 만들기 피로그래밍 2주차 팀 과제로 주어진 주제인데, 뭘할지 계속 고민을 하다가 더 많이 더 적게 구글 검색량을 이용한 중독성 넘치는 검색량 비교 게임 www.higherlowerkorea.com 검색량을 단순 비교해서 무슨 키워드가 더 검색량이 많은지 선택하는 '더 많이 더 적게' 사이트에서 아이디어를 얻어 네이버 페이 증권 사이트에서 TOP 종목 중 랜덤으로 가져와서 이날 이 주식이 상승했는지, 하락했는지 단순 선택하는 술게임을 만들 것입니다. beautifulsoup 설치 및 임포트 #!pip install BeautifulSoup4 #!pip install requests import requests from bs4 import BeautifulSoup as bs.. 2024. 1. 8.
[Python] turtle모듈을 활용한 mbti검사 및 그래프 (2020년) 1학년 2학기 시절 python 기말 프로젝트로 진행한 mbti 검사 및 학과, 직업 추천 프로그램이다. 그림을 그리는 turtle모듈이 신기해서 그걸 최대한 활용해보고싶었다. 처음엔 당연히 mbti 검사를 한다. 질문을 코드에 다 넣을수도 있겠지만, 지저분해서 txt파일을 불러오는 형식으로 했다. 이후 이중리스트를 통해 질문들과 성향을 구분하였다. 다음과 같이 mbti의 4가지 성향을 판단할 수 있는 질문이 각각 10개씩 있도록 설정하였다. 각 성향에 대한 질문의 답변을 점수로 계속 더해지는 형태로 mbti를 판단하도록 했다. 그리고 이후 설문 응답을 토대로 turtle모듈을 사용해 그래프로 표현하게 하였고, 그래프를 그릴때 반복잡업할 함수들을 설정해준다. 이후 재귀함수 형태로 반복하여 .. 2023. 8. 24.