본문 바로가기

분류 전체보기

(40)
TOSS리더가 말하는 PO가 꼭 알아야할 개념(1 ~ 4) Carrying Capacity 1. 당신은 당신의 모든 파워 유저들이 어떤 조치(예를 들어, 그들의 프로필을 작성)를 취했다는 것을 알게 될 것입니다. 그래서 당신은 모든 사용자들이 당신의 제품에 더 빠져들게 하기 위해 그들의 프로필을 작성하도록 권장합니다. 이것이 정말로 도움이 됩니까? 2. 당신의 서비스가 24시간 동안 멈췄습니다. 이것이 장기적으로 걱정해야 할 영향을 미칠까요? 3. 당신의 서비스에 매일 10만명이 방문하는것과 매 주 70만명이 방문하는 것 중 뭐가 더 좋을까요? 4. 새로운 광고 캠페인을 시작하자 고유 방문자 수가 증가하는 것을 볼 수 있을 때 광고를 계속 실행하는 한 이러한 현상은 계속 증가할 것이라고 생각하는가요? 5, 이메일, 푸시 알림 등의 문제가 발생하고 고유 방문자수가..
2024-02-07 이동 평균 구하기 이동 평균? --- **12개월 이동 평균 계산 및 시각화** 이동 평균을 계산하는 이유는 단기적인 변동성을 줄이고, 데이터의 장기적인 추세를 보다 명확하게 파악하기 위함입니다. 여기서는 12개월 이동 평균을 사용합니다. - `data['Temp'].rolling(window=12).mean()`** 이 코드는 'Temp' 열에 대해 12개월 간격의 이동 평균을 계산합니다. 이는 각 지점에서 이전 11개월과 현재 달을 포함한 12개월 기온의 평균을 계산합니다. - `plt.plot(data['Moving_Avg'], color='orange', label='12-Month Moving Average')`** 이 코드는 이동 평균을 선 그래프로 시각화합니다. **선형 회귀를 사용한 추세선 계산 및 시각화*..
2023-02-01 수지형 데이터 전처리 - 스케일링(Scaling) 인코딩이 범주형 자료에 대한 전처리라고 한다면, 스케일링은 수치형 자료에 대한 전처리이다. 표준화(Standardization) - 각 데이터에 평균을 빼고 표준편차를 나누어 평균을 0 표준편차를 1로 조정하는 방법 - 수식 - 함수: `sklearn.preprocessing.StandardScaler` - 메소드 - `fit` : 데이터학습(평균과 표준편차를 계산) - `transform`: 데이터 스케일링 진행 - 속성 - `mean_`: 데이터의 평균 값 - `scale_`, `var_`: 데이터의 표준 편차,분산 값 - `n_features_in_`: fit 할 때 들어간 변수 개수 - `feature_names_in_`: fit 할 때 들어간 변수 이름 - `n_samples_seen_` : f..
2023-02-01 범주형 데이터 전처리 - 인코딩(Encoding) 인코딩이란? 인코딩의 사전적 뜻은 어떤 정보를 정해진 규칙에 따라 변환하는 것을 뜻한다.. 반면, 우리가 만든 머신러닝 모델은 숫자를 기반으로 학습하기 때문에 반드시 인코딩 과정이 필요 1. 레이블 인코딩(Label Encoding) 문자열 범주형 값을 고유한 숫자로 할당 ex ) 1등급 -> 0 , 2등급 -> 1, 3등급 ->2 특징 - 장점: 모델이 처리하기 쉬운 수치형으로 데이터 변환 - 단점: 실제로는 그렇지 않은데, 순서 간 크기에 의미가 부여되어 모델이 잘못 해석 할 수 있음 - 사용 함수 - `sklearn.preprocessing.LabelEncoder` - 메소드 - `fit`: 데이터 학습 - `transform`: 정수형 데이터로 변환 - `fit_transform`: fit과 tr..
2024-02-01 결측치 이상치가 분포에 크게 어긋나는 특이한 데이터라면, 결측치(Missing Value)는 존재하지 않는 데이터 결측치 처리 방법 - 수치형 데이터 - 평균 값 대치: 대표적인 대치 방법 - 중앙값 대치: 데이터에 이상치가 많아 평균 값이 대표성이 없다면 중앙 값을 이용 Ex) 이상치는 평균 값을 흔들리게 함 - 범주형 데이터 - 최빈값 대치 - 사용 함수 - 간단한 삭제 & 대치 - `df.dropna(axis = 0)`: 행 삭제 - `df.dropna(axis = 1)`: 열 삭제 - Boolean Indexing - `df.fillna(value)`: 특정 값으로 대치(평균, 중앙, 최빈값) - 알고리즘을 이용 - `sklearn.impute.SimpleImputer`:평균, 중앙, 최빈값으로 대치 -..
2024-02-01 이상치 이상치(Outlier) 이상치(Outlier)란 보통 관측된 데이터 범위에서 많이 벗어난 아주 작은 값 혹은 큰 값을 말하며 크게 2가지 기준이 있음 1. Extreme Studentized Deviation(ESD) 이용한 이상치 발견 - 데이터가 정규분포를 따른다고 가정할 때, 평균에서 표준편차의 3배 이상 떨어진 값 - 모든 데이터가 정규 분포를 따르지 않을 수 있기 때문에 다음 상황에서는 제한됨 - 데이터가 크게 비대칭일 때( → Log변환 등을 노려볼 수 있음) - 샘플 크기가 작을 경우 1. IQR(Inter Quantile Range)를 이용한 이상치 발견 - ESD와 동일하게 데이터가 비대칭적이거나 샘플사이즈가 작은 경우 제한됨 코드를 통한 이상치 발견 방법 ESD를 이용한 처리 impor..
2024-02-01 EDA 탐색적 데이터 분석(EDA) 탐색적 데이터 분석(Exploratory Data Analysis, EDA)는 데이터의 시각화, 기술통계 등의 방법을 통해 데이터를 이해하고 탐구하는 과정 이 과정에서 데이터에 대한 정보를 얻을 수도 있고, 적절한 모델링에 대한 정보도 얻을 수 있습니다. 예측 모델링이 아니더라도 데이터 분석에서는 반드시 필요한 과정 기술통계를 통한 EDA 예시 tips.describe() - include='all' 옵션을 통해 범주형 데이터도 확인 가능 시각화를 이용한 EDA 예시 시각화를 하는 기준 범주형 연속형 관측치 위 세 가지의 기준을 X축 또는 Y축으로 두어 시각화를 한다 countplot: 범주형 자료의 빈도 수 시각화 - 방법: 범주형의 데이터의 각 카테고리별 빈도수를 나타낼 ..
2024-02-01 데이터 수집 데이터 예측 모델링 프로세스 데이터 수집 데이터 수집 단계는 일반적으로 예시로 제공되는 데이터나 회사에 있는 데이터로 진행되어 스킵되는 경우가 많음 실제로 데이터를 수집하기 위해서는 개발을 통한 데이터 적재 및 수집하는 데이터 엔지니어링 역량이 필요 데이터 수집이 필요 - CSV, 엑셀 파일 다운로드 - API를 이용한 데이터 수집(권장) - 데이터 크롤링