subplots 만들기 f, ax = plt.subplots(1, 2, figsize=(18,8)) 1행 2열의 도화지를 준비하는 과정이다. figsize는 도화지 크기이다. f는 전체 도화지에 대한 것이고 ax는 ax[0] 은 1행 1열, ax[1]은 1행 2열 팔레트를 의미한다. 파이 차트 넣기 df_train['Survived'].value_counts().plot.pie( explode=[0,0.1], autopct='%1.1f%%', ax=ax[0], shadow=True ) ax[0].set_title('Pie plot - Survived') ax[0].set_ylabel('') df_train['Survived'].value_counts() 각 레이블의 counts를 반환해준다. (시리즈로 ..
EDA
Missingno를 먼저 설치해줍니다. conda install -c conda-forge missingno 라이브러리를 import 해주고 import missingno as msno 결측값 확인 (Matrix) : NaN의 분포 msno.matrix(df=df_train.iloc[:,:], figsize=(8,8), color=(0.8, 0.5, 0.2)) 결측값 확인 (Bar) : NaN % msno.bar(df=df_train.iloc[:,:], figsize=(8,8), color=(0.8, 0.5, 0.2)) p.s. 데이터 넘기는 인수에 굳이 df_train.iloc[:,:] 안적고 그냥 df_train 적어도 된다. 결국에는 그냥 데이터 전부 넘기겠습니다 의미기 때문 참고 : https:/..
데이터를 살펴 볼 때 유용하다. for col in df_train.columns: msg = 'column : {:>10}\t Percent of NaN value : {:.2f}%'.format(col, 100*(df_train[col].isnull().sum()/df_train[col].shape[0])) print(msg) df_train 에서 col을 하나씩 뽑는다. df_train[col].isnull() 하면 Null 인지 아닌지 True 와 False로 하나씩 뽑는다. 합치면 True의 갯수만 나온다. (True면 Null) df_train[col].shap[0] 하면 전체 행의 갯수를 알려준다. ( df_train[col].isnull().sum() / df_train[col].shape..