데이터를 살펴 볼 때 유용하다.
for col in df_train.columns:
msg = 'column : {:>10}\t Percent of NaN value : {:.2f}%'.format(col, 100*(df_train[col].isnull().sum()/df_train[col].shape[0]))
print(msg)
df_train 에서 col을 하나씩 뽑는다.
df_train[col].isnull() 하면 Null 인지 아닌지 True 와 False로 하나씩 뽑는다.
합치면 True의 갯수만 나온다. (True면 Null)
df_train[col].shap[0] 하면 전체 행의 갯수를 알려준다.
( df_train[col].isnull().sum() / df_train[col].shape[0] ) * 100 % 라고 적으면,
NaN값이 몇퍼센트인지 한눈에 보이게 되는 것이다.
출처
이유한님, "타이타닉 튜토리얼 1 - Exploratory data analysis, visualization, machine learning", Kaggle-KR(블로그), 2018년 6월 28일, https://kaggle-kr.tistory.com/17?category=868316
'EDA' 카테고리의 다른 글
[SNS] Seaborn 의 factorplot을 이용해보자. (0) | 2022.07.19 |
---|---|
[SNS] seaborn을 가지고 만드는 막대차트 (0) | 2022.07.19 |
[Pandas] groupby, crosstab 사용하기 (0) | 2022.07.19 |
[plt] subplots 만들어서 파이차트와 countplot 차트 넣기 (0) | 2022.07.19 |
[MissingNo] 결측값 시각화해서 보기 (0) | 2022.07.19 |