Pandas

· TIL
Pandas pandas panel data 구조화된 데이터의 처리를 지원하는 python 라이브러리 numpy와 통합해 강력한 “스프레드시트” 처리 기능 제공 Tabular 형태의 데이터 Data table (Sample) attribute (field, feature, column) intance (tuple, row) data (value) Series Series( data(=dict type), index(=index name list) ) DataFrame 중 하나의 column에 해당하는 데이터의 모음 numpy의 래퍼 ( 인덱싱이 자유롭다는게 큰 차이, duplicate도 가 ) column vector를 표현하는 object index를 기준으로 데이터가 추가되거나 제거 (데이터가 없더라..
· EDA
province_dict = { '서울특별시': 0, '부산광역시': 1, '대구광역시': 2, '인천광역시': 3, '광주광역시': 4, '대전광역시': 5, '울산광역시': 6, '세종특별자치시': 7, '경기도': 8, '강원도': 9, '충청북도': 10, '충청남도': 11, '전라북도': 12, '전라남도': 13, '경상북도': 14, '경상남도': 15, '제주특별자치도': 16 } Q 1. 1. 먼저 칼럼 '광역'을 위의 dictionery를 기준으로 정렬하고 싶고, 2. 칼럼 '기초'의 사전적 순서의 역순으로 정렬하고 싶다. 어떻게 해야 할까? 정답은 2번 정렬이다. df_result = df_result.sort_values(by='기초', ascending=False ) df_res..
· EDA
데이터를 살펴 볼 때 유용하다. for col in df_train.columns: msg = 'column : {:>10}\t Percent of NaN value : {:.2f}%'.format(col, 100*(df_train[col].isnull().sum()/df_train[col].shape[0])) print(msg) df_train 에서 col을 하나씩 뽑는다. df_train[col].isnull() 하면 Null 인지 아닌지 True 와 False로 하나씩 뽑는다. 합치면 True의 갯수만 나온다. (True면 Null) df_train[col].shap[0] 하면 전체 행의 갯수를 알려준다. ( df_train[col].isnull().sum() / df_train[col].shape..
In [3]: import matplotlib.pyplot as plt import matplotlib as mpl # 마이너스 부호 때문에 한글 깨질 수 있어서 주는 설정 plt.rcParams["axes.unicode_minus"] = False mpl.rc("font", family="Malgun Gothic") %matplotlib inline In [19]: import pandas as pd import numpy as np CCTV_Seoul = pd.read_csv('../data/01. Seoul_CCTV.csv', encoding = 'utf-8') CCTV_Seoul.rename(columns = {CCTV_Seoul.columns[0]:'구별', CCTV_Seoul.columns[1..
scone
'Pandas' 태그의 글 목록