Pandas
- pandas
- panel data
- 구조화된 데이터의 처리를 지원하는 python 라이브러리
- numpy와 통합해 강력한 “스프레드시트” 처리 기능 제공
- Tabular 형태의 데이터
- Data table (Sample)
- attribute (field, feature, column)
- intance (tuple, row)
- data (value)
- Series
- Series( data(=dict type), index(=index name list) )
- DataFrame 중 하나의 column에 해당하는 데이터의 모음
- numpy의 래퍼 ( 인덱싱이 자유롭다는게 큰 차이, duplicate도 가 )
- column vector를 표현하는 object
- index를 기준으로 데이터가 추가되거나 제거 (데이터가 없더라도)
- subclass of numpy.ndarray
- index, data, dtype
- DataFrame
- DataFrame(raw_data, index, columns, dtype, copy)
- numpy array-like
- each column can have a different type
- row and col index
- Size mutable : insert and delete columns
- Series를 모아서 만든 data table
- selection
- with column names
- df[[’account’, ’street’, ’state’]]
- with index num
- df[:3] , df[”account”][:3] # index가 정렬된 숫자가 아니라면 예상과 다른 결과가 나올 수 있음.
- df[[0, 1, 2]]
- with boolean index
- df[account_series < 2500]
- with basic
- df[[’column1’, ‘column2’]][:2] ← col, index num
- with loc, iloc
- locate index(name), locate index number
- df.iloc[:2,:2] ← col num, index num
- df.loc[[211829, 320563][”name”,”street”]] ← row, col
- with column names
- index 변경
- reindex
- df.index = index_list
- df.reset_index(inplace=True, drop=True) # inplace는 데이터프레임 자체를 건들기 때문에 권장 안함.
- reindex
# column을 row로 바꾸고 싶을 때
df.index = df[”account”]
del df["account"]
df.head()
- 제거
- del, .drop([”city”, “state”], inplace=True, axis=1)
- operation
- df1 + df2
- df1.add(df2, fill_value=0)
- add, sub, div, mul
- broadcasting
- df.add(s1, axis=0)
'TIL' 카테고리의 다른 글
[Pytorch] 부트캠 day-9 (1) | 2023.11.15 |
---|---|
[Pytorch] 부트캠 day-8 (1) | 2023.11.14 |
[베이즈 정리] 부트캠 d-4 (0) | 2023.11.09 |
[Vector & Matrix] 부트캠 day-3 (0) | 2023.11.09 |
[Numpy] 부트캠 day-2 (1) | 2023.11.09 |