Python/Pandas 5

pd.groupby / pivot_table (집계연산)

1. 집계연산 기본적으로 pandas에서는 sum( ), mean( ), median( ), min( ), max( )와 같은 기본적인 연산을 지원한다. 데이터를 부분적으로 연산하고 싶다면, groupby 또는 pivot_table을 사용하면 된다. 기본 집계 메서드는 다음과 같다. count( ) -> 데이터 전체 개수 first( ), last( ) -> 첫 데이터, 마지막 데이터 mean( ), median( ) -> 평균값, 중앙값 min( ), max( ) std( ), var( ) mad( ) -> 절대 평균 편차 prod( ) -> 전체 항목의 곱 sum( ) 2. Groupby( ) groupby( )에 원하는 키를 전달해주면 해당 키만을 결합하여 연산을 진행한다. methods별로 묶어서..

Python/Pandas 2020.03.27

pd.concat / df.append / pd.merge

1. pd.concat( ) pandas.concat (objs, axis=0, join='outer', ignore_index: bool = False, keys=None, levels=None, names=None, verify_integrity: bool = False, sort: bool = False, copy: bool = True) axis = 0 (default) 0 = 세로 결합 1 = 가로 결합 join = outer (default) outer = 합집합으로 결합 inner = 교집합 결합 ignore_index = False (default bool) False면 기존의 인덱스를 그대로 유지해서 결합 True면 새로운 정수형 인덱스를 생성 keys = None (default seq..

Python/Pandas 2020.03.13

14. Pandas - 다중인덱싱(Multi Index)

1. 다중인덱싱 생성 인덱스가 2개일 수도 있을까? 인덱스가 2개인 경우, 다중 인덱싱이 가능하다. 인덱스가 사람이름, 교과목명 2가지인 경우, 다음과 같이 만들 수 있다. 1) DataFrame에서는 생성자에 2개의 인덱스 배열 리스트를 전달한다. 2) Series에서는 튜플을 키 딕셔너리로 전달함. 3) index 와 data가 따로 인경우, Series를 만든 후 reindex한다. 다음과 같이 인덱스를 MultiIndex로 만들어주고, 리인덱싱을 하면 다음과 같이 만들어 지게 된다. 2번째 인덱스가 English인 데이터에 접근하려면 아래와 같이 사용하면 된다. 4) 다중인덱스의 DataFrame만들기 인덱스와 칼럼에 각각 names를 만들어 주면 된다. 2. MultiIndex 메소드 1) un..

Python/Pandas 2020.03.12

13. Pandas - 결측값(Nan, None)

결측값 (None, NaN) 1) None (Numpy) Numpy에서는 None 값을 사용하지 말자. None은 파이썬 객체이고, Numpy연산이 불가능하다. Pandas에서 사용이 가능하기는 하지만, 연산속도가 느려지고 Numpy메소드 사용이 불가능하므로 사용하지 않는 것을 권장한다. 2) NaN (Numpy) NaN이 포함된 산술 연산의 결과는 무조건 모두 NaN이 된다. 3) None, NaN (Pandas) Pandas에서 None은 자동으로 nan으로 변경한다. Null 값 탐지 : isnull( ) / notnull( ) isnull에서는 null값이 있으면 True, 없으면 False. nan과 None 모두 null값으로 처리함 Null 값 제거하기 : dropna( ) , fillna(..

Python/Pandas 2020.03.04

12. Pandas 정리 - 객체 (Series, DataFrame), 인덱싱

1. Series # pd.Series(data, index = [ ]) Series는 데이터의 1차원 배열이라고 할 수 있다. numpy배열이며, 값은 values로 인덱스는 index로 접근할 수 있다. 이 때, values는 Numpy배열이다. 인덱스를 이용하여, 특정 값에 접근할 수 있다. Numpy와는 다르게 인덱스 값을 설정할 수 있다. (np는 정수열 인덱스만 가능) 인접하지 않는 정수형 인덱스를 설정할 수도 있다. 인덱스를 키라고 생각한다면, Series배열은 딕셔너리형 객체라고 생각해도 무방하다. 2. DataFrame # pd.DataFrame(ndarray, index = [ ], column = [ ]) https://pandas.pydata.org/pandas-docs/stable..

Python/Pandas 2020.02.26