본문 바로가기

데이터 분석9

Pandas DataFrame - 데이터전처리 column 사이의 상관계수 ( correlation ) corr 함수를 통해 상관계수 연산 ( -1, 1 사이의 결과 ) 연속성( 숫자형 ) 데이터에 대해서만 연산 인과관계를 의미하진 않음 1에 가까울 수록 같이 변화, -1에 가까울 수록 역변화 dataFrame.corr() NaN값 처리 NaN값 조회 dataFrame.info() #NaN 값이 몇개 있는지 확인하기 위해서 기본적 정보를 출력해봄. dataFrame.isna() #NaN이 true인 dataFrame 반환 dataFrame['컬럼명'].isna() #NaN이 true인 특정 컬럼의 불리언 시리즈 반환 NaN값 처리 삭제 dataFrame.dropna() #그냥 NaN이 있는 row를 지워버림 dataFrame.dropna(subset.. 2020. 3. 1.
Pandas DataFrame - CRUD Data Frame sereis가 2차원으로 확대된 것이 DataFrame이라고 볼 수 있다. 때문에 인덱스가 row와 column 2가지로 구성되어 있다. row는 개별 데이터 column은 개별 속성 기본 함수 head() tail() shape row, column 개수 확인 describe() 숫자형 데이터의 통계치 계산 info() 각 컬럼별 데이터 타입, 각 아이템의 개수 등 출력 보통 null값 여부, 빈 값 여부를 확인 index 인덱스 범위를 나타냄 인덱스를 지정해줄수도 있다. 이때 ndarray, list 모두 사용 가능 dataFrame.index = ndarray 객체 or list 객체 colums 컬럼 명을 명시 생성 dict 생성 dict의 경우 key값이 컬럼명이 된다. da.. 2020. 3. 1.
Pandas Series Series ndarray를 기반으로 인덱스만 추가하여 만들어짐 ndarray도 인덱스가 있으나 무조건 zero 베이스 인덱스에 별도 표기 안됨 그러나 Series는 인덱스를 문자열, 숫자 등등 별도 지정 가능하며, 별도 표기됨. pd.Series(ndarray, 인덱스) 인덱스 없으면 0베이스 인덱스로 표기됨 Series[인덱스] ndarray 처럼 인덱스를 통해 접근 가능함 ndarray는 인덱스 범위를 넘어가면 에러 발생하나, series는 인덱스 범위를 넘어가면 값이 추가가 됨. 여기서 인덱스는 무슨 값을 넣든 넣는 순서대로 들어감. 나중에 넣은 것은 나중에 출력 연산 연산의 경우, 스칼라와의 연산이 가능 Series끼리의 연산의 경우, 맞지 않는 인덱스 값에 대해서는 NaN을 반환 행렬 인덱싱 .. 2020. 3. 1.
Numpy Broadcasting ### 브로드캐스팅 ( Broadcasting ) - shape이 같은 두 ndarray에 대한 연산은 각 원소 별로 진행 - 연산되는 두 ndarray가 다른 shape을 같는 경우, 브로드캐스팅 후 진행 - shape 맞추기라고 할 수 있음 https://docs.scipy.org/doc/numpy/user/basics.broadcasting.html#general-broadcasting-rules ### 브로드캐스팅 Rule - 뒷 차원에서부터 비교하여 shape이 같거나, 차원 중 값이 1인 것이 존재하면 가능 ```python a = np.arange(12).reshape(4, 3) b = np.arange(100, 103) a + b array([[100, 102, 104], [103, 105.. 2020. 2. 29.