본문 바로가기

전체 글66

Pandas DataFrame - CRUD Data Frame sereis가 2차원으로 확대된 것이 DataFrame이라고 볼 수 있다. 때문에 인덱스가 row와 column 2가지로 구성되어 있다. row는 개별 데이터 column은 개별 속성 기본 함수 head() tail() shape row, column 개수 확인 describe() 숫자형 데이터의 통계치 계산 info() 각 컬럼별 데이터 타입, 각 아이템의 개수 등 출력 보통 null값 여부, 빈 값 여부를 확인 index 인덱스 범위를 나타냄 인덱스를 지정해줄수도 있다. 이때 ndarray, list 모두 사용 가능 dataFrame.index = ndarray 객체 or list 객체 colums 컬럼 명을 명시 생성 dict 생성 dict의 경우 key값이 컬럼명이 된다. da.. 2020. 3. 1.
Pandas Series Series ndarray를 기반으로 인덱스만 추가하여 만들어짐 ndarray도 인덱스가 있으나 무조건 zero 베이스 인덱스에 별도 표기 안됨 그러나 Series는 인덱스를 문자열, 숫자 등등 별도 지정 가능하며, 별도 표기됨. pd.Series(ndarray, 인덱스) 인덱스 없으면 0베이스 인덱스로 표기됨 Series[인덱스] ndarray 처럼 인덱스를 통해 접근 가능함 ndarray는 인덱스 범위를 넘어가면 에러 발생하나, series는 인덱스 범위를 넘어가면 값이 추가가 됨. 여기서 인덱스는 무슨 값을 넣든 넣는 순서대로 들어감. 나중에 넣은 것은 나중에 출력 연산 연산의 경우, 스칼라와의 연산이 가능 Series끼리의 연산의 경우, 맞지 않는 인덱스 값에 대해서는 NaN을 반환 행렬 인덱싱 .. 2020. 3. 1.
Numpy Broadcasting ### 브로드캐스팅 ( Broadcasting ) - shape이 같은 두 ndarray에 대한 연산은 각 원소 별로 진행 - 연산되는 두 ndarray가 다른 shape을 같는 경우, 브로드캐스팅 후 진행 - shape 맞추기라고 할 수 있음 https://docs.scipy.org/doc/numpy/user/basics.broadcasting.html#general-broadcasting-rules ### 브로드캐스팅 Rule - 뒷 차원에서부터 비교하여 shape이 같거나, 차원 중 값이 1인 것이 존재하면 가능 ```python a = np.arange(12).reshape(4, 3) b = np.arange(100, 103) a + b array([[100, 102, 104], [103, 105.. 2020. 2. 29.
Numpy 기본 함수 연산 함수 add, substract, multiply, divide 기본적으로 shape가 같아야 연산이 가능하다. broadcasting을 통해 다른 경우에도 가능은 하다. np.multiply(x, y) np.divide(x, y) x + y x / y #사칙연산의 경우 그냥 바로 연산자를 이용 가능하다. 통계 함수 평균, 분산, 중앙, 최대, 최소값 등등 통계관련 함수가 내장되어 있다. np.mean(y) # y.mean() np.max(y) np.argmax(y) # 제일 큰 값의 index 가져오기 np.var(y) # 분산 np.median(y) # 중앙값 np.std(y) # 표준 편차 집계 함수 합계(sum), 누적합계(cumsum) 등등 계산 가능 sum(y) #column 값들의 합을.. 2020. 2. 29.