본문 바로가기

머신러닝 공부

판다스(pandas) - 기본 API (2)

SMALL

head()와 tail()

head()는 DataFrame의 맨 앞부터 일부 데이터만 추출합니다. tail()은 DataFrame의 맨 뒤부터 일부 데이터만 추출합니다.

원래는 DataFrame의 기본 플롯 형태가 나오는 것이 jupyter에서만 위와 같은 형태로 나오는 것이고 실제 print를 해서 dataframe을 보면 출력값이 다르게 나옵니다. 따라서 dataframe을 가시성있게 보기위해서는 직접적으로 dataframe을 df와 같이 지정해서 쓰거나 display함수를 이용해서 나타내야합니다.

 

DataFrame 출력 시 option 중에서는 tail,header를 기준으로 dataframe을 얼마나 추출하는지에 대한 옵션도 있고,

set_option일 경우에는 display함수를 이용하여서 최대 표시 행,열을 지정후에 나타내게하는 함수도 있습니다.

 

 

shape , DataFrame 생성

DataFrame의 행,열의 크기를 가지고 있는 속성입니다.

 

DataFrame 생성은 임의의 2차원 ndarray를 생성을 시킨 후에 pandas.DataFrame(ndarray명)을 해준다면 DataFrame으로 전환시킬 수 있습니다. 이후 새로운 컬럼명을 추가하거나 인덱스를 새로운 값으로 할당해줄 수도 있습니다.

 

 

info()

DataFrame 내의 컬럼명, 데이터 타입, Null 건수, 데이터 건수 정보를 제공해줍니다.

이때 Non-Null 개수가 나오게 되어 Null건수를 알기 위해서는 해당 column의 데이터 개수 - non-Null 건수로 Null건수를 알아야합니다.

 

describe()

데이터값들의 평균, 표준편차, 4분위 분포도를 제공합니다. 숫자형 컬럼들에 대해서 해당 정보를 제공합니다.

밑에 나오는 output에서 첫번째 column은 아이디를 데이터값으로 나타내는 것이라서 별 의미가 없습니다. 이렇듯 describe로 해당 정보를 표시하게 된다면 실수로 표기가 되므로 이를 유의해야합니다.

LIST

'머신러닝 공부' 카테고리의 다른 글

Pandas(판다스) - DataFrame  (0) 2023.02.04
Pandas(판다스) - value_counts method  (0) 2023.02.03
판다스(Pandas)와 기본 API (1)  (0) 2023.02.03
numpy ndarray의 sort & argsort  (0) 2023.02.01
numpy(3)  (0) 2023.02.01