Small Grey Outline Pointer 판다스 데이터 구조
본문 바로가기
Dev./데이터 분석

판다스 데이터 구조

by sso. 2023. 10. 21.

🐱‍💻Colab

Colaboratory(줄여서 'Colab'이라고 함)을 통해 브라우저 내에서 Python 스크립트를 작성하고 실행할 수 있다

 

 

🐱‍💻판다스

파이썬 데이터 분석 라이브러리 중 하나로, 데이터 조작, 정제, 분석, 시각화 등을 위한 다양한 기능을 제공

 

판다스에서는 두 가지 핵심 데이터 구조를 사용한다

 

✅Series (1차원) - 여러 개의 레이블과 그 값을 들고 있는 일차원 배열

✅DataFrame (2차원) - 데이터 테이블. 여러 개의 컬럼을 갖고 있으며 각각의 컬럼은 다른 데이터 형식의 값들을 담고 이을 수 있다.

행과 열이 있고 DataFrame은  Series의 모음이다.

 

 


Series 

 

판다스는 주로 pd라는 이름으로 불러 온다(import)

인덱스와 값이 출력 됨

 

 

 

RangeIndex(start=0, stop=4, step=1)

0부터 4까지 1씩 증가한다

 

인덱스와 값의 개수는 동일해야 한다

 

 

딕셔너리에서 시리즈 만들기

 

딕셔너리에서 특정 쌍만시리즈로 만들고 싶다면 인덱스를 지정할 수 있다

sdata(딕셔너리 데이터)에 'California'가 없으나,

'California'가 index=states 인덱스로 지정되어 있기 때문에 California 인덱스가 생겨났다

하지만 해당하는 값이 없어서 NaN으로 출력

 

이런 NaN 값은 결측치라고 한다 (missing data)

판다스에서는 결측치를 검사하는 방법을 제공한다

 

 

🐱‍💻isnull

불린값으로 출력 됨

 

 

 

🐱‍💻시리즈끼리 연산

같은 레이블에 해당하는 값끼리 연산 수행

 

🐱‍💻name 시리즈와 인덱스에 이름 붙이기

 

 

 


 

 

DataFrame

 

 

 

 

 

 

 

 


 

인덱싱

판다스에서 인덱싱 하는 방법

-레이블

-레이블 모음

-레이블  순서(번호)

-값이 특정 조건을 만족하는 경우

 

데이터 프레임에서는 행과 열 각각 인덱싱을 할 수 있다

 

✅.loc

축의 레이블을 이용해 인덱싱

✅.iloc

축의 순서를 이용해 인덱싱

 

 

 

 

 

 

 

 

728x90

'Dev. > 데이터 분석' 카테고리의 다른 글

유저 데이터 분석  (0) 2023.11.14

댓글