본문 바로가기
IT

[IT Tips] Pandas DataFrame

by dhui 2025. 3. 18.
반응형

  Pandas DataFrame  

〖 빠르게 이동하기 〗

● Pandas DataFrame

● Pandas DataFrame 주요 특징

● DataFrame 생성하기

● 기본 데이터프레임 조작 방법

● 왜 Pandas 데이터프레임을 사용해야 할까요?


 Pandas DataFrame

Pandas 데이터프레임은 Python에서 데이터를 분석하고 조작하기 위해 널리 사용되는 2차원 표 형식의 자료 구조
엑셀 시트와 비슷하게 해(row)과 열(column)로 구성되어 있으며, 각 열에는 서로 다른 데이터 타입이 포함될 수 있음

 

• Pandas DataFrame 주요 특징

행과 열이 레이블(lable)로 지정되어 있어 쉽게 데이터 접근 가능
서로 다른 데이터 타입(정수, 문자열, 실수 등)을 한 데이터프레인에 저장 가능
크기 변경이 가능하여 열 추가 및 삭제 용이
missing data 처리 기능 제공
데이터 필터링, 그룹화, 집계, 병합 등 강력한 데이터 처리 가능


• DataFrame 생성하기 

1. Dictionary로 생성하기

import pandas as pd

data = {
    '이름': ['홍길동',  '김철수', '이영희']
    '나이': [25, 30, 35]
    '도시': ['서울', '부산', '대구']
}

df = pd.DataFrame(data)
print(df)

 

2. List로 생성하기

data = [
    ['홍길동', 25, '서울'],
    ['김철수', 30, '부산'],
    ['이영희', 35, '대구']
]

df = pd.DataFrame(data, columns=['이름', '나이', '도시'])
print(df)

• 기본 데이터프레임 조작 방법 

- 열(Column) 선택

print(df['이름'])  # 하나의 열 선택
print(df[['이름', '도시']])  # 여러 열 선택

 

- 행(Row) 선택

print(df.loc[0])   # 인덱스 라벨을 사용한 선택
print(df.iloc[1])  # 인덱스 위치를 사용한 선택

 

- 새로운 열 추가

df['연봉'] = [5000, 6000, 7000]
print(df)

 

- 조건을 사용한 필터링

# 나이가 30세 이상인 데이터 필터링
filtered_df = df[df['나이'] >= 30]
print(filtered_df)

 

- 자주 사용되는 함수

함수명 설명
df.head(n) 처음 n개의 행 출력 (기본값 5개)
df.tail(n) 마지막 n개의 행 출력 (기본값 5개)
df.info() 데이터프레임 요약 정보 출력
df.describe() 숫자형 데이터에 대한 통계 요약 출력
df.drop(columns=[]) 특정 열 삭제
df.sort_values() 특정 열 기준으로 데이터 정렬

 

- 예시 데이터프레임 출력

이름 나이 도시 연봉
홍길동 25 서울 5000
김철수 30 부산 6000
이영희 35 대구 7000

왜 Pandas 데이터프레임을 사용해야 할까요? 

 

  • 효율적인 데이터 분석 및 처리
  • 결측치 및 이상치 처리 용이
  • 다른 라이브러리(Numpy, Matplotlib 등)와의 강력한 통합성
  • 복잡한 데이터 분석 작업을 간단하게 처리
반응형