반응형
Pandas DataFrame
〖 빠르게 이동하기 〗
• Pandas DataFrame •
Pandas 데이터프레임은 Python에서 데이터를 분석하고 조작하기 위해 널리 사용되는 2차원 표 형식의 자료 구조
엑셀 시트와 비슷하게 해(row)과 열(column)로 구성되어 있으며, 각 열에는 서로 다른 데이터 타입이 포함될 수 있음
• Pandas DataFrame 주요 특징 •
행과 열이 레이블(lable)로 지정되어 있어 쉽게 데이터 접근 가능
서로 다른 데이터 타입(정수, 문자열, 실수 등)을 한 데이터프레인에 저장 가능
크기 변경이 가능하여 열 추가 및 삭제 용이
missing data 처리 기능 제공
데이터 필터링, 그룹화, 집계, 병합 등 강력한 데이터 처리 가능
• DataFrame 생성하기 •
1. Dictionary로 생성하기
import pandas as pd
data = {
'이름': ['홍길동', '김철수', '이영희']
'나이': [25, 30, 35]
'도시': ['서울', '부산', '대구']
}
df = pd.DataFrame(data)
print(df)
2. List로 생성하기
data = [
['홍길동', 25, '서울'],
['김철수', 30, '부산'],
['이영희', 35, '대구']
]
df = pd.DataFrame(data, columns=['이름', '나이', '도시'])
print(df)
• 기본 데이터프레임 조작 방법 •
- 열(Column) 선택
print(df['이름']) # 하나의 열 선택
print(df[['이름', '도시']]) # 여러 열 선택
- 행(Row) 선택
print(df.loc[0]) # 인덱스 라벨을 사용한 선택
print(df.iloc[1]) # 인덱스 위치를 사용한 선택
- 새로운 열 추가
df['연봉'] = [5000, 6000, 7000]
print(df)
- 조건을 사용한 필터링
# 나이가 30세 이상인 데이터 필터링
filtered_df = df[df['나이'] >= 30]
print(filtered_df)
- 자주 사용되는 함수
함수명 | 설명 |
df.head(n) | 처음 n개의 행 출력 (기본값 5개) |
df.tail(n) | 마지막 n개의 행 출력 (기본값 5개) |
df.info() | 데이터프레임 요약 정보 출력 |
df.describe() | 숫자형 데이터에 대한 통계 요약 출력 |
df.drop(columns=[]) | 특정 열 삭제 |
df.sort_values() | 특정 열 기준으로 데이터 정렬 |
- 예시 데이터프레임 출력
이름 | 나이 | 도시 | 연봉 |
홍길동 | 25 | 서울 | 5000 |
김철수 | 30 | 부산 | 6000 |
이영희 | 35 | 대구 | 7000 |
• 왜 Pandas 데이터프레임을 사용해야 할까요? •
- 효율적인 데이터 분석 및 처리
- 결측치 및 이상치 처리 용이
- 다른 라이브러리(Numpy, Matplotlib 등)와의 강력한 통합성
- 복잡한 데이터 분석 작업을 간단하게 처리
반응형
'IT' 카테고리의 다른 글
2025년 Flutter 생태계, 어떤 패키지가 대세? (2) | 2025.04.02 |
---|---|
Flutter로 간단한 다크모드 앱 구현해보기 (0) | 2025.04.02 |
StatelessWidget과 StatefulWidget, 뭐가 다른 건데? (0) | 2025.04.01 |
Flutter vs React Native: 초보 개발자는 뭘 선택해야 할까? (0) | 2025.03.31 |
[Flutter] GetX, Navigation (0) | 2024.01.14 |