Python 연습/1. Python 설치와 실습 - 아나콘다
Q_01_31. 판다스란 무엇인가
Python통컨
2025. 3. 20. 17:23
판다스(Pandas)는 데이터 조작 및 분석을 위해 Python에서 널리 사용되는 오픈 소스 라이브러리입니다. 판다스는 구조화된 데이터를 다루는 데 최적화되어 있으며, 다양한 데이터 분석 기능과 데이터 처리를 쉽게 수행할 수 있도록 강력한 도구를 제공합니다.
주요 특징
1. 2가지 핵심 데이터 구조:
- Series: 1차원 배열 형태로, 인덱스를 포함한 데이터를 저장합니다. 리스트와 유사하지만, 레이블 기반으로 데이터를 참조할 수 있습니다.
- DataFrame: 2차원 테이블 형식의 데이터 구조로, 엑셀 시트와 비슷합니다. 행(row)과 열(column)에 각각 인덱스와 레이블을 지정할 수 있습니다.
2. 다양한 데이터 포맷 지원:
- CSV, Excel, JSON, SQL 등 다양한 파일 포맷을 손쉽게 읽고 쓸 수 있습니다.
3. 효율적인 데이터 처리:
- 필터링, 정렬, 집계 등 데이터 처리 작업을 빠르고 간단하게 수행할 수 있습니다.
- 대규모 데이터 세트를 효율적으로 다룰 수 있도록 최적화되어 있습니다.
4. 통합된 데이터 분석 도구:
- 결측치 처리, 데이터 병합/분리, 데이터 변환과 같은 데이터 전처리 기능 제공.
- 통계 계산과 같은 기본적인 데이터 분석 작업도 수행 가능.
5. 판다스의 주요 사용 사례
- 데이터 탐색 및 시각화를 위한 데이터 준비.
- 데이터 전처리(결측치 제거, 중복 제거, 데이터 정규화 등).
- 데이터 변환(피벗 테이블, 그룹화, 데이터 필터링 등).
- 데이터 분석 및 모델링 전 데이터 준비.
6. 간단한 예시
import pandas as pd
# 데이터프레임 생성
data = {
"Name": ["Alice", "Bob", "Charlie"],
"Age": [25, 30, 35],
"City": ["New York", "Los Angeles", "Chicago"]
}
df = pd.DataFrame(data)
# 데이터 보기
print(df)
# 열 선택
print(df["Age"])
# 행 선택
print(df.loc[0])
# 데이터 필터링
filtered_df = df[df["Age"] > 28]
print(filtered_df)
결과
Name Age City
0 Alice 25 New York
1 Bob 30 Los Angeles
2 Charlie 35 Chicago
0 25
1 30
2 35
Name: Age, dtype: int64
Name Alice
Age 25
City New York
Name: 0, dtype: object
Name Age City
1 Bob 30 Los Angeles
2 Charlie 35 Chicago
판다스는 데이터 분석가와 데이터 과학자가 데이터를 효율적으로 다루는 데 필수적인 도구로 자리 잡고 있습니다.