Python 연습/1. Python 설치와 실습 - 아나콘다

Q_01_31. 판다스란 무엇인가

Python통컨 2025. 3. 20. 17:23

판다스(Pandas)는 데이터 조작 및 분석을 위해 Python에서 널리 사용되는 오픈 소스 라이브러리입니다. 판다스는 구조화된 데이터를 다루는 데 최적화되어 있으며, 다양한 데이터 분석 기능과 데이터 처리를 쉽게 수행할 수 있도록 강력한 도구를 제공합니다.

주요 특징

1. 2가지 핵심 데이터 구조:

  • Series: 1차원 배열 형태로, 인덱스를 포함한 데이터를 저장합니다. 리스트와 유사하지만, 레이블 기반으로 데이터를 참조할 수 있습니다.
  • DataFrame: 2차원 테이블 형식의 데이터 구조로, 엑셀 시트와 비슷합니다. 행(row)과 열(column)에 각각 인덱스와 레이블을 지정할 수 있습니다.

2. 다양한 데이터 포맷 지원:

  • CSV, Excel, JSON, SQL 등 다양한 파일 포맷을 손쉽게 읽고 쓸 수 있습니다.

3. 효율적인 데이터 처리:

  • 필터링, 정렬, 집계 등 데이터 처리 작업을 빠르고 간단하게 수행할 수 있습니다.
  • 대규모 데이터 세트를 효율적으로 다룰 수 있도록 최적화되어 있습니다.

4. 통합된 데이터 분석 도구:

  • 결측치 처리, 데이터 병합/분리, 데이터 변환과 같은 데이터 전처리 기능 제공.
  • 통계 계산과 같은 기본적인 데이터 분석 작업도 수행 가능.

5. 판다스의 주요 사용 사례

  • 데이터 탐색 및 시각화를 위한 데이터 준비.
  • 데이터 전처리(결측치 제거, 중복 제거, 데이터 정규화 등).
  • 데이터 변환(피벗 테이블, 그룹화, 데이터 필터링 등).
  • 데이터 분석 및 모델링 전 데이터 준비.

6. 간단한 예시

 
import pandas as pd

# 데이터프레임 생성
data = {
    "Name": ["Alice", "Bob", "Charlie"],
    "Age": [25, 30, 35],
    "City": ["New York", "Los Angeles", "Chicago"]
}
df = pd.DataFrame(data)

# 데이터 보기
print(df)

# 열 선택
print(df["Age"])

# 행 선택
print(df.loc[0])

# 데이터 필터링
filtered_df = df[df["Age"] > 28]
print(filtered_df)

결과

      Name  Age         City
0    Alice   25     New York
1      Bob   30  Los Angeles
2  Charlie   35      Chicago

0    25
1    30
2    35
Name: Age, dtype: int64

Name      Alice
Age          25
City    New York
Name: 0, dtype: object

      Name  Age         City
1      Bob   30  Los Angeles
2  Charlie   35      Chicago

판다스는 데이터 분석가와 데이터 과학자가 데이터를 효율적으로 다루는 데 필수적인 도구로 자리 잡고 있습니다.