Python 연습/1. Python 설치와 실습 - 아나콘다

Q_01_33. (참고)Pandas 가 제공하는 함수 살펴보기

Python통컨 2025. 3. 20. 17:24

판다스에서 제공하는 모든 함수와 메서드를 살펴보는 명령어는 dir() 함수와 함께 사용할 수 있습니다. 또한 판다스의 공식 문서를 참조하면 각 함수의 상세한 사용법을 확인할 수 있습니다.

1. Pandas 모듈에서 사용할 수 있는 함수 목록 확인

import pandas as pd
dir(pd)

2. DataFrame에서 사용할 수 있는 메서드 목록 확인

import pandas as pd
df = pd.DataFrame() # 빈 데이터프레임 생성
dir(df)

3. Series에서 사용할 수 있는 메서드 목록 확인

import pandas as pd
s = pd.Series() # 빈 시리즈 생성
dir(s)

이렇게 하면 판다스에서 사용할 수 있는 함수와 메서드 목록을 터미널에 출력하여 하나씩 확인할 수 있습니다. 각 함수에 대한 설명을 보려면 help() 명령어를 사용하면 됩니다.

4. 특정 함수의 사용법 확인

help(pd.DataFrame)
이 명령어는 pd.DataFrame 함수에 대한 설명과 사용법을 보여줍니다. 다른 함수들에 대해서도 동일하게 사용할 수 있습니다.

Pandas에서 자주 사용되는 주요 함수들을 범주별로 정리

Pandas는 데이터 처리와 분석에 유용한 다양한 함수를 제공합니다. 아래는 Pandas에서 자주 사용되는 주요 함수들을 범주별로 나눠서 정리한 것입니다.

1. 데이터 생성 및 변환

pd.DataFrame(): DataFrame 객체를 생성합니다.
pd.Series(): Series 객체를 생성합니다.
pd.read_csv(): CSV 파일을 읽어 DataFrame으로 변환합니다.
pd.read_excel(): Excel 파일을 읽어 DataFrame으로 변환합니다.
pd.to_datetime(): 문자열을 날짜 형식으로 변환합니다.
pd.concat(): 여러 DataFrame을 이어붙입니다.
pd.merge(): 두 개 이상의 DataFrame을 병합합니다.

2. 데이터 정보 확인

 
df.head(): 상위 n개의 데이터를 반환합니다.
df.tail(): 하위 n개의 데이터를 반환합니다.
df.info(): DataFrame의 요약 정보를 출력합니다.
df.describe(): 수치형 데이터의 통계 요약 정보를 제공합니다.
df.shape: DataFrame의 행과 열 개수를 반환합니다.
df.columns: 열 이름을 확인합니다.
df.index: 인덱스를 확인합니다.
df.dtypes: 열의 데이터 유형을 확인합니다.

3. 데이터 선택 및 필터링

df['column']: 특정 열을 선택합니다. df[['column1', 'column2']]: 여러 열을 선택합니다. df.loc[]: 레이블 기반으로 데이터를 선택합니다. df.iloc[]: 정수 위치 기반으로 데이터를 선택합니다. df[df['column'] > 값]: 조건을 만족하는 데이터를 필터링합니다. df.sample(): 임의의 샘플 데이터를 반환합니다.

### 4. 데이터 정렬 및 순서 변경
df.sort_values(by='column'): 특정 열을 기준으로 정렬합니다.
df.sort_index(): 인덱스를 기준으로 정렬합니다.
df.reset_index(): 인덱스를 초기화합니다.
df.set_index('column'): 특정 열을 인덱스로 설정합니다.

5. 결측값 처리

df.isnull(): 결측값 여부를 Boolean 형식으로 반환합니다.
df.notnull(): 결측값이 아닌 데이터 여부를 반환합니다.
df.dropna(): 결측값이 포함된 행이나 열을 삭제합니다.
df.fillna(): 결측값을 특정 값으로 대체합니다.

6. 데이터 그룹화 및 요약

df.groupby('column'): 특정 열을 기준으로 데이터를 그룹화합니다.
df.agg(): 여러 통계 함수를 한 번에 적용합니다.
df.mean(): 평균을 계산합니다.
df.sum(): 합계를 계산합니다.
df.count(): 값의 개수를 계산합니다.
df.median(): 중앙값을 계산합니다.
df.min(), df.max(): 최소값, 최대값을 계산합니다.

7. 데이터 변형

df.apply(): 특정 함수를 각 행 또는 열에 적용합니다.
df.map(): Series 객체에 함수를 적용하거나 매핑합니다.
df.applymap(): DataFrame의 각 요소에 함수를 적용합니다.
df.pivot_table(): 피벗 테이블을 생성합니다.
df.melt(): 여러 열을 하나로 합쳐서 긴 형태로 변환합니다.
df.crosstab(): 교차 테이블을 만듭니다.

8. 파일 입출력

 
df.to_csv(): DataFrame을 CSV 파일로 저장합니다.
df.to_excel(): DataFrame을 Excel 파일로 저장합니다.
df.to_json(): DataFrame을 JSON 형식으로 저장합니다.
df.to_sql(): DataFrame을 SQL 데이터베이스에 저장합니다.

9. 시간 관련 데이터 처리

pd.to_datetime(): 문자열을 날짜 형식으로 변환합니다.
df.resample(): 시간 데이터를 재샘플링합니다.
df.dt.year, df.dt.month, df.dt.day: 날짜/시간 데이터를 연도, 월, 일 단위로 분리합니다.

10. 고급 기능

df.pivot(): 데이터의 피벗을 수행합니다.
df.merge(): SQL 방식으로 데이터 병합을 수행합니다.
df.join(): 인덱스를 기준으로 두 DataFrame을 병합합니다.
df.rolling(): 이동 통계를 계산합니다.
df.expanding(): 확장 통계를 계산합니다.
df.corr(): 상관관계를 계산합니다.
df.cov(): 공분산을 계산합니다.

이러한 함수들을 조합하여 Pandas에서 강력한 데이터 분석 및 처리 작업을 수행할 수 있습니다.