[Python] Pandas _ Time Series

✅ Data Load

# Data Load / Data type 파악

DataUrl = 'https://raw.githubusercontent.com/Datamanim/pandas/main/timeTest.csv'

df = pd.read_csv(DataUrl)

Ans = df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6574 entries, 0 to 6573
Data columns (total 13 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   Yr_Mo_Dy  6574 non-null   object 
 1   RPT       6568 non-null   float64
 2   VAL       6571 non-null   float64
 3   ROS       6572 non-null   float64
 4   KIL       6569 non-null   float64
 5   SHA       6572 non-null   float64
 6   BIR       6574 non-null   float64
 7   DUB       6571 non-null   float64
 8   CLA       6572 non-null   float64
 9   MUL       6571 non-null   float64
 10  CLO       6573 non-null   float64
 11  BEL       6574 non-null   float64
 12  MAL       6570 non-null   float64
dtypes: float64(12), object(1)
memory usage: 667.8+ KB

✅ Datetime type 변경

# Yr_Mo_Dy을 판다스에서 인식할 수 있는 datetime64타입으로 변경

df.Yr_Mo_Dy = pd.to_datetime(df.Yr_Mo_Dy)

Ans = df.Yr_Mo_Dy

Ans.head(4)

0   2061-01-01
1   2061-01-02
2   2061-01-03
3   2061-01-04
Name: Yr_Mo_Dy, dtype: datetime64[ns]

✅ year 의 unique 값 출력

# Yr_Mo_Dy에 존재하는 년도의 유일값을 모두 출력

Ans = df.Yr_Mo_Dy.dt.year.unique()

Ans

array([2061, 2062, 2063, 2064, 2065, 2066, 2067, 2068, 2069, 2070, 1971,
       1972, 1973, 1974, 1975, 1976, 1977, 1978])

✅ year 의 unique 값 출력

# Yr_Mo_Dy에 년도가 2061년 이상의 경우에는 모두 잘못된 데이터

# 해당경우의 값은 100을 빼서 새롭게 날짜를 Yr_Mo_Dy 컬럼에 정의

import datetime

def fix_century(x):

year = x.year - 100 if x.year >= 2061 else x.year

return pd.to_datetime(datetime.date(year, x.month, x.day))

df['Yr_Mo_Dy'] = df['Yr_Mo_Dy'].apply(fix_century)

Ans = df.tail(4)

Ans

✅ 년도별 각 컬럼의 평균값

Ans = df.groupby(df.Yr_Mo_Dy.dt.year).mean()

Ans.head(4)

✅ 요일별 Mapping

# weekday컬럼을 만들고 요일별로 매핑하라 (월요일: 0 ~ 일요일 :6)

df['weekday'] = df.Yr_Mo_Dy.dt.weekday

Ans = df['weekday'].to_frame()

Ans

✅ 년도별 각 컬럼의 평균값

# 년도, 일자 상관없이 모든 컬럼의 각 달의 평균 구하기

Ans = df.groupby(df.Yr_Mo_Dy.dt.month).mean()

Ans.head(4)

✅ 결측치 값 대체하기

# 모든 결측치는 컬럼기준 직전의 값으로 대체하고 첫 번째 행에 결측치가 있을경우 뒤에 있는 값으로 대체

df = df.fillna(method='ffill').fillna(method='bfill')

df.isnull().sum()

Yr_Mo_Dy    0
RPT         0
VAL         0
ROS         0
KIL         0
SHA         0
BIR         0
DUB         0
CLA         0
MUL         0
CLO         0
BEL         0
MAL         0
weekday     0
dtype: int64

✅ 컬럼의 평균값 구하기

# 년도 - 월을 기준으로 모든 컬럼의 평균값 구하기

Ans = df.groupby(df.Yr_Mo_Dy.dt.to_period('M')).mean()

Ans.head(3)

✅ 컬럼값 차분하기

# RPT 컬럼의 값을 일자별 기준으로 1차차분하기

Ans = df['RPT'].diff()

Ans

0        NaN
1      -0.33
2       3.79
3      -7.92
4       2.75
        ... 
6569    3.75
6570   -4.37
6571    0.79
6572    4.50
6573    1.83
Name: RPT, Length: 6574, dtype: float64

✅ 이동평균 값 구하기

# RPT와 VAL의 컬럼을 일주일 간격으로 각각 이동평균한 값 구하기

Ans = df[['RPT','VAL']].rolling(7).mean()

Ans.head(9)

✅ 미세먼지 Data Load

DataUrl = 'https://raw.githubusercontent.com/Datamanim/pandas/main/seoul_pm.csv'

df = pd.read_csv(DataUrl)

✅ datetime 형태로 변환

# 년-월-일:시 컬럼을 pandas에서 인식할 수 있는 datetime 형태로 변경하기

# 서울시의 제공데이터의 경우 0시가 24시로 표현

def Change_date(x):

import datetime

hour = x.split(':')[1]

date = x.split(":")[0]

if hour == '24':

hour = '00:00:00'

FinalDate = pd.to_datetime(date+" "+hour)+datetime.timedelta(days=1)

else:

hour = hour +':00:00'

FinalDate = pd.to_datetime(date+" "+hour)

return FinalDate

df['(년-월-일:시)'] = df['(년-월-일:시)'].apply(Change_date)

Ans = df

Ans.head(3)

✅ 일자별 영어요일 이름 저장

# 일자별 영어요일 이름을 dayName 컬럼에 저장하기

df['dayName'] = df['(년-월-일:시)'].dt.day_name()

Ans = df['dayName']

Ans.head(5)

0    Saturday
1    Saturday
2    Saturday
3    Saturday
4    Saturday
Name: dayName, dtype: object

✅ 일자별 각 PM10 등급의 빈도수 파악

# 일자별 각 PM10 등급의 빈도수 파악하기

Ans1 = df.groupby(['dayName','PM10등급'],as_index=False).size()

Ans1.head()

Ans2 = Ans1.pivot(index='dayName',columns='PM10등급',values='size').fillna(0)

Ans2

✅ 시간의 연속, 결측치 확인

# 시간이 연속적으로 존재하며 결측치가 없는지 확인하기

check = len(df['(년-월-일:시)'].diff().unique())

# 시간을 차분하면 첫 값은 nan, 이후 모든 차분값이 동일하면 연속이라 판단함

if check ==2:

Ans = True

else:

Ans = False

Ans

True

✅ 평균값 구하기

# 오전 10시와 오후 10시(22시)의 PM10의 평균값을 각각 구하기

Ans = df.groupby(df['(년-월-일:시)'].dt.hour)['PM10'].mean().iloc[[10,22]].to_frame()

Ans

✅ 날짜 컬럼을 Index 로 만들기

# 날짜 컬럼을 index로 만들기

df.set_index('(년-월-일:시)',inplace=True,drop=True)

Ans = df

Ans.head(3)

저작자표시 변경금지 (새창열림)

'Python' 카테고리의 다른 글

[Python]Pandas _ Merge, Concat (0)	2023.08.29
[Python] Pandas _ Pivot (0)	2023.08.24
[Python] Pandas _ Apply, Map (0)	2023.08.24
[Python] Pandas data 처리 (0)	2023.05.01
[Python] Pandas data: auto-mpg data 시각화 (0)	2023.04.30

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

🖐 열정이 무한한 개발자

[Python] Pandas _ Time Series

✅ Data Load

✅ Datetime type 변경

✅ year 의 unique 값 출력

✅ year 의 unique 값 출력

✅ 년도별 각 컬럼의 평균값

✅ 요일별 Mapping

✅ 년도별 각 컬럼의 평균값

✅ 결측치 값 대체하기

✅ 컬럼의 평균값 구하기

✅ 컬럼값 차분하기

✅ 이동평균 값 구하기

✅ 미세먼지 Data Load

✅ datetime 형태로 변환

✅ 일자별 영어요일 이름 저장

✅ 일자별 각 PM10 등급의 빈도수 파악

✅ 시간의 연속, 결측치 확인

✅ 평균값 구하기

✅ 날짜 컬럼을 Index 로 만들기

'Python' 카테고리의 다른 글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역

[Python] Pandas _ Time Series

✅ Data Load

✅ Datetime type 변경

✅ year 의 unique 값 출력

✅ year 의 unique 값 출력

✅ 년도별 각 컬럼의 평균값

✅ 요일별 Mapping

✅ 년도별 각 컬럼의 평균값

✅ 결측치 값 대체하기

✅ 컬럼의 평균값 구하기

✅ 컬럼값 차분하기

✅ 이동평균 값 구하기

✅ 미세먼지 Data Load

✅ datetime 형태로 변환

✅ 일자별 영어요일 이름 저장

✅ 일자별 각 PM10 등급의 빈도수 파악

✅ 시간의 연속, 결측치 확인

✅ 평균값 구하기

✅ 날짜 컬럼을 Index 로 만들기

'Python' 카테고리의 다른 글

'Python' Related Articles

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역