시계열 데이터 증강 - 데이터 분해 방법 (Decomposition Methods)
시계열 데이터를 분석하고 증강하는 데 사용되는 STL(Seasonal and Trend decomposition using Loess) 기법에 대해 알아보겠습니다. 시계열 데이터는 추세, 계절성, 잔차의 세 가지 주요 구성 요소로 분해될 수 있으며, 이를 활용한 다양한 증강 방법들을 소개하고자 합니다. Deterministic Method, Stochastic Method, Bootstrapped-based Method 등의 방법들을 통해 시계열 데이터의 다양성을 높이고 모델의 예측 능력을 개선하는 방법을 살펴볼 것입니다.
분해 방법 (Decomposition Methods)은 시계열 데이터를 Trend, Season, Remainder 로 분해하는 STL 기법을 활용한 증강 기법입니다. 시계열 데이터의 다양한 구성 요소를 개별적으로 조작하여 데이터의 다양성을 증가시키고, 모델의 일반화 능력을 향상시키는 데 유용합니다. 분해 방법 중 결정론적 방법(Deterministic Method), 확율적 방법(Stochastic Method), 부트스트랩 기반 방법(Bootstrapped-based Method) 세 가지에 대해서 설명하겠습니다.
결정론적 방법 (Deterministic Method)
이 방법은 시계열 데이터를 추세(Trend), 계절성(Season), 잔차(Remainder)로 분해한 후, 이들 각각의 구성 요소에 대한 가중치를 조절하여 새로운 데이터를 생성합니다. 예를 들어, 추세의 강도를 증가시키거나 감소시키는 것은 데이터의 장기적인 경향을 변경하는 효과를 가집니다. 계절성 패턴을 강화하면 계절적 변동이 더욱 두드러지게 만들 수 있습니다.
추세의 강도를 변화시키거나 계절성 패턴을 강화하는 방식으로 데이터를 증강 시킵니다.
- 추세(Trend)는 데이터에서 관찰되는 장기적인 증가나 감소의 패턴을 나타냅니다. 예를 들어, 경제 데이터에서 시간이 지남에 따른 경제 성장 추세를 생각해볼 수 있습니다.
- 계절성(Season)은 일정한 시간 주기를 가지고 반복되는 패턴입니다. 예를 들어, 연간, 월간 또는 주간 단위로 나타나는 온도 변화나 판매량 변화 등이 계절성 패턴의 예시입니다.
- 잔차(Remainder)는 추세와 계절성을 제외한 나머지 변동성을 의미합니다. 이는 데이터에서 추세나 계절성으로 설명되지 않는 무작위적이거나 불규칙한 변화를 포함합니다.
결정론적 방법에서는 이러한 각 구성 요소의 가중치를 조정합니다. 이는 구성 요소의 영향력을 늘리거나 줄여서 새로운 데이터 패턴을 만드는 방법입니다.
- 이러한 변형을 통해 생성된 새로운 데이터는 원본 데이터와는 다른 패턴을 가지게 됩니다. 이는 특히 시계열 모델의 강건성을 테스트하거나, 다양한 시나리오를 모델링하는 데 유용합니다.
결정론적 방법은 시계열 데이터의 기본적인 특성을 유지하면서도 다양성을 추가할 수 있는 효과적인 방법입니다.
- 이러한 변형을 통해 생성된 새로운 데이터는 원본 데이터와는 다른 패턴을 가지게 됩니다. 이는 특히 시계열 모델의 강건성을 테스트하거나, 다양한 시나리오를 모델링하는 데 유용합니다.
- 결정론적 방법은 시계열 데이터의 기본적인 특성을 유지하면서도 다양성을 추가할 수 있는 효과적인 방법입니다.
확률적 방법 (Stochastic Method)
이는 전차(Difference)를 기반으로 한 확률적 모델을 사용하여 새로운 데이터를 생성하는 방법입니다. 모델은 기존 데이터의 통계적 속성을 유지하면서 랜덤 요소를 추가하여 변형된 데이터를 생성합니다
- 전차(Difference)는 시계열 데이터에서 연속적인 데이터 포인트들 간의 차이를 나타냅니다. 이는 시계열 데이터의 특정 시점에서의 변화량을 측정하는 방법입니다.
- 전차를 기반으로 한 확률적 모델은 이러한 변화량을 활용하여 데이터의 미래 값을 예측하거나 새로운 데이터를 생성합니다. 모델은 기존 데이터 포인트 간의 변화량을 분석하고, 이를 기반으로 데이터의 다음 포인트를 예측합니다.
- 확률적 방법은 기존 데이터의 통계적 속성을 유지하는 것을 중요하게 여깁니다. 이는 데이터의 평균, 분산, 자기상관성과 같은 통계적 특성이 새로 생성된 데이터에도 반영된다는 것을 의미합니다.
확률적 모델은 일정한 무작위성을 도입하여 변형된 데이터를 만듭니다. 하지만, 생성된 데이터는 원본 데이터와 유사한 통계적 특성을 가지면서도, 원본 데이터에는 존재하지 않는 새로운 패턴이나 변동성을 포함할 수 있습니다.
부트스트랩 기반 방법 (Bootstrapped-based Method)
STL로 분해된 후 생긴 잔차에 대해 부트스트랩(Bootstrap) 방법을 적용합니다. 이는 잔차 데이터를 무작위로 재표집하여 새로운 데이터 세트를 생성하는 방식으로, 원본 데이터의 구조를 유지하면서 잔차의 변동성을 활용합니다.
STL(Seasonal and Trend decomposition using Loess) 방법을 통해 분해된 데이터의 잔차(residuals)를 활용합니다.
- 추세는 데이터의 장기적 변화 경향을 나타내고, 계절성은 정기적인 패턴을 표시합니다.
- 잔차는 추세와 계절성으로 설명되지 않는 나머지 부분으로, 데이터의 무작위적 변동성을 나타냅니다.
- 부트스트랩은 통계학에서 널리 사용되는 재표집(resampling) 방법입니다. 이 방법을 통해 기존 데이터셋에서 무작위로 샘플을 선택하고, 이를 사용하여 새로운 데이터 세트를 생성합니다.
- 부트스트랩을 잔차에 적용하면, 원본 데이터셋의 잔차 부분에서 랜덤하게 데이터 포인트를 추출하고, 이를 조합하여 새로운 잔차 데이터 세트를 만듭니다.
- 부트스트랩 방법으로 생성된 잔차 데이터 세트는 원본 데이터의 추세와 계절성 부분에 다시 추가됩니다. 이렇게 함으로써 원본 데이터의 기본 구조를 유지하면서도 새로운 변동성을 포함한 데이터가 생성됩니다.
부트스트랩 기반 방법은 원본 시계열 데이터의 기본 구조를 유지하면서도 잔차 데이터의 재표집을 통해 새로운 변동성을 도입합니다. 이 방법은 시계열 데이터의 다양성을 향상시키고, 모델이 다양한 시나리오와 불규칙한 데이터 변동성에 적응하도록 하는데 유용한 도구입니다. 이는 특히 데이터가 제한적이거나 불규칙한 변동성을 포함하는 경우에 도움이 될 수 있습니다.
살펴본 STL 기반의 증강 방법들은 시계열 데이터 분석에 있어 중요한 도구입니다. 결정론적 방법(Deterministic Method), 확율적 방법(Stochastic Method), 부트스트랩 기반 방법(Bootstrapped-based Method) 들을 통해 데이터의 다양성을 높이고, 모델의 일반화 능력을 향상시킬 수 있습니다. 이러한 기법들은 시계열 데이터를 보다 깊이 이해하고 정확하게 분석하는 데 도움이 될 것입니다.
"AI 예측 지식 창고"에서는 수요 예측과 가격 예측을 위한 머신러닝 및 딥러닝 기법과 데이터 소스를 모아놓았습니다. 이 블로그는 데이터 과학과 인공지능의 최전선에서 활용되는 다양한 알고리즘과 모델링 접근법을 소개하며, 특히 파이썬 Package 나 아마존 AWS 알로리즘을 활용한 수요 예측 또는 가격 예측의 실전 개발에 필요한 실용적인 지식과 가이드를 제공합니다. 방문자들은 여기에서 딥 러닝 시계열 예측 또는 머신 러닝 시계열 예측을 하기 위해 복잡한 시장 데이터를 해석하고, 예측 모델을 구축하는 방법을 배울 수 있습니다. 그리고, 주식 가격 예측, 주택 가격 예측, 농산물 가격 예측, 여러 가지 수요 예측에 대한 사례를 소개하고 있습니다."
'데이터 전처리' 카테고리의 다른 글
시계열 데이터 증강 - 학습 방법 (Learning Methods) (0) | 2023.11.20 |
---|---|
시계열 데이터 증강 - 통계적 생성 모델 (Statistical Generative Model) (0) | 2023.11.20 |
시계열 데이터 증강 - 시간&주파수 영역 (Time&Frequency domain) (0) | 2023.11.19 |
시계열 데이터 증강 - 주파수 영역 (Frequency Domain) (0) | 2023.11.19 |
시계열 데이터 증강 - 시간 영역 (Time Domain) (0) | 2023.11.19 |