시계열 데이터 증강 - 통계적 생성 모델 (Statistical Generative Model)
시계열 데이터 증강에 사용되는 통계적 생성 모델에 대해 알아보겠습니다. 이러한 모델들은 시계열 데이터의 복잡한 특성을 파악하고, 보다 정교한 데이터 증강을 위해 설계되었습니다. 간소화된 통계적 모델, LGT 기반 통계적 모델, MAR 기반 통계적 모델과 같은 다양한 방법들을 통해, 데이터의 다양성을 향상시키고, 예측 모델의 성능을 개선하는 방법을 살펴볼 것입니다.
통계적 생성 모델 (Statistical Generative Model) 은 시계열 데이터의 조건부 분포를 반영하여 데이터를 증강하는 방법입니다. 이 모델은 특정 시점(t)에서 생성된 데이터가 그 이전의 데이터 포인트에 의존한다고 가정합니다. 주로 사용되는 세 가지 방법은 다음과 같습니다.
간소화된 통계적 모델 (Parsimonious Statistical Model)
이 모델은 Mixture of Gaussian Tree(MoG)를 기반으로 한 통계적 모델입니다.
- Mixture of Gaussian Tree에서 "Tree"는 각 가우시안 분포를 트리 구조로 조직화하여 데이터의 계층적인 특성을 모델링할 수 있다는 점을 나타냅니다.
- 여러 개의 가우시안 분포들을 트리로 결합하여 데이터의 복잡한 분포를 모델링합니다. MoG 모델은 특히 데이터가 단일 가우시안 분포로 설명되기 어려운 경우에 유용하며, 데이터의 다양한 부분집합들이 각각 다른 통계적 특성을 갖는 경우에 적합합니다.
간소화된 통계적 모델은 소수 클래스에 대한 오버샘플링을 적용합니다. 하지만, 기존의 오버샘플링 방법과 달리 시계열 데이터 간의 상관관계를 고려합니다.
- 소수 클래스은 데이터셋에서 상대적으로 적은 수의 데이터 포인트를 가진 클래스를 의미합니다.
- 오버샘플링은 소수 클래스의 데이터 포인트 수를 인위적으로 늘리는 과정입니다. 이는 소수 클래스의 데이터를 복제하거나, 새로운 데이터 포인트를 생성하여 수행됩니다.
- 시계열 데이터의 경우, 데이터 포인트 간의 시간적 연속성과 상관관계가 중요합니다. 이런 특성을 고려한 오버샘플링은 단순히 데이터를 복제하는 것이 아니라, 시계열의 패턴과 특성을 유지하면서 새로운 데이터 포인트를 생성합니다.
간소화된 통계적 모델에서 Mixture of Gaussian Tree 같은 방법을 사용하면, 시계열 데이터의 다양한 통계적 특성을 모델링하고 이를 바탕으로 실제와 유사한 새로운 데이터 포인트를 생성할 수 있습니다. 이렇게 생성된 데이터는 원본 데이터의 패턴을 유지하면서도 소수 클래스의 데이터를 효과적으로 증가시킵니다.
LGT 기반 통계적 모델 (LGT-based Statistical Model)
LGT(Local and Global Trend)는 비선형 모델과 Student T-분포를 활용합니다.
- Student T-분포는 통계학에서 사용되는 확률 분포로, 정규 분포와 유사하지만 꼬리 부분이 더 두꺼운 특성을 갖습니다. 이는 작은 표본 크기에서 평균을 추정할 때 유용하게 사용됩니다. 꼬리 부분이 두꺼운 분포는 극단값을 더 잘 처리할 수 있어, 이상치나 극단적인 데이터 포인트에 더 강건합니다.
- 비선형 모델과 Student T-분포를 활용하여 데이터의 복잡한 동향과 이상치를 포함한 극단값을 더 효과적으로 모델링합니다. 예를 들어, 비선형 모델은 시계열 데이터의 복잡한 변동성을 모델링하는 데 사용되며, Student T-분포는 데이터에서 발생할 수 있는 예외적이거나 극단적인 값들을 더 잘 포함시켜 모델의 예측력을 향상시킵니다.
LGT 모델을 통해 계산된 매개변수와 예측 경로의 샘플을 사용하여 데이터를 증강합니다.
- LGT(Local and Global Trend) 모델은 시계열 데이터에서 지역적(local)과 전역적(global) 추세를 포착합니다. 이 모델은 데이터의 비선형적 특성과 장단기 패턴을 분석하여, 그에 해당하는 매개변수(모델의 파라미터)를 계산합니다.
- LGT 모델을 사용하여 예측을 수행하면, 미래의 데이터 포인트에 대한 여러 가능한 시나리오, 즉 '예측 경로이 샘플'이 생성됩니다. 이러한 예측 경로는 모델이 추정한 매개변수를 바탕으로 다양한 시뮬레이션을 통해 생성됩니다.
- 생성된 예측 경로의 샘플은 실제 데이터를 대체하거나 보완하는 데 사용될 수 있습니다. 예를 들어, 실제 데이터셋에 없는 새로운 데이터 포인트를 추가하거나, 기존 데이터를 변형시켜 데이터셋의 다양성을 증가시킵니다. 이는 특히 예측 모델의 강건성을 향상시키고, 다양한 시나리오에 대응할 수 있는 능력을 개선하는 데 도움을 줍니다.
- 즉, LGT 모델을 통해 생성된 예측 경로의 샘플을 활용하는 것은 기존 데이터에 대한 새로운 관점을 제공하고, 모델이 다룰 수 있는 데이터의 범위를 확장하는 방법입니다.
MAR 기반 통계적 모델 (MAR-based Statistical Model)
MAR(Mixture of Auto-regressive Model) 모델은 여러 자기회귀 모델의 혼합을 통해 시계열 데이터를 모델링하는 방법입니다. 이 모델은 시계열 데이터의 다양한 패턴과 동향을 포착할 수 있으며, 데이터의 내부 구조를 파악하는 데 사용됩니다.
MAR 모델을 사용하여 시계열 데이터 집합에 대한 시뮬레이션을 수행합니다. 이 과정에서는 모델이 추정한 매개변수를 바탕으로 실제 데이터와 유사한 새로운 시계열 데이터를 생성합니다. 이 시뮬레이션은 데이터의 다양한 가능한 시나리오를 탐색하고, 예측 모델의 성능을 테스트하는 데 사용될 수 있습니다.
시뮬레이션을 통해 생성된 데이터에서 통계적 정보를 분석합니다. 이러한 정보에는 데이터의 평균, 분산, 상관 관계 등이 포함될 수 있습니다. 또한, 이 과정에서 노이즈가 과도하게 부여된 데이터를 식별하고, 이를 적절한 방법으로 처리하여 복원합니다. 즉, 과도한 노이즈로 인해 왜곡된 데이터를 수정하여 보다 실제 데이터에 가깝게 만듭니다.
결론적으로, 이 과정은 MAR 모델을 활용하여 시계열 데이터의 복잡한 구조를 모델링하고, 그 결과로부터 유용한 통계적 인사이트를 얻으며, 데이터의 품질을 개선하는 데 도움이 됩니다.MAR 모델을 사용하여 시계열 데이터 집합에 대한 시뮬레이션을 수행하고 통계적 정보를 파악합니다.
살펴본 각각의 통계적 생성 모델들은 시계열 데이터를 깊이 있게 분석하고 증강하는 데 큰 도움이 됩니다. 이러한 모델들을 통해 생성된 데이터는 기존 데이터셋을 효과적으로 보완하며, 모델의 일반화 및 예측 능력을 향상시키는 데 중요한 역할을 합니다. 이러한 고급 분석 기법들은 데이터 과학자들에게 더욱 정확하고 신뢰할 수 있는 인사이트를 제공합니다.
"AI 예측 지식 창고"에서는 수요 예측과 가격 예측을 위한 머신러닝 및 딥러닝 기법과 데이터 소스를 모아놓았습니다. 이 블로그는 데이터 과학과 인공지능의 최전선에서 활용되는 다양한 알고리즘과 모델링 접근법을 소개하며, 특히 파이썬 Package 나 아마존 AWS 알로리즘을 활용한 수요 예측 또는 가격 예측의 실전 개발에 필요한 실용적인 지식과 가이드를 제공합니다. 방문자들은 여기에서 딥 러닝 시계열 예측 또는 머신 러닝 시계열 예측을 하기 위해 복잡한 시장 데이터를 해석하고, 예측 모델을 구축하는 방법을 배울 수 있습니다. 그리고, 주식 가격 예측, 주택 가격 예측, 농산물 가격 예측, 여러 가지 수요 예측에 대한 사례를 소개하고 있습니다."
'데이터 전처리' 카테고리의 다른 글
시계열 데이터 증강 - 학습 방법 (Learning Methods) (0) | 2023.11.20 |
---|---|
시계열 데이터 증강 - 데이터 분해 방법 (Decomposition Methods) (0) | 2023.11.19 |
시계열 데이터 증강 - 시간&주파수 영역 (Time&Frequency domain) (0) | 2023.11.19 |
시계열 데이터 증강 - 주파수 영역 (Frequency Domain) (0) | 2023.11.19 |
시계열 데이터 증강 - 시간 영역 (Time Domain) (0) | 2023.11.19 |