시계열 데이터 증강 - 주파수 영역 (Frequency Domain)
여기서는 데이터 증강 분야에서 활발하게 연구되고 있는 주파수 영역에 대해서 알아보겠습니다.
Amplitude & Phase Perturbations, Amplitude adjusted Fourier transform, 그리고 Short Term Fourier Transform 등과 같은 기법들을 자세히 설명한 예정입니다. 이 기법들은 시계열 데이터의 특성을 극대화하고, 더 정밀한 분석을 가능하게 하는 동시에 모델의 일반화 능력을 향상시키는 데 중요한 역할을 합니다.
Time-domain 보다 아직까지 기법의 수는 적지만, 최근에 많은 연구가 진행되고 있습니다.
주파수 영역을 구성하는 두 가지 스펙트럼
Amplitude Spectrum (진폭) : 주파수 영역에 대한 신호 값의 세기(진폭)을 나타내는 스펙트럼
Phase Spectrum (위상) : 주파수 영역이 어느 위치에서 시작하는지 대한 시간 축의 위치 정보를 담고 있는 스펙트럼
위상이란?
신호의 형태나 구조적인 특성을 나타내는 각도 정보를 말함
1. Amplitude & Phase Perturbations (APP)
Time-domain 증강 기법인 Perturbation(&Ensemble) 에서 설명되었듯이 Perturbation "교란"은 데이터에 작은 변화를 주어 다양성을 증가시키는 것을 의미입니다. 일부 Amplitude & Phase 값에 Gaussian Noise를 부여하는 방법입니다.
Amplitude Spectrum (진폭) 에는 일부 Amplitude 값에 대해 전체 데이터의 평균&분산 값을 갖는 Mean & variance Gaussian Noise를 부여합니다.
Gaussian Noise 이란?
통계학에서 자주 사용되는 노이즈 유형으로, 정규 분포(가우시안 분포, 수학자 가우스가 정규 분포를 만들었음)를 따르는 무작위 노이즈를 의미합니다.
Gaussian Noise를 데이터에 추가하면, 데이터가 원래 가지고 있던 패턴은 유지하면서 약간의 변동성이나 불확실성이 추가되는 효과가 있습니다. 이는 머신러닝 모델이 노이즈에 강건하게 작동하도록 하는 데 도움을 주며, 데이터 증강에서 자주 사용됩니다.
여기에서는 전체 데이터의 평균&분산 값을 갖는 Mean & variance Gaussian Noise 데이터 구성과 평균이 0인 가우시안(정규) 분포를 따르는 Zero-mean Gaussian Noise데이터 구성을 적용하였습니다.
2. Amplitude adjusted Fourier transform (AAFT)
Amplitude Adjusted Fourier Transform (AAFT)는 시계열 데이터를 증강 과정으로, 다음 세 단계를 포함합니다:
Fourier transform (푸리에 변환) 적용: 원본 Signal 데이터에 푸리에 변환을 적용하여 시간 영역에서 주파수 영역으로 변환합니다. 이를 통해 신호의 주파수 구성 요소와 각 구성 요소의 위상을 얻을 수 있습니다.
Phase Spectrum 의 무작위 위상 셔플 적용: 스펙트럼에 무작위로 위상을 셔플링합니다. 이 과정은 신호의 주파수 특성은 유지하면서 시간 축에서의 배열을 변경하여 신호의 구조를 재구성합니다.
역 Fourier 변환 및 순위 정렬 적용: 스펙트럼에 역 Fourier 변환을 적용하여 시간 영역으로 다시 변환합니다. 그 후, 원본 데이터의 순위 구조에 맞게 변환된 데이터의 순위를 조정하여 증강된 데이터를 생성합니다.
AAFT는 원본 데이터의 분포를 유지하면서도 시간적 구조를 변형시키는 증강 방법으로, 시계열 데이터의 다양성을 높이는 데 유용합니다.
Fourier 변환이란?
Fourier 변환은 시간 영역(time domain)의 신호를 주파수 영역(frequency domain)으로 변환하는 수학적 과정입니다. 시간 영역(time domain)의 신호를 주파수 영역(frequency domain)으로 변환한다는 것은, 신호가 시간에 따라 어떻게 변화하는지 보여주는 시간 기반의 표현에서, 해당 신호를 구성하는 다양한 주파수의 성분으로 분해하여 분석하는 것을 의미합니다. 즉, 이 변환은 신호가 시간 축에 따라 어떻게 진폭을 가지고 변화하는지 보여주는 대신, 그 신호를 구성하는 주파수별 성분과 그 성분의 강도(진폭)를 보여줍니다. 음악이나
이 변환을 통해 복잡한 신호를 여러 주파수 구성 요소로 분해하여 분석할 수 있습니다. Fourier 변환은 신호 처리, 음향학, 통신, 물리학 등 다양한 분야에서 신호의 특성을 이해하고 분석하는 데 널리 사용됩니다.
3. 단시간 푸리에 변환 (Short Term Fourier transform; STFT)
단시간 푸리에 변환(STFT)은 시간에 따라 변화하는 신호의 주파수 특성을 분석하는 방법입니다. 이 기법은 원본 신호를 작은 시간 단위로 나누어 각 구간에서의 주파수 스펙트럼을 분석합니다. 먼저, 사전에 정의된 시간 간격으로 신호를 윈도잉하여 각 구간을 분리한 다음, 각 윈도우에 대해 고속 푸리에 변환(FFT)을 수행합니다. 이를 통해 시간의 흐름에 따른 신호의 주파수 구성 요소와 그 변화를 파악할 수 있으며, 시간-주파수 영역에서 신호의 동적인 특성을 더 상세하게 이해할 수 있습니다.
오늘 우리가 살펴본 다양한 데이터 증강 기법들은 시계열 데이터를 더 효과적으로 분석하고 이해하는 데 큰 도움이 됩니다. Amplitude & Phase Perturbations, Amplitude adjusted Fourier transform, Short Term Fourier Transform 등은 각각의 방식으로 시계열 데이터에 대한 통찰력을 제공하며, 이를 통해 더 정확하고 강력한 예측 모델을 구축할 수 있습니다. 이러한 기법들을 통해 데이터 분석의 정밀도를 높이고, 보다 깊이 있는 데이터 인사이트를 얻을 수 있기를 바랍니다.
"AI 예측 지식 창고"에서는 수요 예측과 가격 예측을 위한 머신러닝 및 딥러닝 기법과 데이터 소스를 모아놓았습니다. 이 블로그는 데이터 과학과 인공지능의 최전선에서 활용되는 다양한 알고리즘과 모델링 접근법을 소개하며, 특히 파이썬 Package 나 아마존 AWS 알로리즘을 활용한 수요 예측 또는 가격 예측의 실전 개발에 필요한 실용적인 지식과 가이드를 제공합니다. 방문자들은 여기에서 딥 러닝 시계열 예측 또는 머신 러닝 시계열 예측을 하기 위해 복잡한 시장 데이터를 해석하고, 예측 모델을 구축하는 방법을 배울 수 있습니다. 그리고, 주식 가격 예측, 주택 가격 예측, 농산물 가격 예측, 여러 가지 수요 예측에 대한 사례를 소개하고 있습니다.
'데이터 전처리' 카테고리의 다른 글
시계열 데이터 증강 - 데이터 분해 방법 (Decomposition Methods) (0) | 2023.11.19 |
---|---|
시계열 데이터 증강 - 시간&주파수 영역 (Time&Frequency domain) (0) | 2023.11.19 |
시계열 데이터 증강 - 시간 영역 (Time Domain) (0) | 2023.11.19 |
시계열 데이터 증감의 어려움과 기법들 (0) | 2023.11.18 |
데이터 증강의 정의와 목적 (0) | 2023.11.18 |