Thursday, October 13, 2016

Moving Average Om Seisoenaliteit Verwyder

Sigblad implementering van seisoenale aanpassing en eksponensiële gladstryking Dit is maklik om seisoenale aanpassing voer en pas eksponensiële gladstryking modelle met behulp van Excel. Die skerm beelde en kaarte hieronder is geneem uit 'n sigblad wat is opgestel om multiplikatiewe seisoenale aanpassing en lineêre eksponensiële gladstryking op die volgende kwartaallikse verkope data van Buitenboord Marine illustreer: Om 'n afskrif van die sigbladlêer self te bekom, kliek hier. Die weergawe van lineêre eksponensiële gladstryking wat hier gebruik sal word vir doeleindes van demonstrasie is Brown8217s weergawe, bloot omdat dit geïmplementeer kan word met 'n enkele kolom van formules en daar is net een glad konstante te optimaliseer. Gewoonlik is dit beter om Holt8217s weergawe dat afsonderlike glad konstantes vir vlak en tendens het gebruik. Die vooruitskatting proses verloop soos volg: (i) die eerste keer die data is seisoenaal-aangepaste (ii) dan voorspellings gegenereer vir die seisoenaal-aangepaste data via lineêre eksponensiële gladstryking en (iii) Ten slotte het die seisoensaangesuiwerde voorspellings is quotreseasonalizedquot om voorspellings vir die oorspronklike reeks te verkry . Die aanpassingsproses seisoenale word in kolomme gedoen D deur G. Die eerste stap in seisoenale aanpassing is om te bereken 'n gesentreerde bewegende gemiddelde (hier opgevoer in kolom D). Dit kan gedoen word deur die gemiddelde van twee een-jaar-wye gemiddeldes wat geneutraliseer deur 'n tydperk relatief tot mekaar. ( 'N kombinasie van twee geneutraliseer gemiddeldes eerder as 'n enkele gemiddelde nodig vir sentrering doeleindes wanneer die aantal seisoene is selfs.) Die volgende stap is om die verhouding te bereken om bewegende gemiddelde --i. e. die oorspronklike data gedeel deur die bewegende gemiddelde in elke tydperk - wat hier uitgevoer word in kolom E. (Dit is ook die quottrend-cyclequot komponent van die patroon genoem, sover tendens en besigheid-siklus effekte kan oorweeg word om almal wat bly nadat gemiddeld meer as 'n geheel jaar se data. natuurlik, maand-tot-maand veranderinge wat nie as gevolg van seisoenale kan bepaal word deur baie ander faktore, maar die 12-maande-gemiddelde glad oor hulle 'n groot mate.) die na raming seisoenale indeks vir elke seisoen word bereken deur die eerste gemiddeld al die verhoudings vir daardie spesifieke seisoen, wat gedoen word in selle G3-G6 behulp van 'n AVERAGEIF formule. Die gemiddelde verhoudings word dan verklein sodat hulle som presies 100 keer die aantal periodes in 'n seisoen, of 400 in hierdie geval, wat gedoen word in selle H3-H6. Onder in kolom F, word VLOOKUP formules wat gebruik word om die toepaslike seisoenale indeks waarde in elke ry van die datatabel voeg, volgens die kwartaal van die jaar wat dit verteenwoordig. Die gesentreerde bewegende gemiddelde en die seisoensaangepaste data beland lyk soos hierdie: Let daarop dat die bewegende gemiddelde lyk tipies soos 'n gladder weergawe van die seisoensaangepaste reeks, en dit is korter aan beide kante. Nog 'n werkblad in dieselfde Excel lêer toon die toepassing van die lineêre eksponensiële gladstryking model om die seisoensaangepaste data, begin in kolom G. 'n Waarde vir die glad konstante (alfa) bo die voorspelling kolom ingeskryf (hier, in sel H9) en vir gerief dit die omvang naam quotAlpha. quot (die naam is opgedra deur die opdrag quotInsert / naam / Createquot.) die LES model is geïnisialiseer deur die oprigting van die eerste twee voorspellings gelyk aan die eerste werklike waarde van die seisoensaangepaste reeks toegeken. Die formule wat hier gebruik word vir die LES voorspelling is die enkel-vergelyking rekursiewe vorm van Brown8217s model: Hierdie formule is in die sel wat ooreenstem met die derde tydperk (hier, sel H15) aangegaan en kopieer af van daar af. Let daarop dat die LES voorspelling vir die huidige tydperk verwys na die twee voorafgaande waarnemings en die twee voorafgaande voorspelling foute, sowel as om die waarde van alfa. So, die voorspelling formule in ry 15 slegs verwys na data wat beskikbaar is in ry 14 en vroeër was. (Natuurlik, as ons wou eenvoudig in plaas van lineêre eksponensiële gladstryking te gebruik, kan ons die SES formule hier vervang in plaas. Ons kan ook gebruik Holt8217s eerder as Brown8217s LES model, wat nog twee kolomme van formules sou vereis dat die vlak en tendens bereken wat gebruik word in die vooruitsig.) die foute word bereken in die volgende kolom (hier, kolom J) deur die aftrekking van die voorspellings van die werklike waardes. Die wortel beteken kwadraat fout is bereken as die vierkantswortel van die variansie van die foute plus die vierkant van die gemiddelde. (Dit volg uit die wiskundige identiteit. MSE afwyking (foute) (gemiddeld (foute)) 2) By die berekening van die gemiddelde en variansie van die foute in hierdie formule, is die eerste twee periodes uitgesluit omdat die model vooruitskatting nie eintlik nie begin totdat die derde tydperk (ry 15 op die sigblad). Die optimale waarde van alfa kan óf gevind word deur die hand verander alfa tot die minimum RMSE is gevind, of anders kan jy die quotSolverquot gebruik om 'n presiese minimering. Die waarde van alfa dat die Solver gevind word hier (alpha0.471) getoon. Dit is gewoonlik 'n goeie idee om die foute van die model (in omskep eenhede) te plot en ook om te bereken en stip hul outokorrelasies by lags van tot een seisoen. Hier is 'n tydreeks plot van die (seisoenaangepaste) foute: Die fout outokorrelasies word bereken deur gebruik te maak van die funksie CORREL () om die korrelasies van die foute te bereken met hulself uitgestel word deur een of meer periodes - besonderhede word in die sigblad model . Hier is 'n plot van die outokorrelasies van die foute by die eerste vyf lags: Die outokorrelasies by lags 1 tot 3 is baie naby aan nul, maar die pen op lag 4 (wie se waarde is 0.35) is 'n bietjie lastig - dit dui daarop dat die seisoenale aanpassing proses het nie heeltemal suksesvol. Maar dit is eintlik net effens betekenisvol. 95 betekenis bands om te toets of outokorrelasies is aansienlik verskil van nul is min of meer plus-of-minus 2 / SQRT (N-k), waar n die steekproefgrootte en k is die lag. Hier N 38 en k wissel van 1 tot 5, so die vierkant-wortel-van-n-minus-k is ongeveer 6 vir almal, en vandaar die perke vir die toets van die statistiese betekenisvolheid van afwykings van nul is min of meer plus - of-minus 2/6, of 0.33. As jy die waarde van alfa wissel met die hand in hierdie Excel model, kan jy die effek op die tydreeks en outokorrelasie erwe van die foute in ag te neem, sowel as op die wortel-gemiddelde-kwadraat fout, wat onder sal wees geïllustreer. Aan die onderkant van die sigblad, is die voorspelling formule quotbootstrappedquot in die toekoms deur bloot vervang voorspellings vir werklike waardes by die punt waar die werklike data loop uit - d. w.z. waar quotthe futurequot begin. (Met ander woorde, in elke sel waar 'n toekomstige datawaarde sou plaasvind, 'n selverwysing is ingevoeg wat daarop dui dat die voorspelling gemaak vir daardie tydperk.) Al die ander formules is eenvoudig van bo af gekopieer: Let daarop dat die foute vir voorspellings van die toekoms is al bereken as nul. Dit beteken nie dat die werklike foute sal nul wees nie, maar eerder dit weerspieël bloot die feit dat vir doeleindes van voorspelling is ons veronderstelling dat die toekoms data die voorspellings sal gelyk gemiddeld. Die gevolglike LES voorspellings vir die seisoenaal-aangepaste data soos volg lyk: Met hierdie besondere waarde van Alpha, wat is optimaal vir een-periode-vooruit voorspellings, die geprojekteerde tendens is effens opwaarts, wat die plaaslike tendens wat oor die afgelope 2 jaar is waargeneem of so. Vir ander waardes van Alpha dalk 'n heel ander tendens projeksie verkry. Dit is gewoonlik 'n goeie idee om te sien wat gebeur met die langtermyn-tendens projeksie wanneer Alpha is uiteenlopend, omdat die waarde wat die beste vir 'n kort termyn vooruitskatting sal nie noodwendig die beste waarde vir die voorspelling van die meer verre toekoms wees. Byvoorbeeld, hier is die resultaat wat verkry word indien die waarde van alfa hand is ingestel op 0,25: Die geprojekteerde langtermyn-tendens is nou negatiewe eerder as positiewe Met 'n kleiner waarde van Alpha model plaas meer gewig op ouer data in sy skatting van die huidige vlak en tendens, en sy voorspellings langtermyn weerspieël die afwaartse neiging waargeneem oor die afgelope 5 jaar, eerder as die meer onlangse opwaartse neiging. Hierdie grafiek ook duidelik illustreer hoe die model met 'n kleiner waarde van Alpha is stadiger te reageer op quotturning pointsquot in die data en dus geneig is om 'n fout van die dieselfde teken maak vir baie tye in 'n ry. Die 1-stap-ahead voorspelling foute is groter gemiddeld as dié verkry voordat (RMSE van 34,4 eerder as 27.4) en sterk positief autocorrelated. Die lag-1 outokorrelasie van 0,56 oorskry grootliks die waarde van 0.33 hierbo bereken vir 'n statisties beduidende afwyking van nul. As 'n alternatief vir slingerspoed die waarde van alfa ten einde meer konserwatisme te voer in 'n lang termyn voorspellings, is 'n quottrend dampeningquot faktor soms by die model ten einde te maak die geprojekteerde tendens plat uit na 'n paar periodes. Die finale stap in die bou van die voorspelling model is om die LES voorspellings quotreasonalizequot deur hulle deur die toepaslike seisoenale indekse te vermenigvuldig. So, die reseasonalized voorspellings in kolom Ek is net die produk van die seisoenale indekse in kolom F en die seisoensaangepaste LES voorspellings in kolom H. Dit is relatief maklik om vertrouensintervalle bereken vir een-stap-ahead voorspellings gemaak deur hierdie model: eerste bereken die RMSE (wortel-gemiddelde-kwadraat fout, wat net die vierkantswortel van die MSE) en dan bereken 'n vertrouensinterval vir die seisoensaangepaste voorspel deur optelling en aftrekking twee keer die RMSE. (Oor die algemeen 'n 95 vertrouensinterval vir 'n een-tydperk lig voorspelling is min of meer gelyk aan die punt voorspelling plus-of-minus twee keer die geskatte standaardafwyking van die voorspelling foute, die aanvaarding van die fout verspreiding is ongeveer normale en die steekproefgrootte groot genoeg is, sê, 20 of meer. Hier is die RMSE eerder as die monster standaardafwyking van die foute is die beste raming van die standaard afwyking van toekomstige vooruitsig foute, want dit neem vooroordeel sowel toevallige variasies in ag.) die vertroue perke vir die seisoensaangepaste voorspelling is dan reseasonalized. saam met die voorspelling, deur hulle met die toepaslike seisoenale indekse te vermenigvuldig. In hierdie geval is die RMSE is gelyk aan 27.4 en die seisoensaangepaste voorspelling vir die eerste toekoms tydperk (Desember-93) is 273,2. sodat die seisoensaangepaste 95 vertrouensinterval is 273,2-227,4 218,4 te 273.2227.4 328,0. Vermenigvuldig hierdie perke deur Decembers seisoenale indeks van 68,61. Ons kry onderste en boonste vertroue grense van 149,8 en 225,0 rondom die Desember-93 punt voorspelling van 187,4. Vertroue perke vir voorspellings meer as een tydperk wat voorlê, sal oor die algemeen uit te brei as die voorspelling horison toeneem, as gevolg van onsekerheid oor die vlak en tendens asook die seisoenale faktore, maar dit is moeilik om hulle te bereken in die algemeen deur analitiese metodes. (Die geskikte manier om vertroue perke vir die LES voorspelling bereken is deur die gebruik van ARIMA teorie, maar die onsekerheid in die seisoenale indekse is 'n ander saak.) As jy 'n realistiese vertroue interval vir 'n voorspelling wil meer as een tydperk wat voorlê, met al die bronne van fout in ag, jou beste bet is om empiriese metodes gebruik: byvoorbeeld, 'n vertrouensinterval vir 'n 2-stap vorentoe voorspel verkry, jy kan 'n ander kolom skep op die sigblad om 'n 2-stap-ahead voorspelling bereken vir elke tydperk ( deur Opstarten die een-stap-ahead voorspelling). bereken dan die RMSE van die 2-stap-ahead voorspelling foute en gebruik dit as die basis vir 'n 2-stap-ahead vertroue interval.5.2 Smoothing Tyd Reeks Smoothing word gewoonlik gedoen om ons te help patrone beter te sien, tendense byvoorbeeld in die tyd reeks. Oor die algemeen glad die onreëlmatige ruheid om 'n duideliker sein sien. Vir seisoenale data, kan ons glad die seisoen, sodat ons die tendens kan identifiseer. Glad nie die geval is voorsien ons met 'n model, maar dit kan 'n goeie eerste stap in die beskrywing van die verskillende komponente van die reeks wees. Die term filter word soms gebruik om 'n glad prosedure beskryf. Byvoorbeeld, as die stryk waarde vir 'n bepaalde tyd word bereken as 'n lineêre kombinasie van waarnemings vir omliggende keer, dit kan gesê word dat weve toegepas n lineêre filter om die data (nie dieselfde as om te sê die resultaat is 'n reguit lyn, deur die manier). Die tradisionele gebruik van die term bewegende gemiddelde is dat by elke punt in die tyd wat ons bepaal (moontlik geweegde) gemiddeldes van waargenome waardes wat 'n bepaalde tyd omring. Byvoorbeeld, op tyd t. 'n gesentreerde bewegende gemiddelde lengte 3 met gelyke gewigte sal die gemiddelde waardes by tye t -1. t. en T1. Om seisoenaliteit weg te neem van 'n reeks, sodat ons kan beter sien tendens, sou ons 'n bewegende gemiddelde met 'n lengte seisoenale span gebruik. So in die stryk reeks, het elk stryk waarde is gemiddeld oor alle seisoene. Dit kan gedoen word deur te kyk na 'n eensydige bewegende gemiddelde waarin jy gemiddeld alle waardes vir die vorige jaar se data of 'n gesentreerde bewegende gemiddelde waarin jy waardes gebruik beide voor en na die huidige tyd. Vir kwartaallikse data, byvoorbeeld, ons kan 'n reëlmatige waarde vir tyd t as definieer (x t x t-1 x T-2 x t-3) / 4, die gemiddelde van hierdie tyd en die vorige 3/4. In R-kode sal dit 'n eensydige filter wees. A-gesentreerde bewegende gemiddelde skep 'n bietjie van 'n probleem wanneer ons 'n ewe getal van tydperke in die seisoenale span (soos ons gewoonlik doen). Om weg te stryk seisoenaliteit in kwartaallikse data. ten einde tendens te identifiseer, die gewone konvensie is om die bewegende gemiddelde stryk op tydstip t is om weg te stryk seisoenaliteit in maandelikse data gebruik. ten einde tendens te identifiseer, die gewone konvensie is om die bewegende gemiddelde stryk op tydstip t is wat deur gebruik gewig 1/24 pas ons om waardes by tye T6 en T6 en gewig 12/01 alle waardes te alle tye tussen T5 en T5. In die opdrag R filter, sowel spesifiseer 'n twee-sided filter wanneer ons wil waardes wat kom beide voor en na die tyd waarvoor was glad gebruik. Let daarop dat op bladsy 71 van ons boek, die skrywers gelyk gewigte van toepassing oor 'n gesentreerde seisoenale bewegende gemiddelde. Dis okay ook. Byvoorbeeld, kan 'n kwartaallikse gladder word stryk op tydstip t is frac x frac x frac xt frac x frac x A maandelikse gladder kan 'n gewig van 1/13 van toepassing op alle waardes van tye t-6 tot T6. Die kode van die skrywers gebruik op bladsy 72 maak gebruik van 'n rep bevel dat 'n waarde herhaal 'n sekere aantal kere. Hulle hoef te gebruik die parameter filter binne die opdrag filter. Voorbeeld 1 Kwartaallikse Beer Produksie in Australië in beide Les 1 en Les 4, het ons gekyk na 'n reeks kwartaallikse bier produksie in Australië. Die volgende R-kode skep 'n reëlmatige reeks waarmee ons sien die tendens patroon, en plotte hierdie tendens patroon op dieselfde grafiek as die tyd reeks. Die tweede opdrag skep en stoor die stryk reeks in die voorwerp genoem trendpattern. Let daarop dat binne die opdrag filter, die parameter genoem filter gee die koëffisiënte vir ons glad en kante 2 veroorsaak dat 'n gesentreerde glad te bereken. beerprod skandering (beerprod. dat) trendpattern filter (beerprod, filter c (1/8, 1/4, 1/4, 1/4, 1/8), sides2) plot (beerprod, Tipe B, hoof bewegende gemiddelde jaarlikse tendens ) lyne (trendpattern) Hier is die resultaat: Ons kan die tendens patroon van die datawaardes trek om 'n beter blik op die seisoen kry. Hier is hoe dit sou gebeur: seasonals beerprod - trendpattern plot (seasonals, Tipe B, hoof seisoenale patroon vir bier produksie) Die resultaat volg: Nog 'n moontlikheid vir glad reeks tendens sien is die eensydige filter trendpattern2 filter (beerprod, filter c (1/4, 1/4, 1/4, 1/4), sides1) Met hierdie, die stryk waarde is die gemiddeld van die afgelope jaar. Voorbeeld 2. VS Maandeliks werkloosheid in die huiswerk vir week 4 jy kyk na 'n maandelikse reeks VSA Werkloosheid vir 1948-1978. Hier is 'n smoothing gedoen om te kyk na die tendens. trendunemployfilter (werkloos, filterc (1 / 24,1 / 12,1 / 12,1 / 12,1 / 12,1 / 12,1 / 12,1 / 12,1 / 12,1 / 12,1 / 12, 1 / 12,1 / 24), sides2) trendunemploy ts (trendunemploy, begin c (1948,1), freq 12) plot (trendunemploy, mainTrend in die VSA Werkloosheid, 1948-1978, XLab Jaar) Slegs die reëlmatige tendens is geplot. Die tweede opdrag identifiseer die kalender tyd kenmerke van die reeks. Dit maak die plot het 'n meer betekenisvolle as. Die plot volg. Vir nie-seisoenale reeks, Arent jy gebind te stryk oor 'n spesifieke span. Vir glad moet jy eksperimenteer met bewegende gemiddeldes van verskillende strek. Diegene strek van die tyd kan relatief kort wees. Die doel is om af te klop die ruwe kante om te sien wat tendens of patroon daar mag wees. Ander Smoothing Metodes (Afdeling 2.4) Afdeling 2.4 beskryf verskeie gesofistikeerde en nuttige alternatiewe vir bewegende gemiddelde glad. Die besonderhede kan oppervlakkig lyk, maar dis okay, want ons dont wil kry vasgeval in baie besonderhede vir diegene metodes. Van die alternatiewe metodes in Afdeling 2.4 beskryf, kan lowess (plaaslik geweeg regressie) die mees algemeen gebruik. Voorbeeld 2 Voortgesette Die volgende plot is glad tendens lyn vir die VSA Werkloosheid reeks, bevind die gebruik van 'n lowess gladder waarin 'n aansienlike bedrag (2/3) het bygedra tot elke stryk skatting. Let daarop dat hierdie stryk die reeks meer aggressief as die bewegende gemiddelde. Die opdragte gebruik is werkloos ts (werkloos, begin c (1948,1), freq12) plot (lowess (werkloos, f 2/3), hoof Lowess smoothing van die Amerikaanse Werkloosheid Trend) Enkellopend Eksponensiële glad die basiese vooruitskatting vergelyking vir enkele eksponensiële gladstryking Daar word dikwels gegee as hoed Alpha xt (1-alfa) hoed t teks Ons voorspel die waarde van x in die tyd T1 'n geweegde kombinasie van die waargeneem waarde op tydstip t en die geskatte waarde op tydstip t wees. Hoewel die metode 'n glad metode, staan ​​bekend as die hoofsaaklik gebruik word vir 'n kort termyn vooruitskatting. Die waarde van die smoothing konstante genoem. Vir een of ander rede, 0.2 is 'n gewilde verstek keuse van programme. Dit plaas 'n gewig van 0,2 op die mees onlangse waarneming en 'n gewig van 1 0,2 0,8 op die mees onlangse skatting. Met 'n relatief klein waarde van, sal die smoothing relatief meer uitgebreide wees. Met 'n relatief groot waarde van die smoothing is relatief minder uitgebreide as meer gewig op die waargenome waarde gestel sal word. Dit is eenvoudig 'n stap vorentoe vooruitskatting metode wat met die eerste oogopslag blyk 'n model vir die data nie nodig. Trouens, hierdie metode is soortgelyk aan die gebruik van 'n ARIMA (0,1,1) model met geen konstante. Die optimale proses is om 'n ARIMA (0,1,1) model om die waargenome dataset pas en gebruik die resultate om die waarde van vas. Dit is 'n optimale in die sin van die skep van die beste vir die reeds waargeneem data. Alhoewel die doel is glad en 'n stap vorentoe voorspel, die ekwivalensie van die ARIMA (0,1,1) model bring 'n goeie punt. Ons behoort nie blindelings toepassing eksponensiële gladstryking omdat die onderliggende proses nie goed kan beskryf deur 'n ARIMA (0,1,1). ARIMA (0,1,1) en Eksponensiële Smoothing Ekwivalensie Oorweeg 'n ARIMA (0,1,1) met gemiddelde 0 vir die eerste verskille, xt - x t-1: begin hoed amp amp xt theta1 wt amp amp xt theta1 (xt - hat t) amp amp (1 theta1) xt - theta1hat geneig. As ons toelaat dat (1 1) en dus - (1) 1, sien ons die ekwivalensie vergelyking (1) hierbo. Hoekom die metode staan ​​bekend as eksponensiële Smoothing Dit lewer die volgende: begin hoed amp amp Alpha xt (1-alfa) Alpha X (1-alfa) hoed amp amp Alpha xt alfa (1-alfa) x (1-alfa) 2hat einde voort in hierdie mode deur agtereenvolgens vervang vir die geskatte waarde aan die regterkant van die vergelyking. Dit lei tot: hoed Alpha xt alfa (1-alfa) x alfa (1-alfa) 2 x kolle alfa (1-alfa) JX kolle alfa (1-alfa) x1 teks vergelyking 2 toon dat die voorspelde waarde is 'n geweegde gemiddelde van alle afgelope waardes van die reeks, met eksponensieel verander gewigte soos ons beweeg terug in die reeks. Optimale Eksponensiële Smoothing in R Eintlik het ons net pas 'n ARIMA (0,1,1) om die data en bepaal die koëffisiënt. Ons kan die pas van die gladde ondersoek deur 'n vergelyking van die voorspelde waardes van die werklike reeks. Eksponensiële gladstryking is geneig om meer as 'n voorspelling instrument as 'n ware gladder te gebruik, so soek om te sien of ons 'n goeie passing. Voorbeeld 3. N 100 maandelikse waarnemings van die logaritme van 'n olie-prysindeks in die Verenigde State van Amerika. Die data-reeks is: 'n ARIMA (0,1,1) pas in R het 'n MA (1) koëffisiënt 0,3877. So (1 1) 1,3877 en 1- -0,3877. Die eksponensiële gladstryking vooruitskatting vergelyking hoed 1.3877xt - 0.3877hat t Ten tye 100, die waargenome waarde van die reeks is x 100 0,86601. Die voorspelde waarde vir die reeks op daardie tydstip is dus die voorspelling vir die tyd 101 is hoed 1.3877x - 0.3877hat 1,3877 (0,86601) -0,3877 (0,856789) 0,8696 aanleiding is hoe goed die gladder pas die reeks. Dit is 'n goeie passing. Dis 'n goeie teken vir vooruitskatting, die hoofdoel van hierdie gladder. Hier is die instruksies wat gebruik word om die uitset vir hierdie voorbeeld te genereer: oilindex skandering (oildata. dat) plot (oilindex, Tipe B, hoof log olie-indeks Series) expsmoothfit ARIMA (oilindex, sodat c (0,1,1)) expsmoothfit om die ARIMA resultate sien predicteds oilindex - expsmoothfitresiduals voorspelde waardes plot (oilindex, typeb, hoof eksponensiële smoothing van log olie-indeks) lyne (predicteds) 1.3877oilindex100-0.3877predicteds100 voorspelling vir tyd 101 Double eksponensiële smoothing Double eksponensiële gladstryking gebruik kan word wanneer Theres tendens (hetsy lang termyn of kort termyn), maar daar is geen seisoenaliteit. In wese die metode skep 'n voorspelling deur die kombinasie van eksponensieel stryk skattings van die tendens (helling van 'n reguit lyn) en die vlak (basies, die afsnit van 'n reguit lyn). Twee verskillende gewigte, of glad parameters, word gebruik om hierdie twee komponente by elke keer op te dateer. Die stryk is min of meer gelykstaande aan 'n eenvoudige eksponensiële gladstryking van die datawaardes en die reëlmatige tendens is min of meer gelykstaande aan 'n eenvoudige eksponensiële gladstryking van die eerste verskille. Die prosedure is gelykstaande aan pas 'n ARIMA (0,2,2) model, met geen konstante trek hom af met 'n ARIMA (0,2,2) fiks uitgevoer kan word. (1-B) 2 xt (1theta1B theta2B2) wt. NavigationRemoving Daily Seisoenaliteit Terwyl ek oor die algemeen begin om te kyk na die web analytics data op 'n weeklikse of maandelikse vlak, daar is tye wanneer dit nuttig om deur te druk om die daaglikse nommers. Dit kan wees by die ondersoek van die rede vir 'n verandering in die data of bloot om die vorige day8217s prestasie te hersien. Maar 'n probleem ontstaan ​​wat kan maak dit moeilik om te interpreteer en te onttrek nuttige insigte uit hierdie daaglikse data. Die meeste statistieke, wanneer dit by die daaglikse vlak, bevat 'n vorm van die daaglikse seisoenaliteit. Dit is baie duidelik in statistieke soos besoeke, page views of verkope wat absolute getalle is. Daar is 'n re voorkom patroon regdeur die week met pieke en trôe op dieselfde dag / s per week. 'N Voorbeeld hiervan patroon kan gesien word in Figuur 1 hieronder. Terwyl dit maak geen grafiek mooi om na te kyk, dit maak dit moeilik om werklik tendense of spykers identifiseer in die data. Is 'n data punt hoë want daar was 'n skerp styging of omdat dit was 'n Maandag Dit is skoolvakansie, maar moet die aantal besoeke aan die een wat gesit regtig wees dat lae En natuurlik, watter dag het ons begin om die verkeer daling van en hoeveel sien van 'n verandering is dit regtig 'n algemene metode wat gebruik word om daaglikse seisoenaliteit verwyder is om die lyn glad met behulp van 'n bewegende gemiddelde. As dit is 'n weeklikse patroon, moet 'n sewe punt bewegende gemiddelde lei tot 'n mooi gladde lyn. Ongelukkig, soos gesien kan word in Figuur 2, dit beteken dat jy kry 'n mooi gladde lyn, wegkruip meeste van dié interessante spykers en stap veranderinge en algemene data tendense. Jy kan algehele tendense te sien, maar jy kan nie leer ken, veral dae wanneer 'n verandering plaasgevind het. Dit is ook moeilik om duidelik te identifiseer 'n verandering onmiddellik, soos elke dag net dra een-sewende vir elke datapunt. Wat ek raai doen in plaas is om die daaglikse seisoenaliteit van elke datapunt verwyder, wat lei tot 'n lyn wat nie deur watter dag van die week dit is. Die gebruik van hierdie metode beteken dat dit duidelik om te sien of die verrigting elke dag was goed of sleg. Byvoorbeeld, in figuur 3, dit kan gesien word dat die relatief ergste dag vir besoeke was eintlik die 25 Augustus, selfs al besoek vir daardie dag hoër as vir ander dae was tydens Die berig tydperk. Die tegniek vir die verwydering van die daaglikse seisoenaliteit kan elke dag toegepas word, wat beteken dat jy kan identifiseer en onmiddellik te reageer op 'n verandering in prestasie. Die probleem is dan in die berekening van die daaglikse seisoenaliteit oor 'n week. Dit kan behoorlik gedoen word met behulp van SPSS of 'n soortgelyke instrument, maar ek gebruik 'n vinnige hak tydelike oplossing in Excel dat, hoewel nie 100 akkurate, kry die werk gedoen. Die stappe om daaglikse seisoenaliteit vir 'n metrieke (met behulp van die voorbeelde van besoeke) bereken is soos volg, met die vertoon in figuur 4 voorbeeld: Uittreksel historiese daaglikse besoeke data. Jy sal ten minste 6 weke, meer nodig as die tydperk sluit in 'n bekende aantal faktore wat 'n impak op verkeer bv skoolvakansie, openbare vakansiedae, produk vrystellings, marketing, ens Herrangskik die data sodat elke kolom bevat 'n enkele week en elke ry bevat slegs data vir 'n bepaalde dag van die week. Herskep hierdie tabel sodat maar die besoeke per dag met die wat besoek vir daardie dag het bygedra tot die totale aantal besoeke vir daardie week te vervang. Voeg nog twee kolomme om die gemiddelde en mediaan te bereken vir elke ry van data. Verwyder al weke wat dae wat don8217t bevat weerspieël die algemene patroon. In hierdie voorbeeld weke 5 en 6 is geskrap. Op hierdie punt, moet die gemiddelde en die mediaan relatief soortgelyke vir elke dag van die week wees. Die daaglikse seisoenaliteit patroon word bereik deur die daaglikse gemiddelde vermenigvuldig met 7. Dit daaglikse seisoenaliteit patroon kan dan gebruik word vir die verwydering van die daaglikse seisoenaliteit vir daardie metrieke vir enige dag. Eenvoudig verdeel die waarde vir elke dag deur die betrokke daaglikse seisoenaliteit om dit te verwyder. Ek doen gewoonlik hierdie behulp van 'n VLOOKUP teen die dag van die week vir elke datum. Gaan terug na die rede vir webanalyse, kan jy hierdie tegniek gebruik om data skoon, sodat jy dadelik kan identifiseer goeie en slegte dae, of dit historiese data of net vir die voorafgaande dag. As jy hierdie gebruik vir historiese data, kan jy die interessante dae identifiseer om verder te ondersoek (speel met die segment). As jy met behulp van 'n deurlopende basis, kan jy dadelik sien watter prestasie was soos vir die vorige dag en as dit nodig is, te ondersoek en daarvolgens te reageer op 'n verandering. Op die oomblik, in staat te wees om hierdie soort ontleding te doen, moet jy die data te onttrek in Excel. Hopelik eendag, web analytics gereedskap sal jou toelaat om 'n daaglikse seisoenaliteit patroon oplaai vir 'n metrieke sodat jy die daaglikse data kan vertoon met hierdie seisoen verwyder. En my droom is 'n instrument wat die vermoë om die patroon vir 'n geselekteerde metrieke outomaties skep (met handleiding oor ritte vir die opstel van die kursus) sal insluit. Die ander belangrike gebruik wat ek gevind het vir 'n daaglikse seisoenaliteit patroon is dit gebruik kan word in die voorspelling van die daaglikse verkeer vlakke. As jy in staat is om te voorspel wat die week8217s verkeer moet wees, kan dit maklik vermenigvuldig met behulp van die daaglikse seisoenaliteit patroon verkeer voorspel op 'n daaglikse vlak. 'N Afskrif van die lêer Excel met al die data, kaarte en formules wat gebruik word in die voorbeelde hierbo kan hier 8211 Daily Seisoenaliteit lêer afgelaai word. Hierdie plasing is oorspronklik gepubliseer op AussieWebAnalys t op 26 November 8217088216Tis Die seisoensgebondenheid van jou statistieke 'n Paar poste terug, ek ondersoek 'n eenvoudige tegniek vir die gebruik van 'n eksponensiële bewegende gemiddelde (EMA) op jou tyd-reeks statistieke. Dit het die voordeel van gladstryking uit die statistieke, terwyl op dieselfde tyd die behoud van 'n 8220memory8221 van alle vorige waardes van die metrieke wat voor gekom. Dit het ook die newe-voordeel dat dit makliker is om as nuwe waardes te werk om jou statistieke beskikbaar raak. Hierdie keer, ek wil jou wys 'n tegniek om 'n ander algemene time-reeks probleem op te los: seisoenaliteit. Ja, jou statistieke is in Januarie, maar is dit die gewone post-vakansie verkope insinking Of is dit die begin van 'n ware verslechtering neiging wat jy nodig het om 'n ogie te hou oor die artikel hou 'n vinnige en maklike manier om te de-seasonalize illustreer jou data. Let8217s werk deur 'n voorbeeld stap vir stap: Verbeel we8217re werk by 'n sagteware maatskappy waar die onderneming-vlak produk het 'n taamlike lang verkope siklus, en ons metrieke is werklike rou doelskoppe tydens 'n kwart. As jy kyk na jou bekering verkope statistieke in die bogenoemde grafiek, hoe doen jy die afgelope tyd beter as 2010 So goed soos 2011 Here8217s die rou data: Stap 1: Versamel Statistieke Data Going Back ten minste 3 Full-Cycle tydperke vir die meeste mense, dit beteken kwartaallikse of maandelikse data terug te gaan drie jaar. Ja, jy kan weekliks of daagliks data gebruik, hoewel you8217ll gewoonlik wil hierdie inligting uit te stryk (cha-ching. Nog 'n groot gebruik vir die eksponensiële bewegende gemiddelde). En, needn8217t dit in die loop van 'n hele jaar indien die 8220seasons8221 jou data deur isn8217t gemeet deur die kalendermaande 8212 so as you8217re kyk na dag-van-die-week data, byvoorbeeld om te vergelyk hoe jou kliënte op te tree op Maandag teenoor Donderdag dan 'n goeie 8-12 weke van data sou 'n slim minimum wees. Stap 2: Vergelyk Soos Time-tydperke soos Time-Periodes Byvoorbeeld, kyk na al die Januarys, of al die Dinsdae, en bereken 'n gemiddelde. Hier, ek gebruik 'n eenvoudige gemiddelde eerder as die EMO. Omdat die EMO is ontwerp nuttig vir die tyd-reeks tydperk te wees in vergelyking agtermekaar 8212 vergelyk 'n Februarie tot die Januarie, voor hom 8212 en het we8217re dat hier nie te doen eerder, we8217re behandeling van die data as suiwer data, en ons einddoel is om pak die seisoenale time-reeks. Stap 3: Normalisering Vergelyk al hierdie gemiddeldes aan mekaar, en verdeel elk van die gemiddeldes van die gemiddelde van gemiddeldes, gelei tot 'n seisoenale aangepaste faktor vir daardie tydperk gemiddeld in vergelyking met die normale waarde, waarna verwys word as 8220normalization.8221 Dit is hoe ons 8220apples vergelyk met apples8221 oor verskeie jare en in die konteks van die hele seisoen van krag. Stap 4: Deel elke oorspronklike data Point deur sy seisoensaangepaste Factor Dit gee jou 'n effektiewe waarde vir daardie metrieke met die seisoenale komponent verwyder. Stap 5: Maak gevolgtrekkings Kyk na hierdie nuwe-de seasonalized data en onttrek gevolgtrekkings, indien enige, van dit. Noudat we8217ve afgetrek uit die seisoenaliteit van die verkope, is jou gevolgtrekkings enigsins anders kyk na die rooi, de-gesoute data, is dit seker lyk soos die 2012 lae is selfs laer as die einde van 2010, en die 2012 isn8217t naastenby so hoog as in 2011. Dit 'n konsternasie in die volgende verkope vergadering natuurlik moet veroorsaak, is daar 'n zillion voorbehoude hier. Is jou data selfs seisoenale in die eerste plek kyk na die blou lyn, die beste wat ons kan sê is 8220maybe8221 8212 it8217d wonderlik om meer inligting te hê. Miskien is 'n maandelikse uiteensetting van data in plaas van kwartaallikse.


No comments:

Post a Comment