I modelli ARIMA Introduzione XLMiner facilita l'analisi di set di dati tramite l'utilizzo di tecniche di tendenza di scoperta (autocorrelazione e autocorrelazione parziale) e metodi di modellazione complete (ARIMA e di livellamento esponenziale). ARIMA Autoregressive Integrated Moving Average-modello è uno dei metodi di modellazione più popolari utilizzati in previsione delle serie temporali, dovuto in gran parte alla sua attenzione per i dati utilizzando tecniche di autocorrelazione per realizzare modelli di alta qualità. XLMiner utilizza pienamente tutti gli aspetti dell'attuazione Arima, comprese le selezioni delle variabili, definizioni dei parametri non stagionali di stagione, e le opzioni avanzate come massimi di iterazione, output e le opzioni di previsione. ARIMA Modeling nel modello XLMiner Un ARIMA è un modello di regressione di tipo che include autocorrelazione. Quando si stima coefficienti Arima, l'assunto di base è che i dati sono significato stazionaria, il trend o stagionalità non può incidere la varianza. Questo non è generalmente vero. Al fine di ottenere i dati fissi, XLMiner deve richiedere differenziazione: ordinario, stagionale, o entrambi. Dopo XLMiner adatta al modello, vari risultati saranno disponibili. La qualità del modello può essere valutata confrontando la trama tempo dei valori reali con i valori previsti. Se entrambe le curve sono vicine, allora si può supporre che il modello è una buona misura. Il modello dovrebbe esporre tutte le tendenze e la stagionalità, se presenti. Successivo un'analisi dei residui dovrebbe trasmettere se il modello è una buona misura: residui casuali significa che il modello è accurata, ma se i residui presentano una tendenza allora il modello possono essere imprecisi. Montaggio di un modello ARIMA con i parametri (0,1,1) darà gli stessi risultati di livellamento esponenziale, mentre utilizzando i parametri (0,2,2) darà gli stessi risultati di doppio livellamento esponenziale. Come accedere alle impostazioni ARIMA in Excel Avviare Excel. Nella barra degli strumenti, fare clic su XLMINER PIATTAFORMA. Nella barra multifunzione fare clic ARIMA. Nel menu a discesa, selezionare ARIMA Model. ARIMA Riepilogo del modello ARIMA. Autoregressive Integrated Moving Average. Previsione modello utilizzato in analisi di serie temporali. ARIMA parametro Sintassi. ARIMA (p, d, q) dove p il numero di termini di auto-regressivo, d il numero di differenze non stagionali, e q il numero di muoversi termini medi. Time Series Esempio. Mostra un esempio di come un modello ARIMA può essere applicata. L'utilizzo delle serie storiche. Come utilizzare la funzionalità di analisi di serie temporali entro XLMiner. Smoothing modelli. Come tecniche di smoothing possono essere applicate a modelli di previsione di serie temporali. Guida in linea XLMiner. sistema di guida che copre le funzionalità all'interno del XLMiner module. GEOS 585A, Applied Time Series Analysis Telefono: (520) 621-3457 Fax: (520) 621-8229 Orario di ricevimento Venerdì, 1: 00-6: 00 PM (si prega di e-mail per programmare meeting ) strumenti Descrizione del corso analisi nel dominio del tempo e della frequenza vengono introdotti nel contesto delle serie temporali del campione. Io uso un set di dati di serie temporali di esempio per illustrare i metodi e modificare il set di dati ogni semestre il corso viene offerto. Quest'anno il set di dati campione proviene da un progetto NSF sulla variabilità del manto nevoso in American bacino del fiume della California. Questo set di dati comprende cronologie anelli degli alberi, indici climatici, record deflusso, e serie temporali di equivalente neve-acqua misurata presso le stazioni di neve portate. Sarà assemblare la propria serie temporali per l'utilizzo in corso. Questi potrebbero essere dal proprio progetto di ricerca. Torna ad inizio pagina Si tratta di un corso introduttivo, con enfasi su aspetti pratici di analisi di serie temporali. I metodi sono gerarchicamente introdotti - a partire con la terminologia e sperimentali grafica, di trasferirsi a statistiche descrittive, per finire con le procedure di modellazione di base. Gli argomenti includono l'eliminazione del trend, il filtraggio, la modellazione autoregressiva, analisi spettrale e la regressione. Si spendono le prime due settimane l'installazione di Matlab sul vostro computer portatile, ottenendo una introduzione al Matlab, e di montare il set di dati di serie storiche per il corso. Dodici temi, o lezioni vengono poi coperti, ciascuna con aggiudicazione di una settimana, o due ore di lezione. Dodici compiti in classe andare avanti con gli argomenti. Assegnazioni consistono in applicazione dei metodi per l'esecuzione di script Matlab pre-scritto (programmi) sulla serie storica e l'interpretazione dei risultati. Il corso 3 crediti per gli studenti del campus della University of Arizona a Tucson, e 1 credito per gli studenti on-line. Qualsiasi serie temporale con un incremento costante di tempo (ad esempio, giorno, mese, anno) è un candidato per l'uso nel corso. Esempi sono le misurazioni delle precipitazioni giornaliere, deflusso totale stagionale, estate temperatura media dell'aria, gli indici annuali di crescita degli alberi, indici di temperatura della superficie del mare, e l'incremento dell'altezza quotidiana di un arbusto. Come risultato di prendere il corso, si dovrebbe: comprendere i concetti di serie temporali di base e la terminologia in grado di selezionare i metodi di serie storiche adeguate agli obiettivi essere in grado di valutare criticamente la letteratura scientifica applicando i metodi di serie temporali coperti hanno una migliore comprensione delle proprietà delle serie temporali del vostro proprio insieme di dati in grado di riassumere in modo conciso risultati delle analisi di serie temporali per iscritto Prerequisiti una statistica corso introduttivo l'accesso a un computer portatile in grado di avere Matlab installato il permesso di istruttore (laureandi e studenti online) Altri requisiti Se siete su un dell'Università di Arizona (UA) studente nel campus a Tucson, si ha accesso a Matlab e cassette necessarie attraverso una licenza di sito UA come nessun software costo. Non è richiesta alcuna precedente esperienza con Matlab, e la programmazione di computer non è parte del corso. Se sei un on-line, non nel campus alla UA, si sarà in grado di seguire il corso nella primavera 2017 semestre come un iCourse. È necessario assicurarsi che si ha accesso a Matlab e le caselle degli strumenti necessari (vedi sotto) alla vostra posizione. L'accesso a internet. Non c'è scambio di carta in corso. Note e le assegnazioni vengono scambiati elettronicamente e le assegnazioni completati sono presentate per via elettronica attraverso la University of Arizona Desire2Learn sistema (D2L). Versione Matlab. Aggiorno script e funzioni di tanto in tanto con la versione corrente del sito-licenza di Matlab, e gli aggiornamenti potrebbero utilizzare Matlab non disponibili in precedenza Matlab rilascia. Per il 2017, sto usando Matlab versione 9.1.0.441655 (R2016b). Se si utilizza una versione precedente, assicurarsi che sia 2007b Matlab rilascio o superiore. In aggiunta al pacchetto principale Matlab, quattro caselle degli strumenti vengono utilizzati: statistiche, elaborazione del segnale, di identificazione del sistema, e sia Spline (Matlab 2010a uscita o precedente), o curve fitting (Matlab Stampa 2010b o poi) Disponibilità Il corso è offerto nella primavera del Semestre ogni due anni (2015, 2017, ecc.); E 'aperto a studenti laureati e può anche essere presa dagli anziani di laurea con il permesso dell'istruttore. L'iscrizione di studenti UA residenti è limitato a 18 per la primavera semestre 2017. Un piccolo numero di studenti online è stato anche di solito ospitati offrendo il corso in vari modi. Il modo in cui ora è il luogo iCourse sopra descritto. Torna all'inizio della pagina Struttura del corso (lezioni) Il programma permette di solito circa due settimane per la raccolta di dati e prendere familiarità con Matlab. Poi una settimana (due ore di lezione) sono dedicati a ciascuna delle 12 lezioni o argomenti. Classe incontra il Martedì e Giovedi. Un nuovo argomento viene introdotto il Martedì, ed è proseguito il seguente Giovedi. Classe di giovedì si conclude con un incarico e una dimostrazione di esecuzione dello script sui miei dati di esempio. L'assegnazione è dovuto (deve essere caricato da voi per D2L) prima classe Martedì seguente. La prima 12 ore di quella classe il martedì è utilizzato per guidare auto-valutazione e classificazione della cessione e il caricamento di valutati (graduate) le assegnazioni a D2L. I restanti 45 minuti sono utilizzati per introdurre l'argomento successivo. È necessario portare il vostro computer portatile in classe il martedì. Le 12 lezioni o argomenti trattati nel corso sono elencati nella struttura di classe. studenti online sono tenuti a seguire lo stesso programma di presentare le assegnazioni come gli studenti fuori sede, ma non hanno accesso alle lezioni. assegnazioni presentate di studenti online non sono auto-valutati, ma sono classificati da me. studenti online devono avere accesso a D2L per la presentazione delle assegnazioni. Primavera 2017 semestre. Class si riunisce due volte a settimana per 75 sessioni minute, 9: 00-10: 15 AM TTH, in camera 424 (Sala Conferenze) di Bryant Bannister Albero-Ring di costruzione (costruzione 45B). Il primo giorno di lezione è 12 gennaio (giovedì). L'ultimo giorno di classe è 2 maggio (martedì). Non vi è nessuna classe durante la settimana di Spring Break (11-19 marzo). Si analizzano i dati di propria scelta nei compiti in classe. Come indicato nella panoramica corso. c'è molta flessibilità nella scelta della serie temporale. Voglio fare un catalogo di adeguata serie di tempo a disposizione, ma è meglio concentrarsi il corso sul proprio set di dati. Il primo incarico prevede l'esecuzione di uno script che memorizza i dati e metadati che avete raccolto nel file di tappeto, il formato nativo di Matlab. Le successive assegnazioni traggono i dati dal file tappetino per l'analisi di serie temporali. Assegnazioni I 12 argomenti sono affrontati in sequenza nel corso del semestre, che copre circa 15 settimane. Circa le prime due settimane (4-5 incontri di classe) sono utilizzati per un certo materiale introduttivo, decidere e la raccolta vostra serie storiche, e preparando Matlab sul vostro computer portatile. Ogni settimana dopo che è dedicato a uno dei 12 argomenti del corso. Ogni assegnazione consiste nel leggere un capitolo di note, eseguendo uno script Matlab associata che si applica selezionato i metodi di analisi di serie temporali di dati, e scrivere la vostra interpretazione dei risultati. Assegnazioni richiedono la comprensione degli argomenti delle lezioni così come la capacità di utilizzare il computer e il software. Si invia assegnazioni caricandoli D2L prima classe Martedì, quando viene introdotto l'argomento successivo. La prima mezz'ora di quella classe Martedì è utilizzato per guidare l'autovalutazione del compito, compreso il caricamento di file PDF auto-classificato a D2L. Posso controllare uno o più dei compiti auto-classificato di ogni settimana (tramite la selezione casuale), e può cambiare il grado. Per scoprire come accedere assegnazioni, fare clic su File di assegnazione. Letture consistono in note di classe. Ci sono dodici tipi di. pdf Notes file. uno per ognuno degli argomenti del corso. Questi file. pdf è possibile accedere tramite il Web. Maggiori informazioni sui vari argomenti trattati nel corso può essere trovata attraverso riferimenti elencati alla fine di ogni capitolo di note di classe. Gradi si basano interamente sulle prestazioni sulle assegnazioni, ognuna delle quali vale 10 punti. Non ci sono esami. Il numero totale di punti possibili per i 12 argomenti è di 12 x 10 120. Un grado di A richiesta 90-100 percento dei possibili punti. Un grado di B richiede 80-90 per cento. Un grado di C richiede 70-80 per cento, e così via. I gradi sono assegnati da autovalutazione guidata da una rubrica presentato in classe. Il numero di punti guadagnati deve essere contrassegnato nella parte superiore di ogni assegnazione classificato. Il tuo markup della cessione dovrebbe includere l'annotazione di eventuali ribassi con riferimento ad un punto rubrica illustrato in classe (ad esempio, -0.5, rp3 indica la deduzione di -0.5 a causa di un errore relativo al punto 3 Rubrica) Assegnazioni, data in classe il Giovedi, volontà essere dovuto (caricato D2L dall'utente) prima dell'inizio della classe la seguente Martedì. La prima mezz'ora del periodo di incontro di martedì sarà dedicato alla presentazione di una rubrica di classificazione, di auto-valutazione del lavoro completato, e il caricamento delle assegnazioni auto-classificato a D2L. Questo programma ti dà 4 giorni per completare e caricare il compito di D2L prima 09:00 Martedì. D2L tiene traccia del tempo è stato caricato l'assegnazione, e nessuna penalità è valutato fino a quando viene caricato prima di 09:00 il Martedì della data di scadenza. Se avete qualche esigenza in programma di essere lontano dalla classe (ad esempio, la partecipazione ad una conferenza), si sono responsabili per caricare il tuo incarico prima di 09:00 il Martedì è dovuto, e per caricare la versione auto-classificato da 10:15 lo stesso giorno. In altre parole, il programma è la stessa per gli studenti che sono in classe. Se una situazione di emergenza viene in su (ad esempio, si ottiene l'influenza) e non può fare la cessione o la valutazione nei tempi previsti, vi prego di inviarmi una e-mail e arriveremo alcuni alloggi. In caso contrario, una penalità di 5 punti (la metà dei punti totali disponibili per l'esercizio) sarà valutata. Introduzione ai dati di serie organizzare il tempo per l'analisi una serie storica è ampiamente definito come qualsiasi serie di misure effettuate in tempi diversi. Alcune categorie descrittive di base della serie storica sono: 1) lungo vs breve, 2) anche il tempo-step vs irregolare time-step, 3) discrete vs continuo, 4) periodica vs aperiodico, 5) stazionario vs non stazionari, e 6) univariata vs multivariata . Queste proprietà nonché la sovrapposizione temporale più serie, devono essere considerate nella selezione di un insieme di dati per l'analisi in corso. Potrai analizzare la propria serie temporali nel corso. I primi passi sono per selezionare quelle serie e di memorizzarli in strutture in un file mat. Uniformità in deposito, in via preliminare è conveniente per questa classe in modo che l'attenzione può essere focalizzata sulla comprensione dei metodi di serie storiche piuttosto debug codice di computer per preparare i dati per l'analisi. Una struttura è una variabile Matlab simile a un database a che i contenuti sono accessibili tramite designatori campo testuali. Una struttura in grado di memorizzare i dati di forme diverse. Per esempio, un campo potrebbe essere una matrice serie temporale numerico, un altro potrebbe essere testo che descrive l'origine dei dati, ecc Nel primo incarico si eseguire uno script Matlab che legge la vostra serie tempo e metadati da file di testo ASCII a preparare in anticipo e memorizza i dati in strutture Matlab in un unico file tappetino. In successive assegnazioni si applicano i metodi di serie storiche ai dati mediante l'esecuzione di script e funzioni che caricare il file tappeto e operano su quelle strutture Matlab. Selezionare i dati campione da utilizzare per le assegnazioni durante il corso Read: (1) Notes1.pdf, (2) Per iniziare, accessibile dal menu di aiuto MATLAB Risposta: Eseguire lo script geosa1.m e rispondere alle domande elencate nel file in a1.pdf Come distinguere le categorie di serie storiche come avviare e chiudere MATLAB come immettere i comandi MATLAB al prompt dei comandi Come creare figure in finestra figura come esportare i dati per il vostro word processor Differenza tra gli script di MATLAB e funzioni come eseguire gli script e funzioni i sotto forma di una variabile di struttura MATLAB Come applicare la geosa1.m script per ottenere un insieme di serie temporali e metadati in strutture MATLAB la distribuzione di probabilità di una serie storica descrive la probabilità che una osservazione cade in un intervallo di valori specificato. Una distribuzione di probabilità empirica per una serie temporale può essere arrivato a di classificare e la classifica dei valori della serie. Quantili e percentili sono statistiche utili che possono essere prese direttamente dalla distribuzione di probabilità empirica. Molti test statistici parametrici assumono la serie storica è un campione da una popolazione con una particolare distribuzione di probabilità della popolazione. Spesso la popolazione viene considerata normale. Questo capitolo presenta alcune definizioni di base, statistiche e grafici relativi alla distribuzione di probabilità. Inoltre, un test (test Lilliefors) viene introdotto per verificare se un campione proviene da una distribuzione normale con media e varianza non specificata. Risposta: Eseguire lo script geosa2.m e rispondere alle domande elencate nel file di definizioni dei termini a2.pdf: serie storiche, stazionarietà, densità di probabilità, funzione distribition, quantile, diffusione, posizione, media, deviazione standard, e l'inclinazione Come interpretare la la maggior parte grafica preziosa analisi delle serie storiche - la trama serie storiche come interpretare il diagramma a riquadri, istogramma e normali parametri trama probabilità e la forma della prova standard Lilliefors distribuzione di normalità: descrizione grafica, ipotesi, nulla e alternativa ipotesi Caveat sull'interpretazione di livelli di significatività del test statistici quando le serie temporali non è casuale in tempo Come applicare geosa2.m per controllare le proprietà di distribuzione di una serie storica e testare la serie di normalità autocorrelazione si riferisce alla correlazione di una serie storica con il proprio passato e valori futuri. Autocorrelazione viene talvolta chiamato anche lag correlazione o correlazione seriale. che si riferisce alla correlazione tra i membri di una serie di numeri disposti nel tempo. autocorrelazione positiva può essere considerata una forma specifica di persistenza. una tendenza per un sistema di rimanere nello stesso stato da un'osservazione all'altra. Ad esempio, la probabilità di domani essere delle piogge è maggiore se oggi è piovoso che se oggi è asciutto. serie temporali Geophysical sono spesso autocorrelato a causa dei processi di inerzia o di riporto del sistema fisico. Ad esempio, i evolvono lentamente e si spostano sistemi di bassa pressione nell'atmosfera potrebbero conferire persistenza precipitazioni giornaliere. O il lento drenaggio delle riserve di acque sotterranee potrebbe impartire correlazione ai flussi annuali successivi di un fiume. O fotosintesi memorizzati potrebbero impartire correlazione con valori annuali successivi di indici anelli degli alberi. Autocorrelazione complica l'applicazione di test statistici riducendo il numero di osservazioni indipendenti. Autocorrelazione può anche complicare l'identificazione di covarianza significativa o correlazione tra le serie temporali (per esempio precipitazione con una serie anelli degli alberi). Autocorrelazione può essere sfruttato per le previsioni: una serie temporale autocorrelazione è prevedibile, probabilisticamente, perché i valori futuri dipendono dai valori attuali e passati. Tre strumenti per valutare l'autocorrelazione di una serie storica sono (1) la trama Time Series, (2) la dispersione ritardato, e (3) la funzione di autocorrelazione. Risposta: Eseguire lo script geosa3.m e rispondere alle domande elencate nel file in Definizioni a3.pdf: autocorrelazione, la persistenza, correlazione seriale, funzione di autocorrelazione (ACF), la funzione autocovarianza (ACVF), dimensione effettiva del campione Come riconoscere autocorrelazione nelle serie temporali tracciare Come utilizzare dispersione ritardati per valutare autocorrelazione come interpretare i tracciati ACF Come regolare la dimensione del campione per autocorrelazione definizione matematica dei Termini funzione di autocorrelazione che influenzano la larghezza della banda di confidenza calcolato dell'ACF la differenza tra una unilaterale e due Test - sided di notevole lag-1 autocorrelazione come applicare geos3.m per studiare l'autocorrelazione di una serie temporale lo spettro di una serie temporale è la distribuzione della varianza della serie in funzione della frequenza. L'oggetto della analisi spettrale è stimare e studiare spettro. Lo spettro contiene alcuna nuova informazione oltre che nella funzione autocovarianza (ACVF), e infatti la spettro può essere calcolata matematicamente dalla trasformazione del ACVF. Ma lo spettro e ACVF presentano le informazioni sulla varianza delle serie da punti di vista complementari. ACF riassume le informazioni nel dominio del tempo e lo spettro nel dominio della frequenza. Risposta: Eseguire lo script geosa4.m e rispondere alle domande elencate nel file in Definizioni a4.pdf: frequenza, periodo, lunghezza d'onda, spettro, frequenza di Nyquist, frequenze di Fourier, Motivi di larghezza di banda per l'analisi di uno spettro Come interpretare uno spettro tracciato in termini di distribuzione della varianza la differenza tra uno spettro e spettro normalizzato Definizione della finestra lag usati nella stima spettro dal metodo Blackman-Tukey come la scelta della finestra lag colpisce la larghezza di banda e la varianza dello spettro stimato come definire uno spettro di rumore bianco e lo spettro autoregressiva Come disegnare alcune forme spettrali tipiche: rumore bianco, autoregressivi,, a bassa frequenza quasi-periodico, ad alta frequenza Come applicare geosa4.m per analizzare lo spettro di una serie storica con il metodo Blackman-Tukey Autoregressive-Moving medio (ARMA) modellazione Autoregressive-media mobile modelli (ARMA) sono modelli matematici di persistenza, o di autocorrelazione, in una serie temporale. modelli ARMA sono ampiamente utilizzati in idrologia, dendrocronologia, econometria, e altri campi. Ci sono diversi motivi possibili per il montaggio modelli ARMA ai dati. Modellazione può contribuire alla comprensione del sistema fisico, rivelando qualcosa circa il processo fisico che costruisce la persistenza nella serie. Per esempio, un modello di acqua-equilibrio fisico semplice che consiste di termini per l'ingresso precipitazione, evaporazione, infiltrazione e stoccaggio sotterranee può essere dimostrato di produrre una serie streamflow che segue una particolare forma di modello ARMA. modelli ARMA possono anche essere utilizzati per prevedere il comportamento di una serie temporale da soli valori passati. Tale previsione può essere utilizzato come base per valutare possibile importanza di altre variabili del sistema. modelli ARMA sono ampiamente utilizzati per la previsione di serie storiche economiche e industriali. modelli ARMA possono anche essere utilizzati per rimuovere persistenza. In dendrocronologia, per esempio, ARMA modellazione viene applicata regolarmente per generare residua serie cronologie tempo di indice anello di larghezza, senza dipendenza da valori passati. Questa operazione, denominata prewhitening, è destinato a rimuovere la persistenza biologicamente legati dalla serie in modo che il residuo può essere più adatto per studiare l'influenza del clima e altri fattori ambientali esterni sulla crescita degli alberi. Risposta: Eseguire lo script geosa5.m e rispondere alle domande elencate nel file in a5.pdf La forma funzionale dei più semplici modelli AR e ARMA Perché tali modelli sono indicati come autoregressiva o media mobile I tre passi in ARMA modellare i modelli diagnostici del autocorrelazione e le funzioni di autocorrelazione parziale per un AR (1) serie temporali Definizione dell'errore di previsione finale (FPE) e come la FPE viene utilizzato per selezionare un migliore ARMA modello di definizione della statistica Portmanteau, e come esso e l'ACF dei residui può essere utilizzato per valutare se un modello ARMA efficacemente modelli la persistenza di una serie Come principio di parsimonia è applicata in ARMA modellazione Definizione prewhitening Come prewhitening influisce (1) l'aspetto di una serie temporale, e (2) lo spettro di una serie temporale Come applicare geosa5.m a ARMA-modello di una serie temporale analisi spettrale - metodo periodogramma lisciato ci sono molti metodi disponibili per la stima dello spettro di una serie storica. Nella lezione 4 abbiamo preso in considerazione il metodo Blackman-Tukey, che si basa sulla trasformazione del Fourier, la funzione autocovarianza troncato levigata. Il metodo periodogramma levigata elude la trasformazione della ACF da Fourier trasformazione diretta della serie temporale e calcolo del periodogramma grezzo, una funzione introdotta nel 1800 per lo studio delle serie storiche. Il periodogramma grezzo viene lisciata applicando combinazioni o campate di uno o più filtri per produrre lo spettro stimato. La scorrevolezza, la risoluzione e la varianza delle stime spettrali è controllata dalla scelta dei filtri. Un livellamento più accentuata del periodogramma grezzo produce un sottostante spettro senza intoppi o meno, o continuo nullo, contro il quale i picchi spettrali possono essere testati per la significatività. Questo approccio è un'alternativa alla specifica di una forma funzionale del continuum nullo (ad es spettro AR). Risposta: Eseguire lo script geosa6.m e rispondere alle domande elencate nel file in Definizioni a6.pdf: periodogramma grezzo, filtro Daniell, arco di filtro, null scorrevolezza continuità, la stabilità e la risoluzione dello spettro rastremazione, imbottitura, perdite Le quattro fasi principali nella stima lo spettro dalle periodogramma levigate Come l'effetto della scelta del filtro si estende sulla scorrevolezza, stabilità e la risoluzione dello spettro Come continuum null viene utilizzato nei test di significatività di picchi spettrali Come applicare geosa6.m per stimare lo spettro di un tempo serie con il metodo periodogramma levigata e test periodicità ad una tendenza frequenza specificata in una serie temporale è un lento, graduale cambiamento di alcune proprietà delle serie sull'intero intervallo in esame. Trend a volte è genericamente definito come un cambiamento a lungo termine nel mezzo (Figura 7.1), ma può anche riferirsi a cambiare in altre proprietà statistiche. Per esempio, la serie degli anelli degli alberi di larghezza dell'anello misurata spesso hanno una tendenza a varianza così come media (Figura 7.2). Nel tradizionale analisi di serie temporali, una serie storica è stata scomposta in tendenza, componenti stagionali o periodici, e le fluttuazioni irregolari, e le varie parti sono stati studiati separatamente. moderne tecniche di analisi spesso trattano la serie senza tale decomposizione di routine, ma considerazione separata di tendenza è ancora spesso richiesto. Eliminazione del trend è l'operazione statistica o matematica di rimozione tendenza della serie. L'eliminazione del trend è spesso applicata per rimuovere una funzionalità pensata per alterare o oscurare i rapporti di interesse. In climatologia, per esempio, un andamento della temperatura a causa del riscaldamento urbano potrebbe oscurare una relazione tra nuvolosità e temperatura dell'aria. L'eliminazione del trend è talvolta usato come un passo di pre-elaborazione per preparare serie temporali per l'analisi con metodi che assumono stazionarietà. Molti sono disponibili metodi alternativi per l'eliminazione del trend. Semplice tendenza lineare medio può essere rimosso sottraendo una retta minimi quadrati-fit. le tendenze più complesse potrebbero richiedere diverse procedure. Ad esempio, la spline smoothing cubica è comunemente usato in dendrocronologia da montare e smontare tendenza anello larghezza che potrebbe non essere lineare, o addirittura non monotona crescente o decrescente nel tempo. Nello studio e la rimozione tendenza, è importante capire l'effetto di eliminazione del trend sulle proprietà spettrali della serie temporale. Questo effetto può essere sintetizzato dalla risposta in frequenza della funzione di eliminazione del trend. Risposta: Eseguire lo script geosa7.m e rispondere alle domande elencate nel file di definizioni a7.pdf: risposta in frequenza, spline cubica, lisciando Pro spline e contro di rapporto vs differenza l'eliminazione del trend Interpretazione dei termini dell'equazione per il parametro spline Come scegliere un spline in modo interattivo da una risposta in frequenza desiderata Come lo spettro è influenzata dalla eliminazione del trend Come misurare l'importanza della componente di trend in una serie storica Come applicare geosa7.m di scegliere in modo interattivo una funzione spline l'eliminazione del trend e detrend una serie temporale lo spettro stimato di un tempo serie dà la distribuzione della varianza in funzione della frequenza. A seconda dello scopo di analisi, alcune frequenze possono essere di maggior interesse di altri, e può essere utile per ridurre l'ampiezza delle variazioni nelle altre frequenze filtrandoli statisticamente prima visualizzazione e analisi serie. Ad esempio, le alte frequenze (anno in anno) le variazioni in un record scarico calibrato di un bacino possono essere relativamente poco importante per l'approvvigionamento idrico in un bacino con grandi serbatoi che possono memorizzare diversi anni di deflusso medio annuo. Dove variazioni a bassa frequenza sono di interesse principale, è auspicabile per lisciare il record di scarico per eliminare o ridurre le fluttuazioni di breve periodo prima di utilizzare il record di scarico per studiare l'importanza di variazioni climatiche per l'approvvigionamento idrico. Smoothing è una forma di filtraggio che produce una serie temporale in cui l'importanza delle componenti spettrali ad alta frequenza viene ridotta. Ingegneria elettronica chiamano questo tipo di filtro un filtro passa-basso, perché le variazioni a bassa frequenza sono autorizzati a passare attraverso il filtro. In un filtro passa-basso, il (lungo periodo) onde a bassa frequenza malapena influenzati dalla levigatura. È anche possibile filtrare una serie così che le variazioni a bassa frequenza sono ridotti e le variazioni ad alta frequenza inalterati. Questo tipo di filtro è chiamato filtro passa-alto. L'eliminazione del trend è una forma di filtraggio passa-alto: la linea di tendenza a muro tiene traccia delle frequenze più basse, ed i residui dalla linea di tendenza hanno avuto quelle frequenze basse rimossi. Un terzo tipo di filtraggio, chiamato filtro passa-banda, riduce o filtra le frequenze alte e basse, e lascia un po 'di banda di frequenza intermedia relativamente inalterata. In questa lezione, copriamo diversi metodi di levigatura, o di filtro passa-basso. Abbiamo già visto come il smoothing spline cubica potrebbe essere utile per questo scopo. Quattro altri tipi di filtri sono discussi qui: 1) media mobile semplice, 2) binomiale, 3) gaussiana, e 4) a finestre (metodo Hamming). Considerazioni nella scelta di un tipo di filtro passa-basso sono la risposta desiderata frequenza e la durata, o larghezza, del filtro. Risposta: Eseguire geosa8.m sceneggiatura e rispondere alle domande elencati nel file di definizioni a8.pdf: filtro, pesi dei filtri, la portata del filtro, filtro passa-basso, filtro passa-alto, passa-banda di risposta in frequenza del filtro di un filtro Come gaussiana filtro è collegata alla distribuzione gaussiana Come costruire un semplice filtro binomiale manualmente (senza computer) Come descrivere la funzione di risposta in frequenza in termini di un sistema con ingresso e uscita sinusoidale Come applicare geosa8.m per progettare in modo interattivo una gaussiana, binomio o filtro passa-basso Hamming-finestra per una serie temporale il coefficiente di Pearson prodotto-momento di correlazione è probabilmente la statistica più utilizzato per riassumere la relazione tra due variabili. La significatività statistica e avvertimenti di interpretazione del coefficiente di correlazione applicata a serie temporali sono argomenti di questa lezione. In certe ipotesi, la significatività statistica di un coefficiente di correlazione dipende solo la dimensione del campione, definito come il numero di osservazioni indipendenti. Se serie di tempo sono autocorrelati, una dimensione del campione efficace, inferiore alla dimensione effettiva del campione, dovrebbe essere utilizzato al momento di valutare il significato. rapporti transitori o spurie possono produrre una correlazione significativa per alcuni periodi e non per gli altri. La variazione nel tempo della forza di correlazione lineare può essere esaminata con trame di correlazione calcolati per una finestra scorrevole. Ma se molti coefficienti di correlazione vengono valutati contemporaneamente, gli intervalli di confidenza devono essere regolati (aggiustamento Bonferroni) per compensare l'aumento della probabilità di osservare alcune correlazioni alte dove non esiste alcuna relazione. Interpretazione delle correlazioni scorrevole può essere anche essere complicata da variazioni temporali di media e la varianza della serie, come la correlazione scorrevole riflette covariazione in termini di partenze standardizzati da mezzi nella finestra temporale di interesse, che possono differire dai mezzi a lungo termine. Infine, va sottolineato che il coefficiente di correlazione di Pearson misura forza della relazione lineare. Grafici a dispersione sono utili per verificare se la relazione è lineare. Risposta: Eseguire geosa9.m sceneggiatura e rispondere alle domande elencati nel file in a9.pdf definizione matematica delle ipotesi coefficiente di correlazione e ipotesi per il test significato del coefficiente di correlazione come calcolare livello di significatività del coefficiente di correlazione e per regolare il livello di significatività per l'autocorrelazione in the individual time series Caveats to interpretation of correlation coefficient Bonferroni adjustment to signficance level of correlation under multiple comparisons Inflation of variance of estimated correlation coefficient when time series autocorrelated Possible effects of data transformation on correlation How to interpret plots of sliding correlations How to apply geosa9. m to analyze correlations and sliding correlations between pairs of time series Lagged relationships are characteristic of many natural physical systems. Lagged correlation refers to the correlation between two time series shifted in time relative to one another. Lagged correlation is important in studying the relationship between time series for two reasons. First, one series may have a delayed response to the other series, or perhaps a delayed response to a common stimulus that affects both series. Second, the response of one series to the other series or an outside stimulus may be smeared in time, such that a stimulus restricted to one observation elicits a response at multiple observations. For example, because of storage in reservoirs, glaciers, etc. the volume discharge of a river in one year may depend on precipitation in the several preceding years. Or because of changes in crown density and photosynthate storage, the width of a tree-ring in one year may depend on climate of several preceding years. The simple correlation coefficient between the two series properly aligned in time is inadequate to characterize the relationship in such situations. Useful functions we will examine as alternative to the simple correlation coefficient are the cross-correlation function and the impulse response function. The cross-correlation function is the correlation between the series shifted against one another as a function of number of observations of the offset. If the individual series are autocorrelated, the estimated cross-correlation function may be distorted and misleading as a measure of the lagged relationship. We will look at two approaches to clarifying the pattern of cross-correlations. One is to individually remove the persistence from, or prewhiten, the series before cross-correlation estimation. In this approach, the two series are essentially regarded on equal footing . An alternative is the systems approach: view the series as a dynamic linear system -- one series the input and the other the output -- and estimate the impulse response function. The impulse response function is the response of the output at current and future times to a hypothetical pulse of input restricted to the current time. Answer: Run script geosa10.m and answer questions listed in the file in a10.pdf Definitions: cross-covariance function, cross-correlation function, impulse response function, lagged correlation, causal, linear How autocorrelation can distort the pattern of cross-correlations and how prewhitening is used to clarify the pattern The distinction between the equal footing and systems approaches to lagged bivariate relationships Which types of situations the impulse response function (irf) is an appropriate tool How to represent the causal system treated by the irf in a flow diagram How to apply geos10.m to analyze the lagged cross-correlation structure of a a pair of time series Multiple linear regression Multiple linear regression (MLR) is a method used to model the linear relationship between a dependent variable and one or more independent variables. The dependent variable is sometimes also called the predictand, and the independent variables the predictors. MLR is based on least squares: the model is fit such that the sum-of-squares of differences of observed and predicted values is minimized. MLR is probably the most widely used method in dendroclimatology for developing models to reconstruct climate variables from tree-ring series. Typically, a climatic variable is defined as the predictand and tree-ring variables from one or more sites are defined as predictors. The model is fit to a period -- the calibration period -- for which climatic and tree-ring data overlap. In the process of fitting, or estimating, the model, statistics are computed that summarize the accuracy of the regression model for the calibration period. The performance of the model on data not used to fit the model is usually checked in some way by a process called validation. Finally, tree-ring data from before the calibration period are substituted into the prediction equation to get a reconstruction of the predictand. The reconstruction is a prediction in the sense that the regression model is applied to generate estimates of the predictand variable outside the period used to fit the data. The uncertainty in the reconstruction is summarized by confidence intervals, which can be computed by various alternative ways. Answer: Run script geosa11.m (Part 1) and answer questions listed in the file in a11.pdf The equation for the MLR model Assumptions for the MLR model Definitions of MLR statistics: coefficient of determination, sums-of-squares terms, overall-F for the regression equation, standard error of the estimate, adjusted R-squared, pool of potential predictors The steps in an analysis of residuals How to apply geosa11.m (part 1) to fit a MLR regression model to predict one variable from a set of several predictor variables Validating the regression model Regression R-squared, even if adjusted for loss of degrees of freedom due to the number of predictors in the model, can give a misleading, overly optimistic view of accuracy of prediction when the model is applied outside the calibration period. Application outside the calibration period is the rule rather than the exception in dendroclimatology. The calibration-period statistics are typically biased because the model is tuned for maximum agreement in the calibration period. Sometimes too large a pool of potential predictors is used in automated procedures to select final predictors. Another possible problem is that the calibration period itself may be anomalous in terms of the relationships between the variables: modeled relationships may hold up for some periods of time but not for others. It is advisable therefore to validate the regression model by testing the model on data not used to fit the model. Several approaches to validation are available. Among these are cross-validation and split-sample validation. In cross-validation, a series of regression models is fit, each time deleting a different observation from the calibration set and using the model to predict the predictand for the deleted observation. The merged series of predictions for deleted observations is then checked for accuracy against the observed data. In split-sample calibration, the model is fit to some portion of the data (say, the second half), and accuracy is measured on the predictions for the other half of the data. The calibration and validation periods are then exchanged and the process repeated. In any regression problem it is also important to keep in mind that modeled relationships may not be valid for periods when the predictors are outside their ranges for the calibration period: the multivariate distribution of the predictors for some observations outside the calibration period may have no analog in the calibration period. The distinction of predictions as extrapolations versus interpolations is useful in flagging such occurrences. Answer: Run script geosa11.m (Part 2) and answer questions listed in the file in a12.pdf Definitions: validation, cross-validation, split-sample validation, mean square error (MSE), root-mean-square error (RMSE) standard error of prediction, PRESS statistic, hat matrix, extrapolation vs interpolation Advantages of cross-validation over alternative validation methods How to apply geosa11.m (part 2) for cross-validated MLR modeling of the relationship between a predictand and predictors, including generation of a reconstruction and confidence bands Downloading Files -- tsfiles. zip The Matlab class scripts and user-written functions are zipped in a file called tsfiles. zip. To get the files, first create an empty directory on your computer. This is where you will store all functions, scripts and data used in the course. Go to D2L, or click on tsfiles. zip to download the zip file to that directory and unzip it there. When you run matlab, be sure that directory is your current matlab working directory. Powerpoint lecture outlines miscellaneous files. Downloadable file other. zip has miscellaneous files used in lectures. Included are Matlab demo scripts, sample data files, user-written functions used by demo scripts, and powerpoint presentations, as pdfs (lect1a. pdf, lect1b. pdf, etc.) used in on-campus lectures. I update other. zip over the semester, and add the presentation for the current lecture within a couple of days after that lecture is given. To run the Matlab scripts for the assignments, you must have your data, the class scripts, and the user-written Matlab functions called by the scripts in a single directory on your computer. The name of this directory is unimportant. Under Windows, it might be something like C:geos585a. The functions and scripts provided for the course should not require any tailoring, but some changes can be made for convenience. For example, scripts and functions will typically prompt you for the name of your input data file and present Spring17 as the default. That is because Ive stored the sample data in Spring17.mat. If you want to avoid having to type over Spring17 with the name of your own data file each time you run the script, edit the matlab script with the Matlab editordebugger to change one line. In the editor, search for the string Spring17 and replace it with the name of your. mat storage file (e. g. Smith2017), then be sure to re-save the edited script. Autocorrelation Function Note that 0 is the variance of the stochastic process. La funzione autocovarianza in ritardo k. per k 0, il tempo di serie è definita dalla funzione di autocorrelazione (ACF) a lag k. per k 0, della serie storica è definito da La varianza della serie storica è r 0. Un appezzamento di r k contro k è conosciuto come un correlogramma. Osservazione. La definizione di autocovarianza di cui sopra è un po 'diverso dal solito definizione di covarianza tra 1. , Y n-k e k 1. , Y n sotto due aspetti: (1) che dividere per n, invece di nk e sottraiamo la media globale al posto dei mezzi di 1. , Y n-k e k 1. , Y n, rispettivamente. Per valori di n che sono grandi rispetto a k. la differenza sarà piccolo. Esempio 1. Calcolare s 2 e r 2 per i dati nella gamma B4: B19 di figura 1. Figura 1 ACF al lag 2 Le formule di calcolo s 2 e r 2 utilizzando le usuali COVARIANCE. S e funzioni CORRELAZIONE sono mostrati in cellule G4 e G5. Le formule per s 0. s 2 e R 2 da Definizione 2 sono mostrati in cellule G8, G11 e G12 (insieme ad una formula alternativa in G13). Si noti che i valori di s 2 nelle cellule E4 e E11 non sono troppo differenti, come lo sono i valori di r 2 illustrato nelle cellule E5 ed E12 maggiore campione più è probabile che questi valori sarà simile Statistiche reale funzione. La risorsa pacchetto Ufficio Statistica fornisce le seguenti funzioni: ACF (R1, k) il valore ACF in ritardo k per la serie temporale nella gamma R1 ACVF (R1, k) il autcovariance in ritardo k per la serie temporale nella gamma R1 noti che ACF (R1, k) è equivalente a MATR. SOMMA. PRODOTTO (OFFSET (R1,0,0, COUNT (R1) - k) - AVERAGE (R1), OFFSET (R1, k, 0, COUNT (R1) - k) - AVERAGE (R1 )) DEV. Q (R1) di osservazione. Ci sono vantaggi teorici per l'utilizzo di divisione per N invece di nk nella definizione di s k. namely that the covariance and correlation matrices will always be definite non-negative (see Positive Definite Matrices ). Osservazione. Anche se la definizione di autocorrelazione è leggermente diversa da quella di correlazione, k (r k) prende ancora un valore compreso tra -1 e 1, come si vede nella proprietà 2. Esempio 2. Determinare l'ACF per lag 1 a 10 per la chiusura medie Dow Jones per il mese di ottobre 2015, come mostrato nelle colonne A e B di figura 2 e costruire corrispondente correlogramma. I risultati sono mostrati in Figura 2. I valori nella colonna E vengono calcolati ponendo l'ACF formula (B4: B25, D5) nella cella E5, evidenziando gamma E5: E14 e premendo Ctrl-D. Figura 2 ACF e Correlogramma Come si può vedere dai valori nella colonna E o il grafico, i valori di ACF scendono lentamente verso lo zero. Questo è tipico di un processo autoregressivo. Osservazione. Una regola empirica è quello di effettuare il processo di cui sopra per il ritardo da 1 a n 3 o n 4, che per i dati sopra è 224 o 6 223 7. Il nostro obiettivo è quello di vedere se da questo momento l'ACF è significativo (cioè statisticamente differenti da zero). Possiamo farlo utilizzando la seguente proprietà. Proprietà 3 (Bartlett): in grandi campioni, se una serie temporale di dimensione n è puramente casuale allora per ogni k Esempio 3. Determinare se il ACF al ritardo 7 è significativa per i dati dell'esempio 2. Come si può vedere dalla figura 3, il valore critico per il test in Proprietà 3 è 0,417,866 mila. Dal momento che r 7 .303809 lt 0,417,866 mila, si può concludere che non è significativamente diverso da zero. Figura 3 Bartletts test noti che i valori di k fino a 5 sono significativi e quelli superiori 5 non sono significativi. Una versione più potente statisticamente oggetto 4, soprattutto per piccoli campioni, è data dalla struttura successiva. Esempio 4. Utilizzare il Box-Pierce e statistiche Ljung-Box per determinare se i valori ACF nell'esempio 2 sono statisticamente pari a zero per tutti i GAL inferiore o uguale a 5 (l'ipotesi nulla). I risultati sono mostrati in Figura 4. Figura 4 Box-Pierce e Ljung-Box Test Vediamo da questi test che ACF (k) è significativamente diversa da zero per almeno un k 5, che è coerente con il correlogramma nella Figura 2. statistiche reali funzioni. La risorsa pacchetto Ufficio Statistica fornisce le seguenti funzioni per eseguire le prove descritte dalle proprietà di cui sopra. BARTEST (R, N, lag) p-value del test di Bartletts per coefficiente di correlazione r sulla base di una serie storica di dimensione n per il ritardo specificato. BARTEST (R1. Lag) BARTEST (r, n, lag) dove n il numero di elementi nella gamma R1 e R ACF (R1, lag) PIERCE (R1 ,, lag) Box-Pierce Q statistica per la gamma R1 e il ritardo specificato BPTEST (R1 ,, lag) p-value per il test di Box-Pierce per la gamma di R1 e il ritardo specificato LJUNG (R1 ,, lag) Ljung-Box Q statistica per la gamma R1 e il ritardo specificato LBTEST (R1 ,, lag) p - value per il test di Ljung-Box per la gamma di R1 e il ritardo specificato nelle funzioni di cui sopra in cui il secondo argomento non è presente, il test viene eseguito utilizzando il coefficiente di autocorrelazione (ACF). Se il valore assegnato invece è 1 o PACF allora il test viene eseguito utilizzando il coefficiente di autocorrelazione parziale (PACF) come descritto nella sezione successiva. In realtà se il secondo argomento assume un valore diverso da 1 o PACF, allora il valore di ACF viene utilizzato. Per esempio. BARTEST(.303809,22,7) .07708 for Example 3 and LBTEST(B4:B25,acf,5) 1.81E-06 for Example 4.
No comments:
Post a Comment