Sunday, January 8, 2017

Forex Pca

Sie haben ein multifaktorielles Modell, das als Input von 10 20 exogenen schwach stationären Variablen dient. Dann können Sie PCA verwenden, um nur 3 4 orthogonale Variablen zu erhalten, um Ihr Modell zu vereinfachen, ohne zu viele Informationen zu verlieren (es vielleicht zuerst 3 4 Hauptkomponenten erklären mehr als 90 der 10 20 ursprünglichen Variablen39 Gesamtabweichung). Zum Beispiel, technische Händler oft viel t. a. Indikatoren wie MACD, RSI, stochastische und so weiter: Es ist wahrscheinlich, dass die erste Hauptkomponente dieser Indikatoren mehr als 95 aller Indikatoren39 Varianz erklärt. Ndash Lisa Ann Mai 2 13 at 9:54 Um Ihre Fragen zu beantworten, müssen wir einen Blick darauf werfen, was es tut. PCA wird mathematisch als orthogonale lineare Transformation definiert, die die Daten in ein neues Koordinatensystem umwandelt, so daß Nachrichtenvektoren Orthogonale sind und den Hauptteil der Varianz des ersten Satzes erklären. Es nahmen eine N x M Matrix als Eingabe, N die differents Wiederholung des Experiments und M die Ergebnisse einer bestimmten Sonde. Es gibt Ihnen Anweisungen (oder Hauptkomponenten), die die Varianz Ihres Datasets erklären. So hängt alles davon ab, was Sie in Ihrem PCA eingeben. Ich verwende PCA, um auf Marktkorrelation zu schauen, also nehme ich M Preise über N Mal ein. Sie können Unterschiede messen (greeks, Futures.) Eines einzelnen Aktien eingeben, um einen Blick auf seine Dynamik. Meine Verwendung wird die Korrelation eines Aktienkurses mit dem Markt, bekannt als beta geben, wird die andere Verwendung geben Korrelation zwischen verschiedenen technischen Indikatoren einer Aktie. Und gut ich denke, Sie können einige interessante Ergebnisse mit differents Indikatoren über differents Aktien zu bekommen. Vergessen Sie nicht über die Vorverarbeitung. Wie Sie hier sehen können: Datensynchronisation gibt es einige heikle Probleme mit Marktdaten. Es hängt auch davon ab, was Sie mit Ihren Ergebnissen tun. Sie können ein Kriterium verwenden, um Komponenten mit geringer Varianz zu entfernen, um die Dimension Ihres Datasets zu reduzieren. Dies ist das übliche Ziel von PCA. Es gibt Ihnen eine reduzierte Anzahl von Aktien zu einem Portfolio zu bauen, um profitrisk Kurven zu schätzen. Aber Sie können auch komplexere Nachbehandlung. Hier: th-if. uj. edu. plactavol36pdfv36p2767.pdf Sie sehen eine Verwendung von PCA kombiniert mit zufälligen Matrix-Theorie, um das Rauschen des Marktes zu entfernen. PCA ist ein Werkzeug, ein sehr leistungsfähiges Werkzeug, aber nur ein Werkzeug. Ihre Ergebnisse hängt davon ab, wie Sie es verwenden. Das Risiko besteht darin, es zu viel zu benutzen. Sie wissen, was sie sagten, wenn Sie einen Hammer haben, sieht jedes Problem wie ein Nagel. WTI Futures-Kurvenanalyse mit PCA (Teil 1) Theoretisch sind die Rohöl-Zukunft Preise spiegeln die Marktteilnehmer Erwartung der künftigen Nachfrage und Angebot sowie ihre insgesamt Unsicherheit. Die Rohöl-Zukunft Markt ist ein interessanter Markt zu analysieren. Gesetze der Cost-of-Carry, Angebot und Nachfrage weiterhin gelten, aber das geopolitische Risiko belastet die relativen Preise. Historisch gesehen ist die Öl-Futures-Kurve oft in Backwardation, was bedeutet, höhere Preise für kurzfristige Verträge als für langfristige Verträge bedeutet. Dies wird oft durch einen theoretischen Begriff als Convenience-Ausbeute erklärt. Convenience-Rendite ist begrifflich ähnlich Dividenden im Eigenkapital, wo es den physischen Besitz der Aktie über die künftige Lieferung aufgrund der Dividendenzahlung Zahlungen begünstigt. Auf dem Rohölmarkt kann die Convenience-Rendite die Marktsorgen aufgrund der geopolitischen Bedenken und der Tendenz, die Rohstoffversorgung jetzt zu begünstigen, auf die zukünftige Ölversorgung (oder Auslieferung) hinweisen. In diesem Whitepaper wollen wir nicht in die theoretische Ökonomie der Preisveränderungen oder ihrer Spreads eingehen. Stattdessen werden wir die Tagespreise der ersten vier (4) Verträge von WTI-CL-Futures, die auf NYMEX notiert sind, untersuchen. Als nächstes wird unter Verwendung von Austauschregeln für den WTICL-Vertragshandel die Anzahl der Tage zum Liefermonat für jeden Vertrag berechnet, um die Futures-Kurve zu konstruieren. Schließlich werden wir die Hauptkomponentenanalyse (PCA) durchführen, um die Kerntreiber hinter den Futures-Kurvenveränderungen (d. H. Dem Niveau und der allgemeinen Form) aufzudecken. Warum sollten wir uns interessieren Der Öl-Zukunftsmarkt ist sehr komplex in seinem Entwurf, und in diesem Papier werden wir versuchen, die zugrunde liegenden Treiber, die in den täglichen relativen Preisen der verschiedenen Verträge zum besseren Verständnis und einer besseren Absicherung für ein Portfolio reflektiert werden, aufzudecken und zu vereinfachen Dieser Instrumente. Hintergrund Die allgemeine Nachfrage nach Erdölprodukten ist hochsaisonal und am stärksten während der Wintermonate, wenn Länder in der nördlichen Hemisphäre ihre Verwendung von destilliertem Heizöl und Restbrennstoffen erhöhen. Die Rohöllieferungen, einschließlich der Produktions - und Nettoimporte, zeigen ebenfalls eine ähnliche saisonale Variation, allerdings mit einer geringeren Größenordnung. Während der Sommermonate übersteigt das Angebot die Nachfrage und die Erdölvorräte bauen normalerweise, während im Winter die Nachfrage das Angebot übersteigt und die Bestände abgebaut werden. Infolgedessen zeigen Vorräte auch Saisonalität. In der Theorie werden die Futurespreise wie folgt berechnet: Zur Durchführung unserer Analyse werden wir den Logarithmus der künftigen Preise verwenden und das Protokoll der WTI-Spotpreise in den Datensatz aufnehmen. Als Nächstes berechnen wir das Netto der Zins-, Lager - und Convenience-Renditen (dh), die wie folgt ausgedrückt werden können: Man beachte, dass es theoretisch drei lose korrelierte Faktoren (Zins-, Lager - und Convenience-Jahresertrag) gibt Dass die Anwendung einer PCA-Art der Analyse nicht mehr als drei (3) Faktoren ergeben sollte. Datenvorbereitung In diesem Papier werden wir die Schlussmarken der unmittelbar vier (4) gehandelten NYMEX CL-Zukunftsverträge der EIA-Website verwenden. Darüber hinaus nutzen wir auch die Spotpreise für WTI-Rohöl in Cushing, OK (Lieferort für NYMEX-CL-Verträge) der EIA-Website. Um unseren Datensatz zu kompilieren, verwenden wir die Anzahl der Tage bis zum 1. Tag des Liefermonats als unseren Horizont (d. h. die unabhängige Variable der Zukunftskurve). Wir verweisen darauf als Tage-auf-Lieferung oder DTD. Nach der NYMEX-Produktspezifikation endet der Handel eines Rohöl-Zukunftsvertrages auf Basis der folgenden Regel (en): Der Handel im aktuellen Liefermonat endet am dritten Geschäftstag vor dem fünfundzwanzigsten Kalendertag des Monats Den Liefermonat fort. Ist der fünfundzwanzigste Kalendertag des Monats kein Geschäftstag, endet der Handel am dritten Geschäftstag vor dem letzten Geschäftstag, der am fünfundzwanzigsten Kalendertag beginnt. Für den Fall, dass sich der offizielle Wechselkursplan nach der Börsennotierung von Rohöl-Futures ändert, bleibt das ursprünglich verzeichnete Gültigkeitsdatum wirksam. Für den Fall, dass der ursprünglich aufgelistete Verfalltag zum Feiertag erklärt wird, wird der Verfall an den Geschäftstag unmittelbar vor der Nutzung der letzten Handelstagregeln verschoben. Wir bestimmen, wann der Frontkontrakt auf den folgenden Monatsvertrag umschaltet und somit den richtigen Wert berechnet Bis zum 1. Tag des Liefermonats. Für die Berechnung der Handelstage, die Anpassung für Wochenenden und Feiertage, nutzten wir die NumXL-Kalenderfunktionen mit dem USD-Kalender. Daher verwenden wir für jeden Handelstag die vier (4) Kontrakte, um eine Zukunftskurve zu erstellen (zukünftige Preise gegenüber der Anzahl der zu liefernden Tage (DTD)). Als nächstes interpolieren wir an jedem Tag unter Verwendung der zukünftigen Kurve oben die zukünftigen Preise für Lieferbedingungen von 10 Tagen bis zu 120 Tagen (12 Begriffe). Anhand der nachstehenden Formel transformieren wir die zukünftigen Preise in das Netto der Zins-, Lagerkosten - und Convenience-Rendite (zB) Am 29. April 2013 weist die WTI-Zukunftskurve eine buckelartige Kurve auf: Am selben Tag, die implizite (berechnete) Nettozins-, Lager - und Convenience-Rendite (NISC) für jeden Liefertermin, hat die folgende Form (Grafik unten). Obwohl die zukünftigen Preise zwischen 50-100 DTD flach bleiben, ist das zugrunde liegende Netto aus Zins-, Lager - und Convenience-Rendite aufgrund der Veränderung der Time-to-Delivery zu verzeichnen. Schließlich berechnen wir zwölf (12) Zeitreihen für die Nettozins-, Lager - und Convenience-Rendite (NISC) für Lieferbedingungen von 10 bis 120 Tagen. Zuerst wird die Korrelation zwischen den zwölf NISC-Eingangszeitreihen untersucht. Starten Sie den PCA-Assistenten, geben Sie Eingangsvariablen an und berechnen Sie die PCA-Statistik. PCA zeigt, dass die ersten beiden Hauptkomponenten (auch bekannt als Treiber) 98,7 der Gesamtvariation ausmachen, und die ersten drei Hauptkomponenten erfassen 99,9. Lets untersuchen die Belastungen dieser Fahrer in einem Versuch, eine praktische physische Proxy für sie zu finden. Für die erste Hauptkomponente: Die ersten PC-Belastungen (aka Begriffsstruktur) zeigen ein Muster ähnlich der Zinskurve: Contago kurzfristig und flach für längerfristig. Wir können an die erste Komponente als Proxy für den Zinssatz denken. Die zweite Hauptkomponente (aka Treiberbelastung) weist das folgende Muster auf: Dieses Muster ist dem PC1 ähnlich, mit Ausnahme des Knicks für 10 bis 20 Tage und der negativen Werte bis zu 50 Tagen. Dies kann als Proxy für die Bequemlichkeitsleistung angenommen werden. Kurzfristige Tenöre haben negative Werte, die dazu führen, dass die zukünftigen Preise steigen und möglicherweise eine Backwardation entstehen. Für längerfristige Tenöre ist der Wert positiv, wodurch der künftige Preis reduziert und die Backwardation verstärkt wird. Die dritte Hauptkomponente ist relativ schwer zu erklären: Können das die Lagerkosten pro Jahr sein Unwahrscheinlich, da die Belastung zwischen 20 und 70 Tagen zur Auslieferung negativ wird. Glücklicherweise sind seine Varianz und der Beitrag zur Gesamtvariation relativ klein. Schlussfolgerung In Summe haben wir festgestellt, dass die Nettozins-, Lager - und Convenience-Rendite (NISC) von WTI-Futures in erster Linie von zwei unkorrelierten Treibern angetrieben werden. Der erste Treiber weist eine Termstruktur ähnlich der Zinskurve auf, und der zweite Treiber wurde als Proxy für die Komfortausbeute angenommen. Warten Sie einen Augenblick: Kann ich ein Zinsinstrument (zB Eurodollar, Swaps, etc.) zur Absicherung des Zinsrisikos in meinem WTI - Futures - Portfolio einsetzen? In einem Folgepapier werden wir die LIBOR - Analyse und Feinabstimmung unserer Risikotreiber weiter, Isolierung der Lagerung und Convenience-Rendite aus dem Zinssatz. Warum kümmert sich Ein Portfolio von WTI-Futures-Kontrakten kann mit nur zwei (2) verschiedenen zukünftigen Kontrakten abgesichert (97,8 effektiv) für Nicht-Spot-Preisänderungen sein. Was ist mit Spot-Änderungen Was ist die Sicherungsration Wie oft re-balance die Hedge In einem Folge-Papier, diskutieren Sie die Absicherung in Bezug auf PCA in weiteren Details. Warum wir hier aufhören Es gibt viel Material hier zu schlucken, so dass wir entschieden haben, in diesem Stadium Pause, um Ihnen Gelegenheit, zu verdauen und sich mit unseren früheren Diskussion, und besser bereiten Sie für eine erweiterte Behandlung des Themas. Hauptkomponentenanalyse. Verwendung erweitert auf Finanzwirtschaft. Teil 1 Während ich für mein Finanzwirtschaftsprojekt arbeitete, stieß ich auf dieses elegante Werkzeug namens Principal Component Analysis (PCA), welches ein äußerst leistungsfähiges Werkzeug ist, wenn es darum geht, die Dimensionalität eines Datensatzes zu reduzieren, der aus hochkorrelierten Variablen besteht. Dieses Tool findet Mehrheit Anwendung in der genetischen Forschung. Die sich mit Datensätzen beschäftigt, die viele Variablen haben, die stark korreliert sind. Ich werde versuchen, so explizit und unterlassen Sie die Verwendung statistisch-mathematischen Jargons zu erklären, whathow über dieses Tool. Um einige stilisierte Fakten zu nennen, wird PCA hauptsächlich verwendet für: Komprimieren des Datenfilters etwas von dem Rauschen in den Daten Problematik: Ich versuchte, die Faktoren zu untersuchen, die die Renditen von Aktien im indischen Aktienmarkt beeinflussen, wie auch immer ich es wollte Berücksichtigen alle SampP CNX 500 Unternehmen. Was wäre wirklich nett, wenn ich irgendwie einen Weg finden könnte, die 500 Unternehmen in die Lage zu versetzen, nicht mehr als 2-3 Variablen zu sagen, die repräsentativ für den gesamten Satz von 500 Unternehmen sein können. Genau hier kommt PCA ins Spiel und macht einen fantastischen Job. Was es mir gibt ist nur eine Variable, die ich anstelle aller 500 Unternehmen nutzen kann. Hats off und ein Bogen der Respekt für die Contributorsdonors der Pakete an die CRAN-Server, dass die oben genannten Vereinfachung erreicht werden kann, mit nur einer Zeile von Skript in R. Sounds einfach, aber was man wirklich tun muss, ist zu verstehen, was PCA tut und wie Kann die Ausgabe dieses Skripts interpretiert werden. Auch auf die Gefahr einer übermäßigen Simplication (ich versuche aber schwer, mein Gebot der Einfachheit beizubehalten), würde ich auf eine grobe Weise die Arbeit von PCA veranschaulichen. Lassen Sie mich erklären, dies in Bezug auf das obige Beispiel, wenn ich ein PCA auf die Retouren Daten für die 500 Unternehmen tun, würde ich 500 wichtigsten Komponenten zu erhalten. Diese Komponenten sind nichts anderes als die lineare Kombination der vorhandenen 500 Variablen (Firmen), die in der absteigenden Reihenfolge ihrer Varianz angeordnet sind. So hat die 1. Hauptkomponente (PC) die maximale Varianz und die 500. Hauptkomponente (PC) die geringste Varianz. Die Varianz in der PCA stellt nur die Varianz in den Daten dar. So 1st PC erklärt die maximale Menge an Varianz in meine Daten. Ein magisches Merkmal von PCA ist, dass alle diese 500 Komponenten orthogonal zueinander sein werden, was bedeutet, dass diese Komponenten miteinander unkorreliert werden. Also im Wesentlichen, wenn wir PCA als Black Box betrachten, nimmt es Eingaben als Datensatz von hochkorrelierten Variablen und gibt als Ausgang PC8217s, die die Varianz in den Eingangsdaten erklären, und sie sind unkorreliert miteinander (I don8217t nutzen diese Funktion in diesem Das Problem ist, dass ich diese Verwendung in einem anderen Teil dieses Blogs veranschaulichen würde) Wie PCA es macht: Da ich ein Gelübde der Einfachheit genommen habe, habe ich hier nicht viel zu sagen :-) Allerdings für die mathematisch geneigten und sicherheitsfreaks wie Madhav . Diese Arbeit macht einen genialen Beitrag zur Veranschaulichung der Matrixalgebra, die hinter PCA-Berechnungen geht. Es gibt im Wesentlichen zwei Methoden zur Berechnung von PCA, die eine ist die Eigenwertzerlegung (getan mit dem Befehl princomp () in R) und die andere ist eine singuläre Wertzerlegung (erfolgt mit dem Befehl prcomp () unter Verwendung von R). Wie dies in R ausgeführt werden kann: Berechnen Hauptkomponente der Rendite von SampP CNX 500-Unternehmen Zugriff auf die relevanten Datei returns lt - read. csv (8220ReturnsCNX500.csv8221) Eine Einschränkung, die Sie beachten müssen, dass es keine 8220NA8221 Werte geben sollte In Ihrem Datensatz. Die Anwesenheit einer NA würde die Berechnung der var-covar-Matrix und damit ihrer Eigenvektoren beeinträchtigen (dh die Faktorbelastungen). Bei fehlenden Werten in den Retourendaten für Unternehmen für (i in 2: ncol (returns)) liefert return1, Lt-approx (returnsYear, returns1, i, returnsYear) y approx-Funktion passt grundsätzlich auf den Wert der linearen Näherung zwischen den fehlenden Datenpunkten und die Spalte y speichert die approximierten Werte. Konvertieren Sie die Daten in Matrix ret lt - as. matrix (returns1, nrow dim (returns1) 1, ncol dim (returns1) 2) Berechnen der Hauptkomponente unter Verwendung der Eigenwertzersetzung princ. return lt-princomp (ret) Das ist es. Identifizieren der zu verwendenden Komponenten barplot (heightprinc. returnsdev1: 10princ. returnsdev1) Ich gebe die Standardabweichung der PC8217s geteilt durch Standardabweichung von PC 1 auf, dies kann uns helfen, einen Benchmark zu bestimmen, den wir verwenden können, um die relevanten Komponenten auszuwählen . Standardabweichung der ersten 10 Komponenten gegenüber dem 1. PC Aus der obigen Abbildung geht deutlich hervor, dass der erste PC, wie erwartet, den Großteil der Varianzerklärung in den Retourendaten für die 500 Unternehmen ausführt. Wenn wir also Faktoren identifizieren wollen, die die Rendite von SampP CNX 500-Unternehmen beeinflussen, kann ich den ersten PC als Variable in meiner Regression verwenden. (Princ. return) Um die erste Hauptkomponente in einer variablen Last lt-loadings (princ. return) zu erhalten, werden 1 Ladungen geladen () Gibt die lineare Kombination an, mit der unsere Eingangsvariablen linear gewichtet werden, um die Komponenten zu berechnen, und dieser Befehl gibt uns die Belastung für den ersten PC. Pr. cp lt - ret load Matrix-Multiplikation der Eingangsdaten mit dem Laden für den 1. PC gibt uns den 1. PC in Matrixform. Pr lt - as. numeric (pr. cp) Gibt den ersten PC in numerischer Form in pr. Eine Frage, die aufgeworfen werden könnte, ist, warum nicht einfach die SampP CNX 500 Index Renditen als Eingabe in die Regression Die einfache Antwort auf diese Frage wäre, dass PC 1 gibt Ihnen ein relativ klares Signal der Rückkehr im Gegensatz zu dem Index, die wäre Haben eine Menge Lärm. Diese Frage hätte in den Jahren 19008217 Sinn gemacht, wenn die Technologie nicht so effizient in Bezug auf die Berechnung war. Seit nun rechnerischen Zeit und Mühe findet minimale Gewicht in jedem Forscher Geist gibt es keinen Grund für etwas anderes als das Beste zu begleichen. Es gibt eine wichtige Einschränkung, die im Auge behalten werden, während der Analyse mit PCA, obwohl PCA hat eine klare mathematische Intuition es fehlt eine wirtschaftliche Intuition. Das heißt, dass eine Einheitsänderung in PC 1 der Rückkehr eine mathematische Bedeutung hat, aber keine ökonomische Bedeutung ist, können Sie keinen Sinn für diese Aussage machen, dass PC 1 der Renditen für die 500 Unternehmen um 8220x8221 erhöht hat. Daher sollte die Verwendung dieser Analyse auf die Faktorenanalyse beschränkt und nicht auf die prädiktive Analyse ausgedehnt werden. Falls Sie die obige Übung wiederholen möchten, können Sie die Daten hier abrufen. Verpassen Sie kein Update Abonnieren Sie R-bloggers um E-mails mit den letzten R Beiträgen zu erhalten. (Diese Meldung wird nicht mehr angezeigt.)


No comments:

Post a Comment