Les données de séries chronologiques sont une séquence d’observations collectées à intervalles réguliers. Ce format structuré permet aux scientifiques et aux outils de visualisation des données d’analyser les modèles et les relations qui se développent au fil du temps.
Qu’est-ce qu’une série chronologique ?
Les données de séries temporelles font référence à une série de points de données ordonnés dans le temps. Elles introduisent une dépendance d’ordre entre un ensemble d’observations. Les séries temporelles sont omniprésentes dans le monde d’aujourd’hui, dominé par les données. Comme chaque événement suit la flèche du temps, nous sommes en interaction constante avec diverses données de séries temporelles.
Les séries temporelles sont généralement supposées être générées à des intervalles de temps réguliers et sont appelées séries temporelles régulières. Toutefois, les données de ces séries temporelles ne sont pas nécessairement générées à intervalles réguliers. Ces cas englobent les séries temporelles irrégulières où les données suivent une séquence temporelle phasée. Cela implique que les mesures peuvent ne pas se produire à intervalles réguliers.
Cependant, les données peuvent être générées à des intervalles de temps discrets ou en rafale. Les retraits aux guichets automatiques ou les dépôts sur les comptes sont des exemples de séries temporelles irrégulières.
Techniquement, dans une série chronologique, une ou plusieurs variables changent au cours d’une période donnée. Si une seule variable varie dans le temps, on parle de série temporelle univariée. Prenons l’exemple d’un capteur qui mesure la température d’une pièce toutes les secondes. Dans ce cas, seule une valeur de température unidimensionnelle est générée à chaque instant (c’est-à-dire à chaque seconde).
Au contraire, lorsque plus d’une variable change au fil du temps, on parle de série temporelle multivariée. Prenons l’exemple de l’économie bancaire. Dans ce cas, les séries temporelles multivariées sont utilisées pour comprendre comment les changements de politique d’une variable, comme le taux des prises en pension, peuvent affecter d’autres variables (par exemple, l’octroi de prêts pour les banques commerciales).
Les données de séries temporelles trouvent leur application dans toutes les disciplines, de la finance à la géologie, en passant par la météorologie, la fabrication, l’informatique, l’IdO et les sciences physiques et sociales. Elles sont utilisées pour suivre les changements météorologiques, le taux de natalité, le taux de mortalité, les fluctuations du marché, la performance des réseaux et bien d’autres applications. Certains de ses principaux cas d’utilisation comprennent la surveillance, la prévision et la détection d’anomalies.
Par exemple, les prévisions de séries temporelles jouent un rôle essentiel dans la popularité des systèmes de gestion de bases de données. La figure ci-dessous montre la popularité croissante des SGBD au cours des années (2019-2021) sous la forme d’un graphique de séries temporelles.
Composants clés des données de séries temporelles
Les facteurs qui influencent les valeurs d’une observation dans une série temporelle sont traités comme leurs composantes clés.
Les trois catégories de composantes sont les suivantes
- Tendance ou mouvements à long terme
- Mouvements à court terme
- Les variations saisonnières
- Les mouvements aléatoires ou irréguliers
- Variations cycliques
Tendance
La tendance des données à augmenter ou à diminuer sur une longue période est appelée tendance ou composante à long terme. Toutefois, il est important de noter que le mouvement à la hausse ou à la baisse ne doit pas nécessairement être dans la même direction sur une période donnée.
Les tendances peuvent être à la hausse, à la baisse ou rester stables sur différentes périodes. Toutefois, la tendance générale doit toujours correspondre à un modèle ascendant, descendant ou stable. De telles tendances sont évidentes dans des exemples tels que la productivité agricole, le taux de mortalité, les appareils fabriqués, le nombre d’usines, etc.
Tendance linéaire et non linéaire
La représentation graphique des valeurs d’une série temporelle en fonction du temps révèle le type de tendance en fonction du modèle de regroupement des données. Si le regroupement des données se fait plus ou moins autour d’une ligne droite, la tendance est dite linéaire.
Dans le cas contraire, le schéma de regroupement des données révèle une tendance non linéaire, car le rapport de variation entre deux variables n’est pas stable ou constant. C’est pourquoi ces tendances sont également appelées corrélations curvilignes.
Mouvements à court terme
Dans une série chronologique, ces composantes ont tendance à se répéter sur une période donnée. Elles ont de courtes périodes irrégulières et affectent les variables étudiées. Les deux catégories de mouvements à court terme sont les suivantes
Variations saisonnières
Ces versions fonctionnent régulièrement et périodiquement sur une période de moins d’un an. Elles ont tendance à présenter un schéma similaire ou presque identique au cours d’une période de 12 mois. Ces variations font partie d’une série chronologique si les données sont enregistrées régulièrement, c’est-à-dire toutes les heures, tous les jours, toutes les semaines, tous les mois ou tous les trimestres.
Les variations saisonnières sont d’origine humaine ou naturelle. Les différentes saisons ou conditions climatiques jouent un rôle essentiel dans ces variations. Par exemple, la production agricole dépend entièrement des saisons. De même, le marché du parapluie ou de l’imperméable dépend de la saison des pluies, tandis que la vente de glacières et de climatiseurs atteint son apogée en été.
Les conventions créées par l’homme comprennent les festivals, les fêtes et les occasions telles que les mariages. Ces événements à court terme se répètent année après année.
Variations cycliques
Les variations des séries temporelles qui ont tendance à se produire sur une période de plus d’un an sont appelées variations cycliques. Pour une entreprise, une période complète est considérée comme le “cycle économique”. Le pic ou le déclin des performances de l’entreprise dépend de divers facteurs tels que la structure économique, la gestion de l’entreprise et d’autres forces en interaction.
Ces variations cycliques peuvent être régulières mais non périodiques. En général, les entreprises subissent un processus cyclique en quatre phases : prospérité, récession, dépression et reprise.
Ces variations cycliques font partie intégrante d’un modèle de série chronologique, car le développement des entreprises dépend fortement des “points de données séquentiels” générés.
Mouvements aléatoires ou irréguliers
Les composantes aléatoires provoquent une variation significative de la variable observée. Il s’agit de fluctuations purement irrégulières, sans aucun modèle défini. Les forces sont imprévues, imprévisibles et erratiques par nature – par exemple, les tremblements de terre, les inondations, les famines et autres catastrophes.
Les événements aléatoires décrits ci-dessus sont analysés à l’aide des données de séries temporelles sources afin de mieux appréhender les scénarios de la vie réelle susceptibles de se produire à l’avenir.
Types de données de séries temporelles
Les données de séries temporelles sont divisées en quatre types : déterministes, non déterministes, stationnaires et non stationnaires.
#1. Séries temporelles déterministes
Une série chronologique déterministe peut être décrite par une expression analytique. Elle ne comporte pas d’aspects aléatoires ou probabilistes. Mathématiquement, elle peut être exprimée exactement pour tous les intervalles de temps en termes de développement d’une série de Taylor.
Cela est possible si toutes ses dérivées sont connues en un point arbitraire. Ces dérivées spécifient explicitement le passé et le futur à ce moment-là. Si toutes les conditions sont remplies, il est possible de prédire avec précision son comportement futur et d’analyser son comportement passé.
#2. Séries temporelles non déterministes
Une série temporelle non déterministe est associée à un aspect aléatoire qui empêche sa description explicite. Par conséquent, les expressions analytiques ne sont pas des solutions suffisamment réalisables pour exprimer une telle série temporelle. Une série temporelle peut être non déterministe pour les raisons suivantes :
- L’information nécessaire pour la décrire n’est pas disponible dans son intégralité. Bien que des données puissent être présentes en principe, elles ne peuvent pas être traitées comme quantifiables de manière explicite.
- Le processus de génération des données est de nature aléatoire.
En raison du facteur aléatoire, la série temporelle non déterministe obéit à des lois probabilistes. Par conséquent, les données sont traitées en termes statistiques, ce qui implique qu’elles sont définies par des distributions de probabilités et des moyennes de différentes formes. Cela inclut les moyennes et les mesures de dispersion, c’est-à-dire les variances.
#3. Séries chronologiques stationnaires
Dans une série chronologique stationnaire, les propriétés statistiques telles que la moyenne, la variance et autres ne dépendent pas de l’aspect temporel. Une série temporelle stationnaire est plus facile à prévoir car on peut affirmer avec certitude que ses propriétés statistiques resteront les mêmes que celles observées dans le passé. C’est pourquoi diverses méthodes de prévision statistique reposent sur l’argument selon lequel la série temporelle est à peu près stationnaire. Cela implique que les séries temporelles peuvent être considérées comme stationnaires de manière approximative en appliquant des transformations mathématiques simples.
#4. Séries temporelles non stationnaires
Dans une série non stationnaire, les propriétés statistiques varient avec le temps. Par conséquent, les séries temporelles présentant des tendances ou une saisonnalité entrent dans la catégorie des séries non stationnaires, car la tendance et la saisonnalité peuvent affecter la valeur de la série temporelle à différents intervalles de temps. Les séries temporelles non stationnaires décrivent des données imprévisibles, ce qui les empêche d’être modélisées ou prévues.
Analyse des données de séries temporelles et prévisions
L’analyse et la prévision des séries temporelles sont des outils pratiques pour observer, analyser et étudier l’évolution et la dynamique de processus vitaux et d’objets de différents types.
Analyse des séries temporelles
L’analyse des séries temporelles est définie comme un processus d’analyse des données collectées sur une période donnée. Dans ce cas, les analystes de données enregistrent des données à intervalles constants sur une période de temps fixe. Le taux d’observation des données, c’est-à-dire l’intervalle de temps, peut varier de quelques secondes à plusieurs années.
Les données de séries temporelles décrivent les variables inspectées car elles fournissent une analyse détaillée du modèle de fluctuation sur une période de temps spécifique. Les paramètres nécessaires à l’analyse peuvent varier selon les domaines et les disciplines. En voici quelques exemples
- Instruments scientifiques – Données enregistrées par jour
- Site web commercial – visites de clients par jour
- Marché boursier – Valeur des actions par semaine
- Saison – jours de pluie par an
Pour garantir la cohérence et la fiabilité, l’analyse des séries temporelles s’appuie sur de grandes quantités de points de données. Un échantillon de bonne taille est une représentation subtile de l’authenticité d’une tendance ou d’un modèle découvert.
En outre, l’analyse des séries temporelles est également adaptée à la prévision d’événements futurs sur la base de données enregistrées dans le passé.
Prévision des séries temporelles
L’analyse des séries temporelles permet aux organisations d’identifier la cause profonde des fluctuations des tendances au fil du temps. Avec les données en main, les entreprises peuvent alors étudier et faire des recherches plus approfondies pour mieux comprendre comment aborder les tendances inconnues et prévoir les événements à venir. Les entreprises utilisent généralement des logiciels de visualisation des données pour déterminer ces anomalies dans les données.
Les prévisions de séries temporelles s’articulent autour de deux facteurs essentiels :
- Anticiper les événements futurs en se basant sur le comportement des données passées.
- Supposer que les tendances à venir présenteront des similitudes avec le modèle des données passées.
En matière de prévision, l’objectif premier est essentiellement de prédire comment les points de données resteront identiques ou varieront à l’avenir. Voici quelques exemples tirés de différents secteurs d’activité pour mieux comprendre les nuances de l’analyse des séries chronologiques et des prévisions.
- Marché boursier – Prévoir le cours de clôture de l’action chaque jour.
- Ventes – Prévoir les ventes de produits pour un magasin chaque jour.
- Prix – Prévoir le prix moyen du carburant chaque jour.
Parmi les techniques statistiques couramment utilisées pour les prévisions de séries temporelles, citons la moyenne mobile simple (SMA), le lissage exponentiel (SES), la moyenne mobile intégrée autorégressive (ARIMA) et le réseau neuronal (NN).
Les données de séries temporelles dans le nuage
Pour révéler la valeur des données de séries temporelles, les entreprises doivent être en mesure de stocker et d’interroger les données rapidement. Les sociétés de marchés financiers s’appuient sur d’importants volumes de données historiques et en continu pour utiliser l’analyse de données en temps réel et prendre des décisions commerciales efficaces. Il peut s’agir de prévoir la vulnérabilité du cours des actions, de déterminer les besoins en capitaux nets ou de prévoir les taux de change. Afin de bénéficier d’une certaine flexibilité et de traiter les données de manière transparente, de nombreuses entreprises optent pour la migration de leurs bases de données de séries temporelles vers le cloud.
Avec la migration des bases de données de séries temporelles vers les nuages, les organisations peuvent accéder à des ressources illimitées à la demande. Elles peuvent ainsi utiliser des centaines de cœurs pour accomplir leur tâche, ce qui maximise le débit du réseau sans problème de latence.
Les bases de données de séries temporelles dans l’infrastructure en nuage conviennent aux charges de travail à forte intensité de calcul. Il s’agit notamment d’effectuer des calculs de risque en réponse aux tendances du marché en temps réel. Les entreprises financières peuvent se passer des frais généraux du centre de données et se concentrer sur l’utilisation des ressources pour améliorer la productivité de leurs charges de travail.
Les fournisseurs de services en nuage tels qu’AWS proposent Amazon Timestream, un service de base de données de séries temporelles qui facilite le chargement, le stockage et l’analyse d’ensembles de données de séries temporelles. Ils proposent un stockage pour gérer les charges de travail à forte intensité de transactions, des outils d’analyse en temps réel et une fonctionnalité de flux de données pour présenter les événements dès qu’ils se produisent.
L’infrastructure en nuage permet donc d’amplifier et d’étendre les avantages des données de séries chronologiques.
Applications des séries chronologiques
Les modèles de séries temporelles ont deux objectifs,
- Comprendre les facteurs sous-jacents qui ont produit un certain modèle de données.
- Sur la base de l’analyse, adapter un modèle de prévision et de suivi.
Examinons quelques-uns des cas d’application des données de séries temporelles.
#1. Les données de séries temporelles dans le secteur financier
Toutes les décisions financières, commerciales et d’investissement sont prises sur la base des tendances actuelles du marché et des prévisions de la demande. Les données de séries temporelles sont utilisées pour expliquer, corréler et prédire le marché financier dynamique. Les experts financiers peuvent examiner les données financières afin de fournir des prévisions pour des applications qui aident à atténuer les risques, à stabiliser les prix et les transactions.
L’analyse des séries chronologiques joue un rôle clé dans l’analyse financière. Elle est utilisée pour prédire les taux d’intérêt, prévoir la volatilité des marchés boursiers et bien d’autres choses encore. Les acteurs économiques et les décideurs politiques peuvent prendre des décisions éclairées sur la fabrication, les achats, l’allocation des ressources et optimiser leurs opérations commerciales.
Cette analyse est utilisée efficacement dans le secteur de l’investissement pour surveiller les taux des titres et leurs fluctuations dans le temps. Le prix des titres peut également être observé à court terme (c’est-à-dire en enregistrant des données par heure ou par jour) ou à long terme (c’est-à-dire en étalant l’observation sur des mois ou des années). L’analyse des séries chronologiques est un outil utile pour suivre l’évolution d’un titre, d’un actif ou d’une variable économique sur une longue période.
#2. Les données de séries temporelles dans l’industrie médicale
Le secteur de la santé est en train d’émerger rapidement en tant que domaine axé sur les données. Outre l’analyse financière et commerciale, le domaine médical tire largement parti de l’analyse des séries temporelles.
Considérez un scénario qui nécessite une synergie entre les données de séries temporelles, les procédures médicalement alignées et les techniques d’exploration de données dans le cadre du traitement des patients atteints de cancer. Un tel cadre hybride peut être utilisé pour exploiter les fonctionnalités d’extraction de caractéristiques à partir des données de séries temporelles collectées (c’est-à-dire les images radiographiques du patient) afin de suivre les progrès du patient et sa réponse aux traitements fournis par la confrérie médicale.
Dans le secteur des soins de santé, il est essentiel de pouvoir tirer des conclusions à partir de données chronologiques en constante évolution. En outre, les pratiques médicales avancées exigent que les dossiers des patients soient connectés au fil du temps pour une meilleure visibilité de la santé du patient. Par ailleurs, les paramètres de santé du patient doivent être enregistrés avec précision à intervalles réguliers afin d’obtenir une image plus claire de l’état de santé du patient.
Avec l’arrivée d’instruments médicaux de pointe, l’analyse des séries temporelles s’est imposée dans le domaine des soins de santé. Examinez les exemples suivants,
- Dispositifs ECG : Appareils inventés pour surveiller les conditions cardiaques en enregistrant les impulsions électriques du cœur.
- Appareils EEG : Appareils utilisés pour quantifier l’activité électrique du cerveau.
Ces appareils ont permis aux médecins d’effectuer des analyses de séries temporelles pour un diagnostic médical plus rapide, plus efficace et plus précis.
En outre, avec l’avènement des dispositifs IdO tels que les capteurs portables et les appareils de santé portables, les gens peuvent désormais prendre des mesures régulières de leurs variables de santé au fil du temps avec un minimum d’intrants. Cela conduit à une collecte cohérente de données médicales dépendant du temps, tant pour les personnes malades que pour les personnes en bonne santé.
#3. Les données de séries temporelles en astronomie
L’astronomie et l’astrophysique sont les deux disciplines modernes où les données de séries temporelles sont exploitées de manière significative.
Fondamentalement, l’astronomie consiste à tracer les trajectoires des objets cosmiques et des corps célestes et à effectuer des mesures précises pour mieux comprendre l’univers au-delà de l’atmosphère terrestre. Pour cette raison, les experts en astronomie sont compétents dans le traitement des données de séries temporelles lors de l’étalonnage et de la configuration d’instruments complexes et de l’étude d’objets astronomiques d’intérêt.
Les données de séries temporelles sont depuis longtemps associées au domaine de l’astronomie. En 800 av. J.-C., des données de séries temporelles sur les taches solaires ont été collectées à intervalles réguliers. Depuis, l’analyse des séries temporelles a été utilisée pour
- Découvrir des étoiles lointaines sur la base des distances stellaires,
- Observer des événements cosmiques tels que les supernovae afin de mieux comprendre l’origine de notre univers.
Les données de séries temporelles, dans ce cas, se rapportent aux longueurs d’onde et aux intensités de la lumière émise par les étoiles, les corps célestes ou les objets. Les astronomes surveillent constamment ces données en direct afin de détecter les événements cosmiques en temps réel, dès qu’ils se produisent.
Récemment, des domaines de recherche tels que l’astro-informatique et l’astro-statistique ont vu le jour, mêlant diverses disciplines telles que l’exploration de données, l’apprentissage automatique, l’intelligence informatique et les statistiques. Dans ces nouveaux domaines de recherche, le rôle des données de séries temporelles est de détecter et de classer les objets astronomiques rapidement et efficacement.
#4. Les données de séries temporelles dans les prévisions météorologiques
Aristote a étudié les modèles météorologiques de manière approfondie afin de mieux comprendre les causes et les effets observés dans les changements météorologiques de l’Antiquité. Au fil des jours, les scientifiques ont commencé à enregistrer des données météorologiques sur des instruments tels que le “baromètre” afin de calculer les variables atmosphériques. Les données étaient collectées à intervalles réguliers et conservées à différents endroits.
Avec le temps, les prévisions météorologiques ont commencé à être publiées dans les journaux. Aujourd’hui, des stations de prévisions météorologiques omniprésentes sont installées dans différentes régions du monde pour recueillir des données météorologiques précises.
Ces stations sont équipées de dispositifs fonctionnels avancés qui sont interconnectés pour recueillir et corréler les données météorologiques provenant de différents endroits. Les données corrélées sont utilisées pour prévoir les conditions météorologiques à chaque instant en fonction des besoins.
#5. Les données de séries temporelles dans le développement des entreprises
Les données de séries temporelles permettent aux entreprises de prendre des décisions commerciales. Pour ce faire, le processus analyse les données passées afin de déduire les événements futurs et de mettre en lumière les possibilités probables. Le modèle des données passées est utilisé pour dériver les paramètres suivants :
- Croissance de l’entreprise: Pour évaluer les performances financières et commerciales globales et mesurer la croissance, les données de séries chronologiques constituent l’actif le plus approprié et le plus fiable.
- Estimation de la tendance: Diverses méthodes de séries chronologiques peuvent être employées pour estimer les tendances émergentes. Prenons l’exemple de ces méthodes qui analysent les observations de données sur une période donnée pour réfléchir à l’augmentation ou à la diminution des ventes d’un appareil électronique particulier.
- Révéler les tendances saisonnières: Les points de données enregistrés peuvent révéler des fluctuations et des modèles saisonniers qui peuvent aider à la prévision des données. Les informations obtenues jouent un rôle clé sur les marchés où les prix des produits fluctuent de manière saisonnière. Ces données peuvent aider les entreprises à mieux planifier et développer leurs produits.
Conclusion 👨🏫
En résumé, les données de séries temporelles peuvent être considérées comme les caractéristiques de points de données complexes collectés sur une période de temps constante. L’analyse, la modélisation et la prévision des séries temporelles font désormais partie intégrante de notre vie quotidienne avec l’émergence des gadgets IoT, des appareils ménagers intelligents et des appareils portables. En outre, les données de séries temporelles trouvent leur application dans divers domaines, notamment les soins de santé, l’astrophysique, l’économie, l’ingénierie, les affaires, et bien d’autres encore.