Flux de données

Dans la communication orientée connexion, un flux de données est la transmission d'une séquence de signaux cohérents codés numériquement pour transmettre des informations^[1]. Typiquement, les symboles transmis sont regroupées en des séries de paquets^[2].

Le flux continu de données est devenu omniprésent. Tout ce qui est transmis sur Internet l'est sous forme de flux. L'utilisation d'un téléphone mobile pour avoir une conversation transmet le son sous forme de flux de données.

Définition Formelle

Un flux de données est un couple ordonné $(s,\Delta )$ où :

$s$ est une séquence de tuples et,
$\Delta$ est une séquence des réels positifs d'intervalles de temps.

Contenu

Un flux de données contient des différents ensembles de données, qui dépendent du format choisi.

Attributs : chaque attribut du flux représente un certain type de données, par exemple identifiant de segment/point de données, horodatage, information géographique.
- Horodatage : l'attribut qui permet d'identifier le moment où un événement s'est produit.
Données brutes : les informations provenant directement du fournisseur de données sans être traitées par un algorithme ni humain.
Données traitées : les données qui ont été traitées et préparées (d'une manière ou d'une autre modifiées, validées ou nettoyées), pour être utilisées pour des actions futures^[3].

Usage

Il existe différents domaines dans lesquels les flux de données sont utilisés :

Détection des fraudes : les données brutes sont utilisées comme données source pour un algorithme anti-fraude (techniques d'analyse des données pour la détection des fraudes). Par exemple, l'horodatage ou le nombre d'occurrences de cookies ou l'analyse de points de données sont utilisés dans le système de notation pour détecter la fraude ou pour s'assurer qu'un destinataire de message n'est pas un bot.
Intelligence artificielle : les données brutes sont traitées comme un ensemble d'entraînement/apprentissage et un ensemble de teste lors de la construction d'algorithmes d'IA et d'apprentissage automatique.
Données brutes : utilisées pour le profilage et la personnalisation des profils d'utilisateurs et leur segmentation, par exemple, par sexe ou par lieu (basé sur un point de données).
Informatique décisionnelle : les données brutes sont une source d'informations pour les systèmes d'informatique décisionnelle, utilisées pour enrichir les profils des utilisateurs avec des informations détaillées à leur sujet, par exemple, le parcours d'achat ou les informations géographiques . Ces informations sont utilisées pour l'analyse commerciale et la recherche prédictive.
Ciblage : les données traitées par les scientifiques des données améliorent les campagnes en ligne et sont utilisées pour atteindre le public cible.
Enrichissement GRC : les données brutes sont intégrées au système de gestion de la relation client. L'intégration GRC permet de combler les lacunes dans les profils des utilisateurs avec des données démographiques, des intérêts ou des intentions d'achat.

Intégration

Les intégrations de base avec les flux de données sont :

Les flux de données sont intégrés à des systèmes tels que la plateforme de données client, la gestion de la relation client (GRC) ou la plateforme de gestion de données pour enrichir les profils des utilisateurs avec des données externes. Il est possible d'élargir les connaissances sur les utilisateurs existants en utilisant des sources externes.

Les flux de données sont utilisés pour enrichir les systèmes d'informatique décisionnelle et rendre l'analyse et les conclusions plus précisément.

Dans le cas de l'intégration d'un système de gestion de contenu (SGC), le flux de données est utilisé pour identifier les utilisateurs et personnaliser leur visite, même s'il s'agit de leur première visite. Grâce à l'analyse des données, le contenu réel du site Web est adapté à l'utilisateur.

Les flux de données sont intégrés à la plate-forme côté demande au sein d'un écosystème de publicité numérique. Les parties (par exemple, les annonceurs) peuvent échanger les identifiants des utilisateurs et concaténer entre eux les profils existants.

Les flux de données sont utilisés pour choisir les segments d'utilisateurs respectifs (par exemple, les personnes intéressées par l'industrie automobile) et les utiliser dans une campagne en ligne. Les segments sont enrichis avec plus de caractéristiques utilisateur hors du flux de données, puis envoyés à la plate-forme côté demande.

Source de données visibles

Dans un flux de données, le type d'appareil utilisé par l'utilisateur est visible via un user agent :

Mobile : lorsqu'un utilisateur utilise un navigateur mobile pour explorer, il a respectivement une résolution d'écran étroite et une version d'application mobile.

Bureau : lorsqu'un utilisateur utilise un navigateur d'ordinateur de bureau ou une version d'application bureau.

Les informations suivantes sont partagées hors de l'appareil utilisé :

URL réelle du site Web visité, où un événement s'est produit
Agent utilisateur
Géolocalisation
Protocole Internet (IP)

Formats

Un point de données est une balise qui collecte des informations sur une certaine action, effectuée par un utilisateur sur un site Web. Les points de données sont de deux types, dont les valeurs sont utilisées pour créer des audiences appropriées. Ces deux types sont :

évènement, avec des informations sur les occurrences de l'évènement spécifique (par exemple, cliquer sur un lien ou afficher une annonce) ;
attribut, avec des valeurs numériques ou alphanumériques.

Segment : une déclaration logique, construite sur des points de données spécifiques à l'aide des opérateurs ET, OU ou NON^[4].

Données hybrides : données brutes avec le format des points de données et des segment de données.

URL : est un ensemble d'informations sur une URL particulière qui a été visitée.

Protection des données

En Europe, la protection des données est régie par le RGPD ^[5].

Les informations recueillies sur les sites Web sont basées sur le comportement des utilisateurs. Les fournisseurs de données fournissent des informations personnelles ou non personnelles. Deux types de données utilisateur sont disponibles dans le flux de données :

données à caractère personnel (DCP) : informations qui permettent clairement ou en combinant avec des méthodes d'identification de données d'identifier une personne. Des exemples de DCP sont : ID d'assurance, adresse e-mail, numéro de téléphone, adresse IP, géolocalisation, données biométriques.

données à caractère non personnel : informations qui ne peuvent pas être utilisées pour identifier une personne ou pour suivre un emplacement. Un cookie ou un ID d'appareil sont des exemples de données à caractère non-personnel.

Notes et références

(en) Cet article est partiellement ou en totalité issu de l’article de Wikipédia en anglais intitulé « Data stream » (voir la liste des auteurs).

↑ « Definition: data stream », sur www.its.bldrdoc.gov (consulté le 23 février 2022)
↑ (en) « What is a Data Stream? - Definition from Techopedia », sur Techopedia.com (consulté le 23 février 2022)
↑ « Que couvre le traitement des données? » (consulté le 23 février 2022)
↑ (en) Pavel Malos, « The 6 types of user segmentation and what they mean for your product », sur Medium, 12 juin 2018 (consulté le 23 février 2022)
↑ « Protection des données dans l’UE », sur Commission européenne - European Commission (consulté le 23 février 2022)

Portail de l’informatique

[1] « Definition: data stream », sur www.its.bldrdoc.gov (consulté le 23 février 2022)

[2] (en) « What is a Data Stream? - Definition from Techopedia », sur Techopedia.com (consulté le 23 février 2022)

[3] « Que couvre le traitement des données? » (consulté le 23 février 2022)

[4] (en) Pavel Malos, « The 6 types of user segmentation and what they mean for your product », sur Medium, 12 juin 2018 (consulté le 23 février 2022)

[5] « Protection des données dans l’UE », sur Commission européenne - European Commission (consulté le 23 février 2022)

[1]

[2]

[3]

[4]

[5]