Secured service

Service

Back

Monday 07 August 2023

Big Data et discours numérique : comprendre le langage des données (6/6)


Données structurées
Les données structurées sont hautement organisées et généralement organisées en lignes et en colonnes, ce qui les rend faciles à rechercher et à manipuler.
 
Téraoctet
Un téraoctet est une mesure de données représentée par un 1 suivi de 12 zéros. Les disques durs d'un téraoctet sont aujourd'hui couramment utilisés dans les ordinateurs personnels et professionnels, ou accessibles via le "cloud". Pour donner un ordre d'idée, un téraoctet permet de stocker environ 300 heures de vidéo haute définition.
 
Analyse de texte
L'analyse de texte est l'utilisation de techniques statistiques, linguistiques et d'apprentissage automatique sur des données textuelles afin d'en déduire le sens, d'extraire des concepts ou de dégager des idées. L'analyse de texte est généralement effectuée sur des textes en langage naturel tels que ceux contenus dans des documents, des transcriptions, des messages sur le web, des commentaires ou des formulaires. Elle peut être utile pour le résumé, la découverte ou la classification du contenu.
 
Données transactionnelles
Les données transactionnelles sont des données dérivées d'événements spécifiques tels que les achats financiers, les factures, les paiements et les données d'expédition. Elles comprennent généralement un horodatage et soutiennent les opérations quotidiennes d'une organisation.
 
Données non structurées
Les données non structurées n'ont pas de structure prédéfinie - par exemple, les notes prises lors d'une réunion. Selon certaines estimations, les informations non structurées pourraient représenter plus de 70 à 80 % de l'ensemble des données d'une organisation.
 
Variété
La variété, l'un des quatre V qui définissent l'innovation en matière de données, représente les différents types de données provenant souvent de sources différentes qui sont combinées et analysées pour produire des informations. La variété des types de données qui sont aujourd'hui traitées dans les applications peut inclure des bases de données textuelles, des données transactionnelles, des données en continu, des images, du son et de la vidéo.
 
Vélocité
La vélocité, l'un des quatre V qui définissent l'innovation en matière de données, est la vitesse à laquelle les données sont créées, stockées, analysées et visualisées. Par exemple, les grands entrepôts de données peuvent recevoir des milliards de lignes de nouvelles informations chaque jour. Les données sensibles au facteur temps doivent être utilisées au fur et à mesure qu'elles affluent afin d'en maximiser la valeur.
 
La véracité
La véracité, l'un des quatre V qui définissent l'innovation en matière de données, est utilisée pour signifier l'exactitude, la certitude et la précision des données.
 
Le volume
Le volume, l'un des quatre V qui définissent l'innovation en matière de données, fait référence à la quantité de données traitées, allant des mégaoctets aux brontobytes.
 
Yottabytes
Un yottaoctet est une très grande mesure de stockage de données représentée par 1 suivi de 24 zéros. Pour le situer dans son contexte, un yottaoctet représente la quantité de données stockées sur 250 billions de DVD.
 
Zettaoctets
Un zettaoctet est une mesure de stockage représentée par 1 suivi de 21 zéros. En 2013, on estime que le World Wide Web a atteint 4 zettaoctets. D'ici 2016, plus d'un zettaoctet de données devrait traverser quotidiennement nos réseaux à l'échelle mondiale.

Comments of this post are closed

0 Comment

No comment