Discussion:Big data

Autres discussions [liste]

Admissibilité
Neutralité
Droit d'auteur
Article de qualité
Bon article
Lumière sur
À faire
Archives
Commons

Cet article est indexé par les projets Données, Informatique, Probabilités et statistiques et Web sémantique.

Les projets ont pour but d’enrichir le contenu de Wikipédia en aidant à la coordination du travail des contributeurs. Vous pouvez modifier directement cet article ou visiter les pages de projets pour prendre conseil ou consulter la liste des tâches et des objectifs.

**Évaluation** de l’article « **Big data** »
Avancement	Importance
B	Maximum	Données (discussion • critères • liste • stats • hist. • comité • stats vues)
	Élevée	Informatique (discussion • critères • liste • stats • hist. • comité • stats vues)
	Élevée	Probabilités et statistiques (discussion • critères • liste • stats • hist. • comité • stats vues)
	À évaluer	Web sémantique (discussion • critères • liste • stats • hist. • comité • stats vues)

Cet article comporte une liste de tâches suggérées :

modifier • suivre • rafraîchir • aide

Votre aide est la bienvenue pour corriger les liens, présents dans l'article, vers les pages d'homonymie Redondance ⇒ Quelques explications pour effectuer ces corrections. -- 12 octobre 2022 à 02:26 (CEST)

Startups[modifier le code]

Il faut vite citer d'autres solutions, il y a des dizaines de startup sur le marché, y compris en France; ne mettre qu'une société comme exemple de solutions est injuste; en solutions d'origine américaine on peut citer les sociétés: Cloudera, 10gen, Hadapt, Infochimps, Datastax, Mapr, Pervasive Datarush, Factual, Acunu, Apixio, Citrusleaf, Couchba (source : 01net Big Data la prochaine révolution informatique. Le même article de 01net cite la société française MFG Labs.--Lfone (d) 16 novembre 2011 à 11:20 (CET)[répondre]

Bonjour et bienvenue sur Wikipédia

,

J'ai surtout retiré la pub pour l'entreprise qui y était présente. Wikipédia étant une encyclopédie et non un annuaire, il ne serait pertinent d'y faire figurer que des entreprises notables vis-à-vis du sujet de l'article (ce qui n'est quasiment jamais le cas de startups).

Amicalement — Arkanosis ^✉ 16 novembre 2011 à 20:37 (CET)[répondre]

C'est dommage pour les startups et c'est l'une des limites du principe Wikipedia qui, je le comprends, a besoin de références et de sources; mais, en tant que journaliste ayant interviewé beaucoup de startups, j'y ai trouvé tellement d'idées intéressantes et d'innovations que je me demande comment on pourrait en faire profiter Wikipedia! :)

Demande de suppression du lien vers Hadoop[modifier le code]

Dans la rubrique Voir aussi on note la présence de Hadoop qui est une des technologies proposées pour aborder les problématiques de traitement dans le bigdata (et seulement celles-là). Mais Hadoop n'est pas la seule technologie Big Data ! le danger est de participer à un amalgame Hadoop=Big Data.

Insuffisance en scientifiques spécialisés en Big data[modifier le code]

J'ai modifié un des derniers paragraphes de l'article pour mentionner qu'on aura probablement de plus en plus de difficultés à gérer la data. J'ai ajouté une statistique sur le nombre de scientifiques dont les Etats Unis auront besoin en 2018.

W.G.

Ajout d'une thématique sur la protection des données personnelles face au Big Data[modifier le code]

Le phénomène de Big Data interroge notre système de protection des données personnelles. En France, l'usage de ce type de données est règlementé par la loi Informatique et Libertés qui s'inspire de la directive européenne Protection des données. Comme le Big Data accroit considérablement les possibilité"s de recoupement et donc d'identification d'une personne, l'anonymat semble face aux algorithmes tels que celui de la société américaine Netflix impossible. Notre législation ne semble donc pas adaptée aux enjeux posés par le big data. Est il donc possible de sécuriser les informations personnelles malgré l'usage de Big Data?

Les sujets de la sécurité, protection des données et des données personnelles, sont à mon avis transverses à toutes les technologies et mériteraient leur article à part avec les liens qui vont bien. Malo77 (discuter) 15 novembre 2020 à 18:53 (CET)[répondre]

Différence avec la business intelligence[modifier le code]

La comparaison avec la BI est très simpliste. Qualifier la BI comme relevant de la statistique descriptive et le Big Data relevant de la statistique inférentielle n'est pas du tout pertinent. L'inférence est tout autant utilisée en BI et ce depuis le début de l'informatique décisionnelle. BI comme Big Data ne sont que des termes, mais dans BI il y a aussi BA : business analytic, la statistique inférentielle et les modèles probabilistes y sont tout autant présent qu'en Big Data. Bref cette section est très importante car BI et BIG Data sont des domaines intriqués, seuls les termes portent à confusion car il ne s'agit ni plus ni moins que d'analyse de données. — Le message qui précède, non signé, a été déposé par l'IP 109.17.78.101 (discuter), le 9 juin 2014 --PAC2 (discuter) 9 juin 2014 à 23:51 (CEST)[répondre]

ajout de Lablanche & Company[modifier le code]

le compressed sensing est un outil puissant dans l'analyse prédictive. par conséquent j'ajoute une ligne la dessus.— Le message qui précède, non signé, a été déposé par 90.50.191.138 (discuter)

Tout d'abord, merci de passer par la page de discussion, c'est beaucoup mieux. Sur Wikipedia, les décisions sont basées sur le consensus donc c'est important de discuter et de ne pas essayer de passer en force (les passages en force ne réussissent jamais.)

Pour pouvoir ajouter ce passage, il faut montrer que cette compagnie et ce qu'elle fait est notable. Pour cela, il faut trouver des articles de presse, des livres, des reportages,... qui parlent spécifiquement de cette société et en établisse la notoriété. Peux tu fournir ces articles ici pour qu'on puisse juger si elle est assez notable pour justifier l'inclusion.--McSly (discuter) 17 juillet 2014 à 22:35 (CEST)[répondre]

Par ailleurs nous avons déjà un article sur la technique de l'acquisition comprimée, quelle serait précisément son utilité ici ? JackPotte ($♠) 17 juillet 2014 à 22:38 (CEST)[répondre]

oui elle est notable elle a été cité à côté de grands noms comme GE ou Teraview, Bell dans une publication de la NUS national university of singapore une des meilleures universités du monde, classé 22 eme au classement de Shangai voir la partie Client Service de www.lablanche-and-co.com

L'utilité de parler de cette entreprise c'est qu'elle conçoit une application logicielle unique au monde qui est capable de retrouver une zone inconnue (voir page d'acceuil) ce qui va permettre de générer des dizaines voir des centaines de millions de dollards.— Le message qui précède, non signé, a été déposé par 90.50.191.138 (discuter)

Hello, je ne veux pas que tu le prennes mal, mais on n'est pas là pour faire le travail à ta place. Merci donc de fournir ces sources (URL vers chaque article parlant d'elle, citations des passages justifiant la notoriété). Merci aussi de signer tes messages en ajoutant ~~~~ à la fin. --McSly (discuter) 17 juillet 2014 à 22:49 (CEST)[répondre]

http://www.comp.nus.edu.sg/~rahul/CS6234-14.html

‘Compressed sensing’ on 29-01-2014, presented by Mobashir Mohammad, Aditya Kulkarni, Tobias Bertelsen, Malay Singh, Hirak Sarkar, Nirandika Wanigasekara, Yamilet Serrano Llerena, Parvathy Sudhir

slides of the presentation— Le message qui précède, non signé, a été déposé par 90.50.191.138 (discuter)

C'est tout? rien d'autre? Dans ce cas cette société est sans aucun doute pas notable et il n'y a pas de raison d'inclure le texte.--McSly (discuter) 17 juillet 2014 à 23:12 (CEST)[répondre]

elle est peut être pas notable mais elle fait des choses qui valent des dizaines de millions et potentiellement elle peut conseiller toutes les grosses boites

Ne pas confondre le préjugé et la réalité technique la réalité technique finit toujours par compenser l'absence de relation ou de moyens Insuffisance en scientifiques spécialisés en Big data: exclusion sociale de sebastien LABLANCHE= sebastien LABLANCHE vend Lablanche & Company 100 millions d'euros c'est aussi ça le génie stratégique— Le message qui précède, non signé, a été déposé par 90.50.191.138 (discuter)

Ok, c'est bon à savoir. En attendant les critères d'admissibilité sur Wikipédia ne sont pas négociables donc dans le futur, si cette compagnie devient notable, on pourra éventuellement l'inclure. D'ici là, il n'y a rien d'autre à ajouter. --McSly (discuter) 18 juillet 2014 à 02:44 (CEST)[répondre]

Le jour où nous obtiendrons notre contrat avec la défense américaine et le fbi (car nous sommes en contact avec eux, nous exigerons que cela figure sur wilkipedia).— Le message qui précède, non signé, a été déposé par 90.50.191.138 (discuter)

Les critères de notabilité seront appliqués de manière égale pour tout le monde. Il n'y aura pas de parti pris dans un sens n'y dans l'autre. En revanche si tu continues les tentatives de promotions, il t'arrivera la même chose que sur le Wiki anglais, tu seras bloqué ([1]). P.S. Cette contribution n'a fait rire. --McSly (discuter) 18 juillet 2014 à 21:37 (CEST)[répondre]

oh mais vous savez je n'ai pas besoin de promotion, l'avantage de vivre caché c'est que personne ne risque de me voler mes secrets, et oui.!!! mais par contre le CSS est bien le premier logiciel commercial incluant toutes les applications du compressed sensing et ça c'est vérifiable par conséquent ça doit être maintenu sur la page de l'acquisition comprimé.

Je te conseille de taper sur google 'big data compressed sensing' et tu verras que Lablanche & Company figure parmi les premières réponses (les 2 ou 3 premières pages) sur google.

l'armée peut se servir de ce prototype pour crypter des messages confidentiels. La seule façon d'empêcher ça c'est d'acheter avec l'exclusivité voilà pourquoi les USA font attention surtout que ça va bientôt péter.

Alors vous devez prendre vos responsabilités et travailler en bonne intelligence avec nous et ne pas nous manquer de respect nous ne voulons pas de soucis.

Data lake[modifier le code]

Bonjour à tous, je viens de tomber sur une série d'article sur le "data lake" (lac de données), concept émergent et relatif au big data qui permet de fournir un stockage global des informations présentes dans une entreprise. Je pense qu'il pourrait être intéressant de l'intégrer à la page Big data, qu'en pensez-vous ?

Quelques sources :

Bonne après midi, Bo'RaiCho (discuter) 30 octobre 2015 à 16:38 (CEST)[répondre]

Bonjour Bo'RaiCho,

Le sujet a maintenant son propre article, voir ici : lac de données. Bonne lecture. Malo77 (discuter) 15 novembre 2020 à 18:50 (CET)[répondre]

Fondamentalement[modifier le code]

Je pense que l'article tourne un peu autour du pot à l'image du milieu informatico-économique qui aime faire passer n'importe quelle réalité triviale pour quelque chose d'hyper complexe et fantasmagorique sans dévoiler clairement les choses. Ne pas oublier que les acteurs de ce milieu ne sont pas des sources d'autorité, ce sont des discours passionnés et commerciaux.

Le "big data" est une politique de recherche scientifique qui place la récolte massive de données en priorité, la capacité d'analyse étant évaluée après coup. Sans certitude sur la capacité d'analyse, le "big data" promeut l'analyse probabiliste qui donne des indices sur l'information contenue dans la donnée, mais sans aller jusqu'au bout de l'identification. Economiquement, cela a évolué en un mode d'offre : la donnée et sa représentation graphique se vend, sans besoin de l'analyser entièrement. Ces acteurs économiques sont avant tout des gestionnaires de traitement informatique qui cherchent à transformer les données à la vitesse du flux de disponibilité. Ce mode de travail est actuellement très rentable, compte-tenu de l'organisation des rémunérations et d'un marché du travail adapté, ce qui en fait sa grande popularité.

Bien que le terme soit assez vaste et flou, le Big Data n'est pas une politique, mais un ensemble de techniques informatiques et mathématiques qui permettent d'analyser un ensemble de données massives pour en extraire des informations utiles, et en inférer des lois statistiques significatives. Ceci pouvant permettre à terme d'appliquer ces lois sur de nouveaux jeux de données. Malo77 (discuter) 18 novembre 2020 à 13:12 (CET)[répondre]

Mégadonnées[modifier le code]

Bonjour, Pourquoi ne pas mettre l'article sous l'entrée "Mégadonnées" et rediriger "Big Data" vers celle-ci, plutôt que l'inverse? C'est ce qu'on ferait si on voulait renforcer l'usage du terme recommandé... --HeisenbergO2 (discuter) 22 décembre 2016 à 15:28 (CET)[répondre]

WP prends en compte les usages et les reflète, mais ne les anticipe pas, ni ne promeut un terme plutôt qu'un autre. Principe de moindre surprise, neutralité etc.. --Jean-Christophe BENOIST (discuter) 22 décembre 2016 à 19:55 (CET)[répondre]

C’est très discutable que d’affirmer que dans ce cas, renommer « Big Data » vers « Mégadonnées » soit à l’encontre du principe de moindre surprise car personnellement, la surprise était justement que le titre n’était pas encore traduit. Et refuser de traduire le titre par défaut, à moins d’avoir une excellent raison, est déjà en soi un non-respect du principe de neutralité.

J’ai donc décidé de lire le « principe de moindre surprise de WP » que vous évoquiez, et de façon intéressante il contredit tout-à-fait votre affirmation et encourage même ce à quoi vous vous opposez. En gros, le principe de moindre surprise est régulièrement utilisé pour décider de la traduction à utiliser (notamment lorsque plusieurs pays utilisent officiellement des traductions différentes), mais il ne peut pas être invoqué pour justifier l’immobilisme :

« Il est bien d’ajouter des termes en langues étrangères, comme informations supplémentaires, mais il faut éviter d’écrire des articles qui ne peuvent être compris que si le lecteur comprend ces termes étrangers. De tels mots sont équivalents à un jargon, qu’il convient d’expliquer. […]
Les mots étrangers sont entre parenthèses, avec une traduction en italique. Les mots étrangers ne doivent être utilisés comme titre qu’en dernier ressort. »

Bien que le principe de moindre surprise est régulièrement utilisé pour déterminer quelle est la traduction à privilégier, il est intéressant de remarquer qu’il spécifie aussi qu’il ne peut pas être invoqué pour empêcher qu’un titre soit traduit. Il encourage très fortement la traduction des titres et décourage même la non-traduction à moins de ne pas avoir d’autres choix raisonnables. Wikipédia n’est pas là pour imposer une traduction particulière, mais il n’est pas là non-plus pour nuire à l’émergence et l’adoption d’une traduction (au contraire). C’est normal quand on réalise que de refuser de traduire le titre par défaut encourage un usage: la non-traduction.

Si l’usage veut réellement conserver Big Data, alors la très grande majorité des nouveaux liens continueront de se faire vers l’expression en anglais. Mais si l’usage en dehors de la région parisienne est favorable à l’adoption de termes en français (et donc plus naturels), au moins ils ne se verront plus défaire leur traduction sous prétexte que « ce n’est pas l’usage établi » ou je ne sais trop quoi.

Puisque qu’il est très clair que le principe de moindre surprise ne peut pas être invoqué simplement pour justifier l’immobilisme et empêcher toute évolution raisonnable, particulièrement lorsqu’il s’agit d’un terme non-traduit, je propose que l’on accepte la proposition d’HeisenbergO2. À noter que ce n’est que le titre par défaut que l’on change; le reste suivra seulement si l’usage le veut bien.

P.-S.: Je suis content d’avoir lu sur les recommandations de WP, car on va pouvoir l’invoquer pour « téléphone intelligent » (au lieu de l’atroce smart phone que beaucoup de Français en dehors de la région parisienne détestent également).

— 184.163.78.39 (discuter) 5 mai 2017 à 11:03 (CEST)[répondre]

Je ne comprends pas, le passage que vous citez n'a rien à voir avec WP:PMS, et même si votre interprétation de contradiction est correcte (ce que je ne pense pas, l'une exprime les exceptions de l'autre), il y a deux manières de résoudre une contradiction : en précisant une règle ou l'autre, et il n'y a pas lieu de privilégier un sens. Il faut voir cela avec la communauté avant sur la PdD correspondante. De toutes manières, il faut discuter au lieu d'opposer à la communauté des interprétations d'une règle qu'elle a elle-même forgée. Je rappelle l'état des sources : Mégadonnées, Big data. Il est à noter que Données massives semble plus utilisé que "Mégadonnées", donc il ne faut pas se hâter. --Jean-Christophe BENOIST (discuter) 5 mai 2017 à 11:53 (CEST)[répondre]

Définition[modifier le code]

On parle beaucoup des big data sans trop savoir de quoi on parle. Est-ce que ce sont des données non structurées, des données semi-structurées ou des données structurées ? Entre le contenu d'un site intranet et une base de données relationnelles classique, il y a beaucoup de différences ! Il me semble que la définition des big data devrait faire référence à la structure (ou absence de structure) des données. Cela permettrait en même temps de clarifier la relation que l'on peut faire entre les big data et les métadonnées ou la gestion des connaissances par exemple. En l'état actuel des choses, j'ai l'impression que le concept est beaucoup utilisé par des prestataires de services avec des arrières-pensées commerciales. Je trouve que l'article ne permet pas vraiment de répondre à ces questions de fond.Pautard (discuter) 3 août 2017 à 13:35 (CEST) par exemple.Pautard ([[Discussion utilisateur:|discuter]]) 3 août 2017 à 13:35 (CEST)[répondre]

Bonjour Pautard Les 3! Les bigdata regroupent l'analyse de tout types de données massives qu'elles soient structurées, non structurées ou semi-structurées. Voir notamment l'usage et le stockage dans les lacs de données qui sont spécialisés pour le stockage de données de toutes sortes.

Malo77 (discuter) 15 novembre 2020 à 18:46 (CET)[répondre]

Bonjour Pautard, le concept de big data fait référence à la taille des données, précisément lorsque celles-ci ne peuvent être contenues sur un seul cluster (c'est expliqué dans l'intro sous la forme: « d'une seule et unique machine et nécessitent des traitements parallélisés », merci Malo pour cette réécriture claire). Le stockage et le traitement de données massives fait appel à un ensemble de concepts théoriques (map reduce, système de fichiers distribué, calcul distribué, etc), d'applications (hadoop, spark, etc), qui diffèrent de l'informatique classique, notamment tout ce qui est relatif à la parallélisation. L'article a été super bien remanié par Malo77, merci à lui. --Deansfa (discuter) 23 décembre 2020 à 02:46 (CET)[répondre]

Guerre d’édition ridicule[modifier le code]

Bonjour,

Je propose de revenir à la version ante bellum surtout en voyant ça de la part de Soraaz (d · c · b), je suis pas sûr que cet utilisateur soit là pour contribuer sereinement™.

Le Larousse et Le Robert donnent tous les deux le genre masculin pour big data.

Un ouvrage édité aux Presses universitaires de France est aussi intitulé Le Big Data. — Thibaut (discuter) 4 mars 2022 à 20:33 (CET)[répondre]