Discussion:Google (moteur de recherche)

Le contenu de la page n’est pas pris en charge dans d’autres langues.
Une page de Wikipédia, l'encyclopédie libre.
Autres discussions [liste]
  • Admissibilité
  • Neutralité
  • Droit d'auteur
  • Article de qualité
  • Bon article
  • Lumière sur
  • À faire
  • Archives
  • Commons

Transfert[modifier le code]

Bonjour!

Je compte extraire l'information (et les sources lièes) disponible dans Recherche sur Internet: méthode et astuces pour l'insérer dans cette rubrique. Une partie devra aller dans Recherche d'information. Toute personne ayant envie de collaborer est évidemment bienvenue. A l'inverse, si quelqu'un a des suggestions/oppositions/commentaires, on pourrait le faire dans cette discussion et régler les choses avant que de les inscrire... Au plaisir de vous lire,

Christophe Dupriez 3 février 2007 à 10:54 (CET)[répondre]

DEBUT DE CONTENU PROPOSE pour une section "Comment utiliser le Moteur de Recherche Google". Vos commentaires ??? Christophe Dupriez 12 février 2007 à 05:15 (CET)[modifier le code]

Termes à chercher:[modifier le code]

La documentation de Google sur son interprétation des requêtes est assez spartiate. L’évolution du fonctionnement observé montre que ceci est sans doute à dessein pour garder une liberté de changement maximale. Ce qui suit doit être continuellement validé et remanié pour suivre les modifications.

  • H2O est cherché comme un seul mot et Google ne trouve alors pas les documents avec H 2 O ou H2O dans leur texte. Ceux-ci sont retrouvés en demandant "H 2 O". H-2-O (voir plus loin le rôle du tiret) trouve aussi bien H2O que H 2 O et H2O. Malheureusement, l’opérateur « tiret » ne cherche que les deux combinaisons extrêmes (tous les mots collés ou tous les mots séparés: il ne trouve pas H2 O).
  • mot : Un mot et ses variantes singulier/pluriel - masculin/féminin – avec/sans accents. Par exemple chevaux d’arçon retrouve cheval d’arçon: cet algorithme fonctionne en français et en anglais mais pas en néerlandais (il ne connaît pas les pluriels en "en"). Attention : la variante que vous spécifiez est favorisée dans le tri des documents présentés.
  • ~mot : Un mot et ses synonymes. Fonctionne avec un dictionnaire anglais même sur les recherches en français et néerlandais ! Essayer la requête ~automobile -automobile pour voir les mots trouvés en dehors du terme strict automobile. ~arabic retourne Egypt, Lebanon, Arab et … Hindu ! On ne connaît pas la source des synonymes.
  • "mot" : Un mot exact. Google ne tient pas compte de l’accentuation pour la recherche mais favorise la forme spécifiée lors du tri des documents présentés.
  • "mot … mot" : une suite de mots spécifiques, une expression
  • "mot * mot": dans une suite de mots entre guillemets (et seulement là), une étoile peut être mise à la place d’un ou plusieurs mots complets qu’on ne désire pas spécifier. Par exemple : "ministère du * et du commerce"
  • site:www… : un domaine d’origine. On peut être plus ou moins général et même indiquer des domaines de premier niveau. Par exemple : site:org OR site:com
  • title:"mot … mot" : une suite de mots spécifiquement dans le titre du document (balise <title>…</title> et/ou première balise <h1>…</h1>)
  • +mot : chercher ce mot même si c’est un mot vide dans la langue de l’utilisateur ( +de en français par exemple) et le chercher en tenant compte des accents ( +dés par exemple). Un « + » est assumé si un seul mot est cherché : thé seul est cherché comme si on avait tapé +thé. (Cette forme a donc une signification très différente de celle de Altavista où le "+" indiquait des mots obligatoires) Lors du tri des documents, Google donne la préférence à la forme tapée : l’opérateur « + » n’a donc plus beaucoup d’intérêt.
  • mot-mot : chercher un terme composé de plusieurs mots, qu’il soit écrit avec des tirets, des espaces ou même sans espace du tout: gratte-ciel trouve gratte ciel, gratte-ciel et gratteciel . gratte-ciel ne signifie pas du tout la même chose que gratte -ciel (voir l’opérateur "-"). Attention: va-nu-pied trouve va nu pied et vanupied mais pas vas nupied.

Opérateurs logiques (booléens):[modifier le code]

  • espace : les documents doivent contenir ce qui est à droite ET ce qui est à gauche. Le tri de Google favorise les documents où les différents mots spécifiés sont proches l’un de l’autre (voir plus bas).
  • OR ou |  : les documents peuvent contenir ce qui est à droite OU ce qui est à gauche. Attention : OR doit être écrit en majuscules !
  • espace- (signe moins) : exclure les documents contenant le mot qui suit (SAUF)
  • ( … ) : sous-expression à évaluer avant de faire les opérations avoisinantes

Le GoogleGuide vous donne d’autres exemples. Le site de HotBot Etats-Unis fournit un formulaire de recherche Google parfois plus pratique que celui de Google même.

Limites:[modifier le code]

  • Les requêtes sont limitées à 32 mots.
  • Seuls les 1000 premiers résultats pertinents pour une requête sont accessibles, et ce même si les correspondances sont plus nombreuses. Les résultats peuvent même parfois être moins de 1000 en raison de la suppression des pages provenant d’un même site. D’après Google, obtenir plus de 1000 résultats entraînerait une lourde charge supplémentaire pour une demande finalement assez rare.

En théorie, le tri assure que les références les plus utiles sont en premier (difficile à valider)

Dates:[modifier le code]

  • Lors d’une recherche par dates, la date est celle de l’indexation dans la banque de données (i.e. la visite du « spider » Google) et non celle de la publication effective de la page (telle que fournie par le serveur http://)
  • Dans le formulaire de recherche avancée, vous pouvez faire une recherche sur les derniers 3, 6 et 12 mois.
  • L’opérateur daterange:date julienne-date julienne (ou le formulaire du site de HotBot) permet de spécifier un autre intervalle de dates. Une date julienne est le nombre de jours écoulés depuis le début de notre ère : le site http://www.numerical-recipes.com/julian.html peut vous aider à le calculer.

Excellent sans aucune faute grammaticale et orthographique Arthur GON BI (discuter) 7 février 2022 à 18:25 (CET)[répondre]

ET AUSSI...[modifier le code]

Tri du résultat:[modifier le code]

La qualité de Google vient de sa capacité à montrer en premier les pages jugées les plus pertinentes en général et les plus pertinentes à une recherche en particulier. Google trie les documents trouvés en fonction:

  • de mesures de qualité du site en général et aussi de chacune des pages (cohérence des méta-informations avec le texte visible de la page par exemple). Ces mesures ne sont pas ou peu documentées.
  • une mesure du poids de chacune des pages indexées: Il s’agit de l’algorithme PageRank dont voici un extrait cité de Google :

We assume page A has pages T1...Tn which point to it (i.e., are citations). The parameter d is a damping factor which can be set between 0 and 1. We usually set d to 0.85. There are more details about d in the next section. Also C(A) is defined as the number of links going out of page A. The PageRank of a page A is given as follows: PR(A) = (1-d) + d (PR(T1)/C(T1) + ... + PR(Tn)/C(Tn)) Note that the PageRanks form a probability distribution over web pages, so the sum of all web pages’ PageRanks will be one. PageRank or PR(A) can be calculated using a simple iterative algorithm, and corresponds to the principal eigenvector of the normalized link matrix of the web. Voir aussi: [1]

  • d’un calcul de la pertinence de la page vis-à-vis de la recherche effectuée. Ceci se fait en tenant compte:
    • de la présence dans la page des mots de la recherche (éventuellement élargis à leurs synonymes ou à leurs variantes singulier/pluriel)
    • de l’emplacement de ces mots dans la page (titre, méta-données, texte) ou dans les liens vers cette page: ce dernier point cause parfois des problèmes éthiques car une page se retrouve indexée par les mots que d’autres personnes que ses auteurs utilisent pour la désigner. (Essayez: "miserable failure", l’auteur de la page visée ne cherchait pas consciemment ce qualificatif ! )
    • Du tf-idf de chaque mot, formule qui prend en compte le nombre d’occurrences du mot dans la page pondéré par l’inverse de la fréquence relative de ce mot dans la partie du Web indexée par Google:
      • tfi = fréquence du terme i dans la page
      • dfi = nombre de pages dans le Web contenant le terme i
      • D = nombre de documents dans le Web
      • Cette formule a été mise au point par Gerard Salton (1927-1995), Université Cornell, sur base de la Théorie_de_l'information de Claude_Shannon.
    • de la distance dans la page entre les mots cherchés: plus ils sont proches l’un de l’autre, plus la page est jugée pertinente vis-à-vis de la recherche effectuée. Voir: [2]
  • du pays indiqué par l’URL d’accès à Google : google.be accorde une nette préférence aux sites belges, google.fr aux sites français, google.com aux sites américains et google.co.uk aux sites anglais, etc. Il est réellement important de choisir la « localisation » de ses recherches. La page suivante devrait plus souvent servir de page de démarrage d’une recherche: [3]
  • de la langue de l’utilisateur qui est aussi celle des mots cherchés : le seul formulaire permettant de la spécifier est sur [4] . Le seul autre moyen de changer la langue de l’utilisateur est de modifier « à la main » l’URL de Google (http://www.google.be/search?hl=fr&q=... ) en changeant le paramètre &hl=xx (xx étant le code en deux lettres de la langue désirée).

Il est essentiel de faire ses recherches en changeant sa langue d’utilisateur en fonction de la langue des mots cherchés. Google trie alors les documents en favorisant cette langue (et utilisera peut-être un jour le bon dictionnaire de synonymes). Il utilise alors l’algorithme adéquat pour rendre équivalents le singulier et le pluriel, le féminin et le masculin (rappel: le néerlandais semble mal supporté pour l’instant).

Bonjour, merci pour ce travail!
Je suis pour ajouter ce contenu, mais il faudra veiller à ce qu'il reste dans un style descriptif encyclopédique. Sinon, sa place serait plutôt dans un wikilivre de la wikiversité par exemple.
Je n'aime pas particulièrement les listes dans les articles, mais ici, il y a du contenu autour, donc ça me va à peu près :)
Cordialement, Plyd /!\ 13 février 2007 à 11:09 (CET)[répondre]

Parts de marché[modifier le code]

Bonjour, en lisant un article de PCInpact, je pense qu'il pourrait être intéressant d'écrire une section sur les parts de marché qu'occupent le moteur de recherche Google par rapport aux autres moteurs. Je pense qu'il y a moyen de trouver d'autres chiffres que ceux de PCInpact mais ça peut déjà être une base. Pamputt 16 décembre 2008 à 16:29 (CET)[répondre]

Ouaip... mais ces parts ne sont pas fixes au cours du temps. On s'y prend comment ? Zakke (d) 16 décembre 2008 à 17:36 (CET)[répondre]
En pratique, il faudrait comparer l'évolution des parts de marché au cours du temps pour montrer l'évolution constante du moteur de recherche Google. Ce serait une section dans le même esprit que l'article Évolution de l'usage des navigateurs Internet. Pamputt 17 décembre 2008 à 08:22 (CET)[répondre]

Nombre de pages indexées[modifier le code]

Bonjour, le 25 juillet 2008, Google annonçait sur son blog que le moteur de recherche avait indexé 1000 milliards d'URL uniques. Je n'ai pas vu cette informations dans l'article mais peut être est elle déjà présente quelque part. Pamputt 4 mai 2010 à 13:58 (CEST)[répondre]

Censure Corée du Nord ?[modifier le code]

Bonjour, j'ai complètement reformulé le paragraphe sur la censure alléguée de la carte de la Corée du Nord car les informations indiquées me paraissaient surprenantes, je n'ai rien trouvé de tel sur WP en, et factuellement c'est inexact : la carte satellite est très précise, il manque juste les indications des noms de lieuxLpele (d) 2 janvier 2012 à 14:14 (CET)[répondre]

Indexation du web profond[modifier le code]

L'article dit: "le moteur ne parcourt que le web visible, laissant de côté toutes les bases de données professionnelles, parfois énormes, et souvent pertinentes, mais dont l’accès est limité (mais parfois gratuit)"

Il me semble que l'info est fausse, au moins en partie, et que Google a accès, par exemple, à des sites de revues scientifiques, dont les extraits pertinents apparaissent dans les pages de résultat de Google (en revanche, l'utilisateur qui suivra le lien donné par Google devra passer par un formulaire de paiement pour accéder au texte intégral). Apokrif (d) 20 avril 2012 à 20:58 (CEST)[répondre]

Origine du nom[modifier le code]

J'ai remarqué des contributions multiples sur l'origine du nom Google. Il me semble que l'incompréhension entre les différents contributeurs vient du fait que certains parlent du nombre "Googol" en anglais et d'autres du nombre "Gogol" en français. --Ange Gabriel (d) 16 mai 2012 à 09:11 (CEST)[répondre]

Easter eggs[modifier le code]

J'ai testé les deux derniers ajoutés, avec Firefox et Chrome, connecté avec mon compte Google ou pas, avec ou sans guillemets, et rien ne se produit. Sous quelles conditions les recherches changent de d'habitude ? JackPotte ($) 14 août 2013 à 23:57 (CEST)[répondre]

Sites fermés dans la palette Moteurs de recherche[modifier le code]

Question sur Discussion modèle:Palette Moteurs de recherche. --Rinaku (d · c) 27 mai 2014 à 16:21 (CEST)[répondre]

Liens externes modifiés[modifier le code]

Bonjour aux contributeurs,

Je viens de modifier 1 lien(s) externe(s) sur Google (moteur de recherche). Prenez le temps de vérifier ma modification. Si vous avez des questions, ou que vous voulez que le bot ignore le lien ou la page complète, lisez cette FaQ pour de plus amples informations. J'ai fait les changements suivants :

SVP, lisez la FaQ pour connaître les erreurs corrigées par le bot.

Cordialement.—InternetArchiveBot (Rapportez une erreur) 23 juillet 2018 à 01:28 (CEST)[répondre]