Utilisateur:Probot/interorphelin

Une page de Wikipédia, l'encyclopédie libre.
  • Description : Extrait depuis un dump les pages liées à :de, :es, :nl, :ja, :it mais pas :fr.
  • Voir Wikipédia:Requêtes XML pour des informations concernant la lib Perl utilisée pour parser le XML.
#!/usr/bin/perl -w
  
use strict;
use Parse::MediaWikiDump;
use utf8;
    
my $file = shift(@ARGV) or die "must specify a Mediawiki dump file";
my $pages = Parse::MediaWikiDump::Pages->new($file);
my $page;
    
binmode STDOUT, ":utf8";

while(defined($page = $pages->page)) {
  #main namespace only           
  next unless $page->namespace eq '';

  my $text = $page->text;
  if ($$text =~ /\[\[de:/i && $$text =~ /\[\[es:/i && 
      $$text =~ /\[\[nl:/i && $$text =~ /\[\[ja:/i && 
      $$text =~ /\[\[it:/i && $$text !~ /\[\[fr:/i) { 
			 ##print $$text;
     print $page->title, "\n";
  }		
}