Il existe de nombreuses façons de télécharger des ressources sur le Web. Outre votre navigateur, vous pouvez également utiliser un outil tel que wget pour télécharger des ressources à partir du Web pendant que vous faites autre chose. Dans cet article, nous vous montrons comment télécharger et utiliser wget sur Mac.
Qu’est-ce que wget (et à quoi sert-il) ?
Pour les ignorants, wget est un utilitaire de ligne de commande non interactif open source pour vous aider à télécharger des ressources à partir d’une URL spécifiée. Parce qu’il n’est pas interactif, wget peut fonctionner en arrière-plan ou avant même que vous ne vous connectiez.
C’est un projet de l’équipe GNU, et c’est génial si vous avez une mauvaise connexion Internet. Cela signifie qu’il est robuste dans des conditions autrement non optimales.
Une fois que vous aurez installé wget, vous exécuterez des commandes et spécifierez une destination pour vos fichiers. Nous vous montrons comment procéder ensuite.
Comment installer wget sur Mac
Avant d’installer wget, vous avez besoin d’un gestionnaire de paquets. Bien que wget ne soit pas livré avec macOS, vous pouvez le télécharger et l’installer en utilisant Homebrew – le meilleur gestionnaire de paquets Mac disponible.
1. Téléchargez et installez Homebrew
Pour installer Homebrew, ouvrez d’abord une fenêtre Terminal et exécutez la commande suivante :
/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"
Cela utilise le curl
pour télécharger les fichiers fournis dans l’installation Ruby préinstallée sur macOS.
Une fois que vous appuyez Entrer pour exécuter la commande, le programme d’installation vous donnera des détails explicites sur ce qui se passera.
Après avoir confirmé, le programme d’installation s’exécutera.
2. Installez wget à partir de la ligne de commande
Ensuite, nous voulons utiliser Homebrew pour installer wget. Depuis le terminal à nouveau, exécutez :
brew install wget

Le programme d’installation vous donnera des mises à jour de progression en direct, et vous n’avez pas grand-chose à faire ici. Le processus est simple et automatisé. Cependant, si vous avez déjà installé Homebrew, assurez-vous d’exécuter brew update
pour obtenir les derniers exemplaires de toutes vos formules.
Une fois que vous voyez une nouvelle invite dans votre terminal, vous êtes prêt à utiliser wget sur Mac pour télécharger des ressources.
Comment utiliser wget pour télécharger des ressources Web
Pour télécharger une ressource distante à partir d’une URL à l’aide de wget, vous devrez utiliser la structure suivante :
wget -O path/to/local.copy http://example.com/url/to/download.html
Cela enregistrera le fichier spécifié dans l’URL à l’emplacement spécifié sur votre machine.

Si vous excluez le -O
“flag”, votre emplacement de téléchargement sera le répertoire de travail actuel.

Par exemple, nous souhaitons télécharger une page Web dans le dossier Téléchargements :
wget -O /Users/[your-username]/Downloads/status.html https://www.w3.org/Status.html
Cependant, faire la même chose sans le -O
flag, nous aurions besoin de changer le répertoire (cd downloads
) avant d’exécuter wget :
wget /Users/[your-username]/Downloads/status.html https://www.w3.org/Status.html
Vous obtiendrez tous les détails sur la progression du téléchargement, bien que, avec la rapidité de wget, ces informations s’apparentent à un résumé du téléchargement plutôt qu’à des mises à jour en temps réel.
Comment télécharger un répertoire récursif
Pour télécharger une arborescence de répertoires entière avec wget, vous devez utiliser le -r
/--recursive
et -np
/--no-parent
drapeaux :
wget -e robots=off -r -np https://www.w3.org/History/19921103-hypertext/hypertext/
Cela obligera wget à suivre tous les liens trouvés sur les documents dans le répertoire spécifié. À partir de là, il effectuera un téléchargement récursif de l’intégralité du chemin d’URL spécifié.
Notez également le -e robots=off
commander. Cela ignore les restrictions dans le fichier robots.txt. En général, c’est une bonne idée de désactiver robots.txt pour éviter les téléchargements abrégés.
Utilisation d’indicateurs supplémentaires avec wget
Vous constaterez que wget est un outil flexible, car il utilise un certain nombre d’autres indicateurs supplémentaires. C’est très bien si vous avez des exigences spécifiques pour votre téléchargement.
Examinons deux domaines dans lesquels nous nous concentrons sur le contrôle du processus de téléchargement et la création de journaux.
Contrôler comment wget téléchargera les ressources
Il existe de nombreux indicateurs pour vous aider à configurer le processus de téléchargement. Voici quelques-uns des plus utiles :
wget -X /absolute/path/to/directory
exclura un répertoire spécifique sur le serveur distant.wget -nH
supprime les répertoires “hostname”. En d’autres termes, il ignore le nom de domaine principal. Par exemple, wget sauterait lewww.w3.org
dossier dans l’exemple précédent et commencez par leHistory
répertoire à la place.wget --cut-dirs=#
saute le nombre spécifié de répertoires vers le bas de l’URL avant de commencer à télécharger des fichiers. Par exemple,-nH --cut-dirs=1
changerait le chemin spécifié de “ftp.xemacs.org/pub/xemacs/” en simplement “/xemacs/” et réduirait le nombre de répertoires parents vides dans le téléchargement local.wget -R index.html
/wget --reject index.html
ignorera tous les fichiers correspondant au nom de fichier spécifié. Dans ce cas, il exclura tous les fichiers d’index. L’astérisquewget -i file
est un caractère générique, tel que « *.png ». Cela sauterait tous les fichiers avec l’extension PNG.--force-html
spécifie les URL cibles à partir d’un fichier d’entrée. Ce fichier d’entrée doit être au format HTML, ou vous devrez utiliser lewget -nc
flag pour analyser le HTML.wget --no-clobber
/wget -c
n’écrasera pas les fichiers qui existent déjà dans la destination.wget --continue
/wget -t 10
continuera les téléchargements de fichiers partiellement téléchargés.
essaiera de télécharger la ressource jusqu’à 10 fois avant d’échouer.
wget peut faire plus que contrôler le processus de téléchargement, car vous pouvez également créer des journaux pour référence future.
Ajuster le niveau de journalisation
wget -d
Vous pouvez également considérer les indicateurs suivants comme un moyen partiel de contrôler la sortie que vous recevez lors de l’utilisation de wget.wget -o path/to/log.txt
active la sortie de débogage.wget -q
active la journalisation de la sortie dans le répertoire spécifié au lieu d’afficher la sortie standard de connexion.wget -v
désactive toutes les sorties de wget, y compris les messages d’erreur.wget --no-verbose
active explicitement la sortie détaillée par défaut de wget.
désactive les messages du journal mais affiche des messages d’erreur.
Vous voudriez souvent savoir ce qui se passe pendant un téléchargement, vous n’utiliserez donc peut-être pas ces indicateurs autant que d’autres. Néanmoins, si vous avez un gros lot de téléchargements et que vous voulez vous assurer que vous pouvez résoudre tous les problèmes, avoir un journal ou un manque de sortie est une approche valable.
Conclusion Bien que vous puissiez utiliser votre navigateur ou une autre interface graphique pour télécharger des pages Web et d’autres ressources, vous pouvez gagner du temps avec la ligne de commande. Un outil tel que wget est puissant – plus que votre navigateur – et est aussi rapide. Pour une description complète des capacités de wget, vous pouvezrevoir la page de manuel GNU de wget
.