wget — Руководство GNU Wget

НАЗВАНИЕ

wget — Руководство GNU Wget

СИНТАКСИС

wget [параметры]… [URL]…

ОПИСАНИЕ

GNU Wget это открыто распространяемая утилита для загрузки файлов из интернет. Она поддерживает протоколы HTTP, HTTPS, и FTP, загрузку с прокси-серверов по протоколу HTTP.

Wget может следовать по ссылкам HTML страниц и создавать локальные копии удалённых web сайтов, возможно полное восстановление структуры каталогов сайта. Это называется «recursive downloading»(рекурсивная загрузка). При выполнении такого задания, Wget ищет файл с правами доступа для роботов (/robots.txt). Возможна также конвертация ссылок в загруженных HTML файлах для просмотра сайта в автономном режиме («Off-line browsing»).

Проверка заголовков файлов. Wget может прочитать заголовок файла, что доступно по протоколам HTTP и FTP и сравнить с заголовком файла, который был загружен ранее, и, если это так, загрузить новую версию файла.Благодаря этому, с Wget возможно зеркальное хранение сайтов и коллекций файлов по FTP.

Wget разработан для медленных или нестабильных соединений: если во время загрузки возникнет проблема, Wget будет продолжать пытаться загрузить файл. Если сервер, с которого загружается файл, поддерживает докачку, Wget продолжит загружать файл с того места, где оборвалась загрузка.

OПЦИИ

Основные параметры

-V

—version

Отобразить версию Wget.

-h

—help

Отобразить параметры командной строки Wget.

-b

—background

Перейти в фоновый режим после запуска. Если файл для сообщений не указан параметром -o, он записывается в wget-log

-e command

—execute command

Выполнить command как если бы она была частью .wgetrc. Команда будет выполнена после команд в .wgetrc.

Параметры сообщений

-o logfile

—output-file=logfile

Записывать все сообщения в logfile. Иначе они будут направлены в stderr.

-a logfile

—append-output=logfile

Дополнить logfile. Как и -o, только logfile не заменяется, а дополняется. Если logfile

не существует, создаётся новый файл.

-d

—debug

Отображать сообщения отладки — разная информация, важная для разработчиков Wget.

-q

—quiet

Выключить сообщения Wget.

-v

—verbose

Включить подробные сообщения, со всеми доступными данными. По умолчанию включено.

-nv

—non-verbose

Не подробные сообщения (чтобы выключить сообщения см. -q). Сообщения об ошибках и основная информация будут отображаться.

-i file

—input-file=file

Прочитать URL из file. В этом случае указывать URL в командной строке не требуется. Если URL

указаны и в командной строке и в file, сначала будут загружены URL из командной строки. file

не обязательно должен иметь формат HTML (но ничего страшного, если это так) — URL просто

должны быть указаны в нём.

Если вы укажите —force-html, файл будет прочтён как html. В этом случае могут возникнуть

проблемы с относительными ссылками. Это можно предотвратить добавлением в него

«<base href=»https://freebsd-ru.ru/url»>» или вводом в командной строке —base=url.

-F

—force-html

При чтении URL из файла, включает чтение файла как HTML. Чтобы предотвратить ошибкам, если

файл HTML является локальным, добавьте «<base href=»https://freebsd-ru.ru/url»>» в файл или введите параметр

командной строки —base.

-B URL

—base=URL

При чтении URL из файла (-F), определяет URL, добавляемый к относительным адресам файла,

указанного параметром -i.

Параметры загрузки

—bind-address=ADDRESS

При соединениях по протоколам TCP/IP, передаёт «bind()» в ADDRESS на локальной машине.

В ADDRESS может быть указано как имя хоста, так и IP адрес. Используется, когда ваш

компьютер имеет несколько IP адресов.

-t number

—tries=number

Устанавливает число повторов number. Укажите 0 или inf для бесконечного числа повторов.

-O file

—output-document=file

Документы не будут записываться в соответствующие файлы, а будут соединены вместе и

записаны в file. Если file существует, он будет заменён. Если file указан как -,

документы будут выводиться в стандартный вывод (stdout). Этот параметр автоматически

устанавливает число повторов в 1. Полезен при закачке файлов, разделённых на части,

с почтовых серверов через web-интерфейс

-nc

—no-clobber

Если при загрузке сайта связь оборвалась, для продолжения с того же места, укажите

этот параметр.

При запуске Wget без -N, -nc, или -r, повторная загрузка одного и того же файла в один

каталог приведёт к созданию копии файла с именем file.1. Если существует файл и с таким

именем, третья копия будет называться file.2 и т. д. При параметре -nc это будет

предупреждено.

При запуске Wget с параметром -r, но без -N или -nc, новая загрузка сайта приведёт к

замене уже загруженных файлов. При параметре -nc загрузка продолжится с места обрыва

и загруженные файлы не будут загружаться заново (если только они не изменились).

При запуске Wget с параметром -N, с или без -r, файл будет загружен если он новее,

или если размер его не совпадает с загруженной копией (см. Сравнение по дате). -nc не

комбинируется с -N..

При указанном параметре -nc, файлы с расширениями .html или (что очень ужасно) .htm

с локальных дисков будут загружаться как из интернет.

-c

—continue

Возобновление загрузки файла. Используется если загрузка файла была прервана. Если в текущем каталоге есть файл с именем ls-lR.Z, Wget проверит, соответствует ли

данный файл загружаемому (не по размеру!), и, если это так, отправит запрос на сервер

на продолжение загрузки файла с того же места, где оборвалась загрузка в прошлый раз.

Помните, что при обрыве связи Wget повторяет попытки самостоятельно и без -c, и только

когда он «сдастся» и закончит работу, для возобновления будет нужен этот параметр.

Без опции -c, предыдущий пример приведёт к загрузке указанного файла заново с конечным

именем ls-lR.Z.1, не трогая ls-lR.Z

Начиная с версии 1.7 при параметре -c, если файл на сервере имеет равный, или меньший,

чем у локального файла размер, Wget не будет ничего загружать и отобразит соответствующее сообщение.

Однако при использовании -c, любой файл на сервере, имеющий больший размер, чем локальный, будет рассматриваться, как недокачанный. При этом будет загружено и записано в конец файла только «(длина(удал.файл) — длина(локал.файл))» байт. Это может пригодиться, когда вам нужно загрузить новые сообщения какого-либо журнала (log).

При этом, если удалённый файл больше потому, что он изменился, вы получите повреждённый файл (т.е. файл докачается другим). Вам нужно быть особенно внимательными при

использовании -c вместе с -r, так как каждый изменённый файл может быть кандидатом на

«незавершённую загрузку».

Вы также получите повреждённый файл, если ваш HTTP прокси-сервер неправильно настроен

и при обрыве соединения пишет «transfer interrupted» в файл. В следующих версиях Wget

сам будет исправлять это.

Помните, что -c работает только с FTP и HTTP серверами, которые поддерживают заголовок

«Range» (т.е. докачку).

—progress=type

Тип индикатора прогресса. Возможные значения: «dot» и «bar».

«bar» используется по умолчанию. Указание —progress=bar приведёт к прорисовке красивого

индикатора из символов ASCII (aka «термометр»).1;5~ Если стандартный выход не TTY, будет

использован «t».Sp Укажите —progress=dot чтобы переключится на тип «dot». прогресс будет

отмечаться добавлением в полосе точки или знака равно, каждый символ представляет

одинаковое количество данных.

При использовании этого типа, вы можете указать его стиль — dot:style. Если стиль

«default», каждый символ будет представлять 1 Kб, 10 символов в кластере и 50 в строке.

Стиль «binary» имеет более «компьютерный» вид — 8 Kб символов, 16 символов в кластере

и 48 символов в строке (получается строка на 384 Kб). Стиль «mega» используется для

загрузки больших файлов — каждый символ представляет 64 Kб, 8 символов в кластере и

48 символов в строке (получается 3 Mб на строку).

Вы можете определить стиль по умолчанию используя команду «progress» в .wgetrc. Если

вы хотите, чтобы тип индикатора «bar» использовался всегда (а не только при выводе в

stdout), укажите —progress=bar:force.

-N

—timestamping

Включить сравнение по дате.

-S

—server-response

Отображать заголовки, посылаемые HTTP серверам и запросы, посылаемые FTP серверам.

—spider

Установка поведения Wget как паука, т. е. Wget не будет загружать файлы, а только будет

проверять их наличие. Так можно проверять закладки, ссылки сайта. Например:

wget —spider —force-html -i bookmarks.html

Wget не содержит все возможности настоящих WWW пауков.

-T seconds

—timeout=seconds

Время ожидания в секундах. Время ожидания по умолчанию 900 секунд (15 минут).

Установка 0 отменяет проверку времени ожидания.Пожалуйста, не снижайте значение времени ожидания если Вы не знаете, что делаете.

-w seconds

—wait=seconds

Пауза в секундах между несколькими загрузками (в т.ч. повторами). Это снижает

загруженность сервера. Чтобы указать значение в минутах, используйте «m», в

часах — «h», в днях — «d» после числа. Указание большого значения этого параметра

полезно если сеть нестабильна (например обрыв dial up связи).

—waitretry=seconds

Устанавливает паузу только между повторами загрузок, которые оборвались. Wget будет ждать 1 секундупосле первого обрыва, 2 секунды после второго обрыва загрузки того же фала, и т. д. до максимума,который указывается в секундах. Например, при значении данного параметра 10, Wget будет ждать в общем(1 + 2 + … + 10) = 55 секунд для каждого файла.Это значение указывается по умолчанию в файле wgetrc.

—random-wait

Некоторые серверы, совершая формирование лог-файлов с паузами запросов файлов, могут определитьрекурсивную загрузку файлов — сканирование роботами, такими, как Wget. Этот параметр устанавливаетвремя между запросами варьируя с временем паузы, рассчитываемым от 0 до 2 * wait (секунд), где waitуказано параметром -w для маскировки Wget.Нельзя забывать что доступны исходники Wget и даже эту маскировку можно вычислить.

-Y on/off—proxy=on/off

Поддержка прокси-сервера. Включена по умолчанию если прокси-сервер определён.

-Q quota—quota=quota

Квота на размер загружаемых файлов. Указывается в байтах (по умолчанию), Кб (в конце k)или в Мб (в конце m).При окончании квоты, текущий файл загружается до конца, значит она не работает при загрузке одного файла. Также все указанные в командной строке будут обязательно загружены, в отличие от файлов, указанный в файле, или при рекурсивной загрузке.Указание 0 или inf отменит квоту.

Параметры загрузки каталогов

-nd—no-directoriesНе

создавать структуру каталогов при рекурсивной загрузке. При указанном параметре, все файлы будут загружаться в один каталог. Если файл с данным именем уже существует, он будет сохранён под именем ИмяФайла.n.

-x—force-directories

Противоположное параметру -nd — создавать структуру каталогов начиная с главной страницы сервера..

nH—no-host-directories

Не создавать каталоги c именем хоста в названии. приведёт к созданию структуры каталогов начиная с fly.srk.fer.hr/. Это поведение выключается указанием данного параметра.

—cut-dirs=number

Игнорировать number каталогов высшего уровня. Используется при загрузке каталогов и файлов низкого

уровня.

-P prefix

—directory-prefix=prefix

Определяет начальный каталог, в который будет сохранена структура каталогов сайта (или просто файлы).

По умолчанию этот параметр равен . (текущий каталог).

Параметры HTTP

-E

—html-extension

Если тип загруженного файла text/html и его адрес не оканчивается на .[Hh][Tt][Mm][Ll]?, при данном

параметре к его имени будет добавлено .html. Это может быть полезно при зеркальном хранении страниц .asp, но вы не хотите, чтобы они вмешивались в ваш сервер Apache. Другой случай применения этогопараметра — загрузка страниц-ответов CGI скриптов.

Примечание.

При обновлении или другой перезагрузке страниц с данным параметром, последние будут

загружаться заново в любом случае, т. к. Wget не может узнать, имеет ли отношение локальный файл X.html к загружаемому с URL X. Чтобы избежать лишней перезагрузки, используйте опции -k и -K. При этом оригинальные версии файлов будут также сохранены как X.orig.

—http-user=user

—http-passwd=password

Имя пользователя user и пароль password для HTTP сервера. В зависимости от типа отклика, Wget будет использовать «basic» (небезопасную) или «digest» авторизацию.Можно также указывать имя пользователя и пароль и в самом URL.

-C on/off

—cache=on/off

Включает или выключает кеширование со стороны сервера. При этом Wget посылает соответствующих запрос

(Pragma: no-cache). Также используется для быстрого обновления файлов на прокси-сервере.По умолчанию кеширование разрешено.

—cookies=on/off

Включает или выключает использование cookie. Сервер посылает клиенту cookie используя заголовок «Set-Cookie» и клиент отвечает тем же cookie. Благодаря этому сервер может вести статистику посетителей. По умолчанию cookie используются, но запись их на диск выключена.

—load-cookies file

Загружать cookie из file перед первой загрузкой HTTP. file имеет текстовый формат, как cookies.txt у Netscape.Этот параметр используется при зеркальном хранении. Для этого Wget посылает те же cookies, которые посылает ваш обозреватель при соединении с HTTP сервером. Это включается данным параметром — просто укажите Wget путь к cookies.txt. Разные обозреватели хранят cookie в разных каталогах:

Netscape 4.x.

Файл находится в ~/.netscape/cookies.txt.

Mozilla и Netscape 6.x.

Mozilla хранит cookies в cookies.txt, расположенном где-то в ~/.mozilla, в каталоге вашего

профайла. Полный путь обычно заканчивается чем-то вроде ~/.mozilla/default/some-weird-

string/cookies.txt.

Internet Explorer.

Чтобы экспортировать cookie для Wget, выберите Файл | Импорт и экспорт, в мастере выберите

Экспорт файлов cookie. Тестировано в Internet Explorer 5; возможно не будет работать в ранних

версиях.

Другие обозреватели.

Параметр —load-cookies будет работать с cookie в формате Netscape, который поддерживается Wget.

Если вы не можете использовать параметр —load-cookies, есть выход. Если ваш обозреватель

поддерживает

wget —cookies=off —header «Cookie: I<name>=I<value>»

—save-cookies file

Сохранить cookie из file в конце сессии. Устаревшие cookie не сохраняются.

—ignore-length

Некоторые HTTP серверы (точнее CGI скрипты) посылают заголовки «Content-Length», которые указывают Wget, что загружено ещё не всё. И Wget загружает один документ несколько раз.С этим параметром, Wget будет игнорировать заголовки «Content-Length».

—header=additional-header

Определяет additional-header, отправляемый HTTP серверу. Он должен содержать : и символы после него.Вы можете определить несколько дополнительных заголовков использованием —header несколько раз.

wget —header=»Accept-Charset: iso-8859-2″ \r

—header=»Accept-Language: hr» \r

Указание пустой строки в значении заголовка очистит все определённые пользователем до этого заголовки.

—proxy-user=user

—proxy-passwd=password

Определяет имя пользователя user и пароль для авторизации на прокси-сервере. Будет

использован тип авторизации «basic».

—referer=url

Добавляет заголовок `Referer: url’ в запрос HTTP. Используется при загрузке страниц, которые

передаются правильно только, если сервер знает, с какой страницы вы пришли.

-s

—save-headers

Сохранять заголовки, посылаемые HTTP серверам.

-U agent-string

—user-agent=agent-string

Идентифицироваться как agent-string при запросе на HTTP сервер.

Протокол HTTP позволяет определять себя использованием заголовка агента. Wget по умолчанию идентифицируется как Wget/version, где version — это версия Wget.Некоторые серверы выдают требуемую информацию только для обозревателей, идентифицирующихся как

«Mozilla» или Microsoft «Internet Explorer». Этот параметр позволяет обмануть такие серверы.

Параметры FTP

-nr

—dont-remove-listing

Не удалять временные файлы .listing, генерируемые при загрузке по FTP. Эти файлы содержат информацию

о каталогах FTP серверов. Не удаление поможет вам быстро определить обновление каталогов сервера (т.

е. определять., что ваше зеркало является таковым).Не удаляя .listing, помните о своей безопасности. Например, с таким именем можно создать символическую ссылку на /etc/passwd или что-то ещё.

-g on/off

—glob=on/off

Включает или выключает разрешение использовать специальные символы (маски) по FTP протоколу. Это может быть *, ?, [ и ]. По умолчанию использование маскировочных символов разрешено, если URL содержит такие символы.

Вы можете также взять URL в кавычки. Это работает только на серверах Unix FTP (и эмулирующих выход Unix «ls»).

—passive-ftp

Включает пассивный режим FTP, когда соединение инициируется клиентом. Используется при наличии firewall.

—retr-symlinks

При рекурсивной загрузке каталогов FTP, файлы, на которые указывают символические ссылки, не загружаются. Этот параметр отключает это.Параметр —retr-symlinks работает сейчас только для файлов, не для каталогов.Помните, что этот параметр не работает при загрузке одиночного файла.Параметры рекурсивной загрузки

-r

—recursive

Включить рекурсивную загрузку.

-l depth

—level=depth

Максимальная глубина рекурсивной загрузки depth. По умолчанию значение 5.

—delete-after

Удалять каждую страницу (локально) после её загрузки. Используется для сохранения новых версий часто запрашиваемых страниц на прокси. Параметр -r включает загрузку по умолчанию, параметр -nd отключает создание каталогов.При указанном параметре —delete-after, —convert-links игнорируется.

-k

—convert-links

После завершения загрузки конвертировать ссылки в документе для просмотра в автономном режиме. Это касается не только видимых ссылок на другие документы, а ссылок на все внешние локальные файлы.Каждая ссылка изменяется одним из двух способов:

Ссылки на файлы, загруженные Wget изменяются на соответствующие относительные ссылки.

Например: если загруженный файл /foo/doc.html, ссылка на файл /bar/img.gif, также загруженный, в нём будет выглядеть как ../bar/img.gif. Этот способ работает, если есть видимое соотношение между каталогами одного и другого файла. Ссылки на файлы, не загруженные Wget будут изменены на абсолютные адреса этих файлов на удалённом сервере.

Благодаря этому, возможен автономный просмотр сайта, файлов: если файл, на который есть ссылка загружен, ссылка будет указывать на него, если нет — ссылка будет указывать на его адрес в интернет (если такой существует). При конвертировании ссылок, используются относительные ссылки, значит вы можете переносить загруженный сайт в другой каталог, не меняя его структуру.Только после завершения загрузки Wget знает, какие файлы были загружены. Следовательно, при параметре -k конвертация произойдет только по завершении загрузки.

K

—backup-converted

Конвертировать ссылки обратно — убирать расширение .orig. Изменяет поведение опции -N.

-m

—mirror

Включить параметры для зеркального хранения сайтов. Этот параметр равен нескольким параметрам: -r -N

-l inf -nr. Для неприхотливого хранения зеркальных копий сайтов вы можете использовать данный параметр.

p

—page-requisites

Загружать все файлы, которые нужны для отображения HTML страниц. Например рисунки, звук, каскадные стили.

По умолчанию такие файлы не загружаются. Параметры -r и -l, указанные вместе могут помочь, но т. к.Wget не различает внешние и внутренние документы, нет гарантии, что загрузится всё требуемое.

И в завершении, нужно сказать, что для Wget внешняя ссылка — это URL, указанный в тегах «<A>»,»<AREA>» и «<LINK>», кроме «<LINK REL=»stylesheet»>».

Параметры запрета/разрешения рекурсивной загрузки

-A acclist —accept acclist

-R rejlist —reject rejlist

Список имён файлов, разделённых запятыми, которые следует или не следует загружать. Разрешается задание имён файлов по маске.

-D domain-list

—domains=domain-list

Список доменов domain-list, с которых разрешено загружать файлы. Разделяется запятыми. Этот параметр не включает -H.

—exclude-domains domain-list

Список доменов, с которых не разрешено загружать файлы

—follow-ftp

Следовать по ссылкам FTP с HTML страниц. Иначе, ссылки на файлы по протоколу FTP игнорируются.

—follow-tags=list

Wget имеет встроенную таблицу HTML тегов, в которых ищет ссылки на другие файлы. Вы можете указать

дополнительные теги в разделённом запятыми списке list в этом параметре.

-G list

—ignore-tags=list

Обратный —follow-tags. Для пропуска HTML тегов при рекурсивной загрузке, укажите их в разделённом запятыми списке list.Раньше параметр -G был лучшим для загрузки отдельных страниц с их вспомогательными файлами. Но теперь, лучшим параметром для загрузки одной страницы полностью считается —page-requisites.

-H

—span-hosts

Разрешает посещать любые сервера, на которые есть ссылка.

-L

—relative

Следовать только по относительным ссылкам. При этом параметре файлы с других серверов загружаться

точно не будут.

-I list

—include-directories=list

Список, разделённый запятыми, каталогов, из которых разрешено загружать файлы. Элементы списка list

могут содержать маскировочные символы.

-X list

—exclude-directories=list

Список, разделённый запятыми, исключаемых каталогов для загрузки (см. Ограничение по каталогам)Элементы списка list могут содержать маскировочные символы.

-np

—no-parent

Не подниматься выше начального адреса при рекурсивной загрузке.

ПРИМЕРЫ

Примеры разделены на три категории согласно их сложности.

Простоe использование?Если вам нужно загрузить URL, введите:

wget hdttp://fly.srk.fer.hr/

Но что же будет, если соединение медленное, а файл длинный? Есть возможность обрыва связи перед завершением загрузки. В этом случае Wget будет продолжать попытки нового соединения пока не кончится число попыток (по умолчанию 20). Можно изменить это число, например до 45:

wget —tries=45 hhttp://fly.srk.fer.hr/jpg/flyweb.jpg

Теперь оставим Wget работать на фоне, а его сообщения писать в журнал log. Долго набирать —tries,так что используем -t.

wget -t 45 -o log hdttp://fly.srk.fer.hr/jpg/flyweb.jpg &

Символ амперсанда в конце указывает командному интерпретатору продолжать работу с пользователем, не дожидаясь завершения работы Wget. Чтобы программа делала повторы бесконечно используйте -t inf.

Использование FTP также простое. Wget берёт на себя заботы по авторизации.

wget fftp://gnjilux.srk.fer.hr/welcome.msg

Если вы укажите адрес каталога, Wget загрузит список содержимого этого каталога и конвертирует его в формат HTML. Например:

wget fftp://prep.ai.mit.edu/pub/gnu/links index.html

Расширенное использование

Если у Вас есть файл с URL, которые вы хотите загрузить, используйте параметр -i:

wget -i I<file>

Если вы укажите — вместо имени файла, URL будут читаться из стандартного ввода (stdin).

Создать пятиуровневую копию сайта GNU со

wget -r hdttp://www.gnu.org/ -o gnulog

Как и выше, но конвертируя ссылки в HTML файлах в локальные для автономного просмотра:

wget —convert-links -r hdttp://www.gnu.org/ -o gnulog

Загрузить одну HTML страницу и все файлы, требуемые для отображения последней (напр. рисунки, файлы каскадных стилей и т. д.). Также конвертировать все ссылки на эти файлы:.Sp

wget -p —convert-links hdttp://www.server.com/dir/page.html

HTML страница будет сохранена в hdttp://www.server.com/dir/page.html и рисунки, каскадные стили и прочее будет сохранено в каталоге hdttp://www.server.com/, кроме случая, когда файлы будут загружаться с других серверов.

Как и выше, но без каталога hdttp://www.server.com/. Также все файлы будут сохранены в подкаталогах download/.

wget -p —convert-links -nH -nd -Pdownload \r

hdttp://www.server.com/dir/page.html

Загрузить index.html с hdttp://www.lycos.com, отображая заголовки сервера:

wget -S hdttp://www.lycos.com/

Сохранить заголовки в файл для дальнейшего использования.

wget -s hdttp://www.lycos.com/

more index.html

Загрузить два высших уровня wuarchive.wustl.edu в /tmp.

wget -r -l2 -P/tmp fftp://wuarchive.wustl.edu/

Загрузить из каталога GIF-файлы на HTTP сервере. Команда wget hdttp://www.server.com/dir/*.gif не будет работать, так как маскировочные символы не поддерживаются при загрузке по протоколу HTTP.

Используйте:

wget -r -l1 —no-parent -A.gif hвttp://www.server.com/dir/

-r -l1 включает рекурсивную загрузку с максимальной глубиной в 1. —no-parent выключает следование по ссылкам в родительский каталог, имеющую верхний уровень, -A.gif разрешает загружать только файлы с расширением .GIF. -A «*.gif» также будет работать.

Предположим во время рекурсивной загрузки у вам нужно было срочно выключить/перезагрузить компьютер.

Чтобы не загружать уже имеющиеся файлы, используйте:

wget -nc -r hdttp://www.gnu.org/

Если вы хотите указать имя пользователя и пароль для HTTP или FTP сервера, используйте

соответствующий синтаксис URL:

wget mypassword [at] unix [dot] server [dot] com/.emacs»>ftp://hniksic:

Этот адрес электронной почты защищен от спам-ботов. У вас должен быть включен JavaScript для просмотра.

/.emacs

Вы хотите, чтобы загружаемые документы шли в стандартный вывод, а не в файлы?

wget -O — hdttp://jagor.srce.hr/ https://www.srce.hr/

Если вы хотите устроить конвейер и загрузить все сайты, ссылки на которые указаны на одной странице:wget -O — hdttp://cool.list.com/ | wget —force-html -i —

Профессиональное использование

Для хранение зеркала страницы (или FTP каталога), используйте —mirror (-m), что заменяет -r -l inf -N. Вы можете добавить Wget в crontab с запросом на проверку обновлений каждое воскресенье:

crontab

0 0 * * 0 wget —mirror hdttp://www.gnu.org/ -o /home/me/weeklog

Вы также хотите, чтобы ссылки конвертировались в локальные. Но после прочтения этого руководства, вы

знаете, что при этом не будет работать сравнение по времени. Укажите Wget оставлять резервные копии

HTML файлов перед конвертацией. Команда:

wget —mirror —convert-links —backup-converted \r

hdttp://www.gnu.org/ -o /home/me/weeklog

А если не работает локальный просмотр HTML файлов с расширением, отличным от .html, например index.cgi, нужно передать команду на переименование всех таких файлов (content-type = text/html) в имя.html.

wget —mirror —convert-links —backup-converted \r

—html-extension -o /home/me/weeklog \r

hdttp://www.gnu.org/

С краткими аналогами команд:

wget -m -k -K -E hdttp://www.gnu.org/ -o /home/me/weeklog

wget -m -k -K -E hdttp://www.gnu.org/ -o /home/me/weeklog

ФАЙЛЫ

/usr/local/etc/wgetrc

Расположение по умолчанию глобального файла настроек.

.wgetrc

Пользовательский файл настроек.

ОШИБКИ

Вы можете отправлять отчёты об ошибках в GNU Wget на <«bug-wget(at)gnu.org»> (на английском).

Перед отправкой:

1. Убедитесь, что поведение программы действительно ошибка. Если Wget «вылетает», это точно ошибка. Если поведение Wget не соответствует документации, это ошибка. Если все работает странно, но вы не уверены, как оно должно работать на самом деле, это может быть ошибка.

2. Попытайтесь повторить ошибку в минимальное количество действий.Не спешите отправлять .wgetrc, попробуйте проделать действия, приведшие к ошибке с другим (или вообще без него) файлом настроек.

3. Запустите Wget с параметром -d и отправьте журнал (или его части). Намного намного легче отыскивать ошибки с такими журналами.

4. Если Wget «вылетел», попытайтесь запустить его в отладчике, например «gdb `which wget` core» и введите «where» для получения обратной трассировки.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *