Как скачать все картинки с сайта сразу
Перейти к содержимому

Как скачать все картинки с сайта сразу

  • автор:

11 фишек для извлечения и сохранения данных с сайтов

Favorite В закладки

11 фишек для извлечения и сохранения данных с сайтов

БЕЗ скриптов, макросов, регулярных выражений и командной строки.

Эта статья пригодится студентам, которые хотят скачать все картинки с сайта разом, чтобы потом одним движением вставить их в Power Point и сразу получить готовую презентацию. Владельцам электронных библиотек, которые собирают новые книги по ресурсам конкурентов. Просто людям, которые хотят сохранить интересный сайт/страницу в соцсети, опасаясь, что те могут скоро исчезнуть, а также менеджерам, собирающим базы контактов для рассылок.

Есть три основные цели извлечения/сохранения данных с сайта на свой компьютер:

  • Чтобы не пропали;
  • Чтобы использовать чужие картинки, видео, музыку, книги в своих проектах (от школьной презентации до полноценного веб-сайта);
  • Чтобы искать на сайте информацию средствами Spotlight, когда Google не справляется (к примеру поиск изображений по exif-данным или музыки по исполнителю).

Ситуации, когда неожиданно понадобится автоматизированно сохранить какую-ту информацию с сайта, могут случиться с каждым и надо быть к ним готовым. Если вы умеете писать скрипты для работы с утилитами wget/curl, то можете смело закрывать эту статью. А если нет, то сейчас вы узнаете о самых простых приемах сохранения/извлечения данных с сайтов.

1. Скачиваем сайт целиком для просмотра оффлайн

site_sucker_start

В OS X это можно сделать с помощью приложения HTTrack Website Copier, которая настраивается схожим образом.

Пользоваться Site Sucker очень просто. Открываем программу, выбираем пункт меню File -> New, указываем URL сайта, нажимаем кнопку Download и дожидаемся окончания скачивания.

Чтобы посмотреть сайт надо нажать на кнопку Folder, найти в ней файл index.html (главную страницу) и открыть его в браузере. SiteSucker скачивает только те данные, которые доступны по протоколу HTTP. Если вас интересуют исходники сайта (к примеру, PHP-скрипты), то для этого вам нужно в открытую попросить у его разработчика FTP-доступ.

2. Прикидываем сколько на сайте страниц

google_search_site

Перед тем как браться за скачивание сайта, необходимо приблизительно оценить его размер (не затянется ли процесс на долгие часы). Это можно сделать с помощью Google. Открываем поисковик и набираем команду site: адрес искомого сайта. После этого нам будет известно количество проиндексированных страниц. Эта цифра не соответствуют точному количеству страниц сайта, но она указывает на его порядок (сотни? тысячи? сотни тысяч?).

3. Устанавливаем ограничения на скачивание страниц сайта

site_tracking_limits

Если вы обнаружили, что на сайте тысячи страниц, то можно ограничить число уровней глубины скачивания. К примеру, скачивать только те страницы, на которые есть ссылка с главной (уровень 2). Также можно ограничить размер загружаемых файлов, на случай, если владелец хранит на своем ресурсе tiff-файлы по 200 Мб и дистрибутивы Linux (и такое случается).

Сделать это можно в Settings -> Limits.

4. Скачиваем с сайта файлы определенного типа

allow_file_types

В Settings -> File Types -> Filters можно указать какие типы файлов разрешено скачивать, либо какие типы файлов запрещено скачивать (Allow Specified Filetypes/Disallow Specifies Filetypes). Таким образом можно извлечь все картинки с сайта (либо наоборот игнорировать их, чтобы места на диске не занимали), а также видео, аудио, архивы и десятки других типов файлов (они доступны в блоке Custom Types) от документов MS Word до скриптов на Perl.

5. Скачиваем только определенные папки

path_sitesucker

Если на сайте есть книги, чертежи, карты и прочие уникальные и полезные материалы, то они, как правило, лежат в отдельном каталоге (его можно отследить через адресную строку браузера) и можно настроить SiteSucker так, чтобы скачивать только его. Это делается в Settings -> Paths -> Paths to Include. А если вы хотите наоборот, запретить скачивание каких-то папок, то их адреса надо указать в блоке Paths to Exclude

6. Решаем вопрос с кодировкой

situsucker_choose_charset

Если вы обнаружили, что скачанные страницы вместо текста содержат кракозябры, там можно попробовать решить эту проблему, поменяв кодировку в Settings -> Advanced -> General. Если неполадки возникли с русским сайтом, то скорее всего нужно указать кодировку Cyrillic Windows. Если это не сработает, то попробуйте найти искомую кодировку с помощью декодера Лебедева (в него надо вставлять текст с отображающихся криво веб-страниц).

7. Делаем снимок веб-страницы

web_capture_net

Сделать снимок экрана умеет каждый. А знаете ли как сделать снимок веб-страницы целиком? Один из способов — зайти на web-capture.net и ввести там ссылку на нужный сайт. Не торопитесь, для сложных страниц время создания снимка может занимать несколько десятков секунд. Еще это можно провернуть в Google Chrome, а также в других браузерах с помощью дополнения iMacros.

Это может пригодиться для сравнения разных версий дизайна сайта, запечатления на память длинных эпичных перепалок в комментариях или в качестве альтернативы способу сохранения сайтов, описанного в предыдущих шести пунктах.

8. Сохраняем картинки только с определенной страницы

owdig

Идем на owdig.com, указываем нужную ссылку, ждем когда отобразятся все картинки и кликаем на оранжевую полоску справа, чтобы скачать их в архиве.

9. Извлекаем HEX-коды цветов с веб-сайта

color_combo

Идем на colorcombos.com и набираем адрес искомой страницы и получаем полный список цветов, которые использованы на ней.

10. Извлекаем из текста адреса электронной почты

email_extractor

Предположим, что вам надо сделать рассылку по сотрудникам компании, а их email-адреса есть только на странице корпоративного сайта и копировать их оттуда в ручную займет лишние 20-30 минут. В такой ситуации на помощь приходит сервис emailx.discoveryvip.com. Просто вставьте туда текст и через секунду вы получите список всех адресов электронной почты, которые в нем найдены.

11. Извлекаем из текста номера телефонов

phonenumber_extractor

Идем на convertcsv.com/phone-extractor.htm, копируем в форму текст/html-код, содержащий номера телефонов и нажимаем на кнопку Extract.

А если надо отфильтровать в тексте заголовки, даты и прочую информацию, то к вам на помощь придут регулярные выражения и Sublime Text.

Есть и другие способы извлечения данных с сайтов. Можно попросить какую-ту информацию непосредственно у владельца ресурса, cохранять части веб-страниц с помощью iMacros и парсить сайты с помощью Google Apps Script. Еще можно пойти традиционным путем и написать для парсинга bash-скрипт, но статей об этом на iPhones.ru пока нет.

Favorite В закладки

Как в 1 клик извлечь все изображения с веб-сайта | Парсинг картинок ⁠ ⁠

Парсинг всех картинок со страницы сайта — долгий и трудоемкий процесс, если делать это вручную. Раньше так и происходило. К счастью, в 21 веке можно воспользоваться автоматизированными сервисами для парсинга картинок/изображений. Можно скачать фото даже с инстаграм (instagram)

381 пост 4.8K подписчика

Правила сообщества

-Ставьте наши теги, если Ваш пост о программе, приложении или браузере(в том числе о расширениях, дополнениях в нему), его недоработке, баге, обновлении. Это может быть пост — обзор или отзыв.

-При возникновении споров относитесь с уважением друг к другу, а так же приводите аргументы.

Разрешено всё, что не запрещено правилами Пикабу.

А ещё можно нажать правой кнопкой и Сохранить веб-страницу полностью. Будет сохранён .html и папка с файлами — в которой будут все картинки.

Хорошо. А мне допустим нужно слить автоматом все картинки с сайта по тегу, картинки это превьюшки. Мне нужны исходные файлы. Как быть?

Кликая по превью открывается сайт с полу-хайрез (хз как назвать) сверху есть кнопка — скачать/посмотреть фулл рез.

Вопрос на схожую тему — как скачивать, чтобы мерзкий webp становился jpg!?

Парсинг ссылок на картинки с сайта и их массовая закачка

Парсинг ссылок на картинки с сайта и их массовая закачка

Надо было с одного сайта скачать все фотки с галерей. Было около 30 страниц, на каждой из которых было примерно 50-100 фотографий. Их надо было скачать.

Проблем то? В общем решил сделать следующим образом, открыл одну страницу с галерей, нажал «Сохранить как» (или Cntrl+S) в Google Chrom. И скачалась целиком страница со всеми файлами.

Естественно все картинки тоже должны были скачаться. НО скачались лишь их миниатюры. Залез в Html-код и увидел следующею разметку для одной из фотографий.

То есть, нужные мне картинки находились в атрибуте «data-href». Дело в том, что браузер не воспринимает такой атрибут, как ссылку на файл.

И вот я начал капать интернет в поисках решения. Самым очевидным решением, мне показалось спарсить все через Datacol. Но под рукой не было лицензии, а покупать второй раз как-то не хотелось.

И в итоге нашёл бесплатную программу, для элементарного парсинга с сайта happy-hack.ru. С помощью неё можно спарсить все ссылки на все нужные нам изображения.

Внимание: антивирусник может посчитать её как вирус, хотя у меня ни каких проблем не было.

В ней все просто, забиваем ссылку на страницу, правила и нажимаем старт. Объясню поподробней.

Парсинг с сайта

1. Мы вбиваем адрес нужной нам страницы.

2 и 3. Мы вбиваем правила для копирования пути на изображение так, чтобы между «от» и «до» был путь на изображение (не забываем про двойные кавычки, они тоже нужны). Пример:

<a rel=»lightbox» data-href color: red;font-weight: 700;»>» data-title=»»>

4. Нажимаем кнопку «Старт» и ждём завершение.

На выходе получаем текстовый файл, в которым построчно написаны ссылки.

Теперь остаётся их скачать, нужна была программа, в который можно импортировать все ссылки и скачать разом, для этого нашёл программу Download master, скачать её можно тут.

В ней выбираем «Файл — Импорт» и выбираем наш текстовый файл с ссылками.

Download master

Вот такой способ я использовал для решения этой задачи. Если вы знаете проще, пишите в комментариях.

О KellyC

KellyC Image Downloader позволяет скачать все картинки со вкладки браузера или записать путь — т.е. захватить все картинки со вкладок и страниц которые были посещены в процессе записи для дальнейшей фильтрации и скачивания

Для некоторых сайтов расширение автоматически находит оригиналы картинок и добавит их в отдельную категорию для удобства фильтрации. Поддерживаемые сайты (например Pinterest, Pixiv, Twitter, Joyreactor, Pikabu, ВК и т.д.) приведены здесь

На некоторых сайтах превью не может быть сразу преобразовано в оригинал, в этом случае можно использовать функцию загрузить доп. документы — она позволяет скачать дополнительные картинки с дочерних страниц. Эта функция полезна например, когда оригинал картинки не содержится непосредственно на просматриваемой странице, но на странице присутствует ссылка на страницу с оригиналом картинки. (смотрите список поддерживаемых сайтов)

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *