Content Downloader — это универсальный парсер контента с сайтов. С помощью программы вы можете получать, структурировать и обрабатывать практически любую информацию из открытых источников.
- Купить программу можно на сайте разработчика sbfactory.ru [1]
- Задать вопросы можно на форуме [2] пользователей.
- Найти инструкции можно в системе помощи [3] Content DownLoader.
- Видео с реальными примерами парсинга можно найти на канале [4] автора программы.
Если нет желания или времени вникать и разбираться, вы можете заказать настройку проекта Content DownLoader [5].
Описание программы Content Downloader
Порядок работы, описание основных разделов и функций программы, а также видео ролики, которые помогут понять суть работы с этими разделами.
- Сбор ссылок всех целевых страниц
- Настройка границ парсинга
- Шаблон вывода контента
- Загрузка и обработка картинок
- Обработка и импорт в CMS
- Редактор CSV файлов
- Функция html to txt
- Планировщик заданий
- Работа с прокси
Первое, что нужно сделать, собрать адреса всех целевых страниц — карточек товаров или статей, исключив рубрики и страницы «о сайте», «контакты» и т.п. Делаем это во вкладке программы «Ссылки» (справка [7]).
Есть несколько способов сбора ссылок:
Загрузить ссылки карты сайта. Если у сайта есть карта сайта для роботов — sitemap.xml, которая обновляется и содержит ссылки на все страницы сайта, добавьте её адрес и программа сама соберёт все ссылки.
Название карты может быть любым и отличаться от sitemap.xml. Загляните в файл robots.txt, как правило, там указан адрес актуальной карты сайта для роботов.
Генерировать ссылки. Если у страниц понятная структура, например, содержащая порядковые номера (id) страниц или товаров, то можно задать шаблон и сгенерировать все возможные варианты.
Сканер сайтов. Настройте фильтрацию ссылок, указав какие ссылки включать, а какие не нужно. Запустите сканер и программа соберёт все ссылки.
Отфильтровать ссылки на целевые страницы лучше сразу, но можно это сделать после загрузки кликнув правой кнопкой в окне ссылками и выбрав пункт «Настроить фильтр», а затем «применить фильтры».
В программе есть 20 обычных границ и 5 повторяющихся границ. Использовать можно повторяющие внутри обычных и наоборот.
Повторяющие границы нужны для сбора элементов, которые имеют одинаковый код. Например, парсинг картинок в галереи, строк или ячеек таблицы, списков характеристик.
Здесь, Вы сможете настроить вывод/запись спарсенных блоков контента в определённой последовательности. Например, сначала вывести 5-ый блок, потом 3-й, а потом первый. Можно добавлять в шаблон произвольные слова и теги.
Для загрузки картинок и других файлов на диск используется макрос DOWNLOADFILE, в который нужно поместить абсолютную или относительную ссылку на файл (справка [8]).
Для вызова настройки макроса DOWNLOADFILE: SHIFT+CTRL+L
Вызов настройки обработки картинок: shift+ctrl+i
Модуль программы, который поможет обработать и импортировать контент в популярные CMS.
Пример создания файла импорта для WordPress [9]
Инструмент поможет редактировать csv файлы.
Как переделать CSV прайс поставщика для импорта в интернет магазин (пример для Simpla CMS) [10]
Функция позволяет очищать текст от html-тегов. Задать использование этой функции можно отдельно для каждой границы парсинга.
Настройка функции html to txt.
Здесь можно указать время и периодичность запуска парсинга сохранённых проектов.
Для парсинга можно использовать прокси. Программа имеет свой встроенный прокси чекер, который после загрузки прокси проверит их и удалит мёртвые. Также Вы можете указать, использовать прокси или нет, и если использовать, то при сканировании сайтов или при парсинге контента.
Готовые проекты Content Downloader
На форуме можно найти готовые проекты [11] парсинга некоторых сайтов и заготовки для парсинга [12] популярных CMS.
Страница обновляется. Здесь представлена подборка ссылок на инструкции и видео, которые помогут в освоении программы.
Если есть вопросы, на которые не требуется быстрый ответ, можете спрашивать в комментариях, но лучше это делать на форуме пользователей по ссылке выше.
Описаны не все возможности и функции программы. Пост редактируется и дополняется.