- SEOBook.info - https://seobook.info -

Content Downloader — универсальный парсер контента

Content Downloader — это универсальный парсер контента с сайтов. С помощью программы вы можете получать, структурировать и обрабатывать практически любую информацию из открытых источников.

Если нет желания или времени вникать и разбираться, вы можете заказать настройку проекта Content DownLoader [5].

Описание программы Content Downloader

Порядок работы, описание основных разделов и функций программы, а также видео ролики, которые помогут понять суть работы с этими разделами.

  1. Сбор ссылок всех целевых страниц
  2. Первое, что нужно сделать, собрать адреса всех целевых страниц — карточек товаров или статей, исключив рубрики и страницы «о сайте», «контакты» и т.п. Делаем это во вкладке программы «Ссылки» (справка [7]).

    Есть несколько способов сбора ссылок:

    Загрузить ссылки карты сайта. Если у сайта есть карта сайта для роботов — sitemap.xml, которая обновляется и содержит ссылки на все страницы сайта, добавьте её адрес и программа сама соберёт все ссылки.

    Название карты может быть любым и отличаться от sitemap.xml. Загляните в файл robots.txt, как правило, там указан адрес актуальной карты сайта для роботов.

    Генерировать ссылки. Если у страниц понятная структура, например, содержащая порядковые номера (id) страниц или товаров, то можно задать шаблон и сгенерировать все возможные варианты.

    Сканер сайтов. Настройте фильтрацию ссылок, указав какие ссылки включать, а какие не нужно. Запустите сканер и программа соберёт все ссылки.

    Отфильтровать ссылки на целевые страницы лучше сразу, но можно это сделать после загрузки кликнув правой кнопкой в окне ссылками и выбрав пункт «Настроить фильтр», а затем «применить фильтры».

  3. Настройка границ парсинга
  4. В программе есть 20 обычных границ и 5 повторяющихся границ. Использовать можно повторяющие внутри обычных и наоборот.

    Повторяющие границы нужны для сбора элементов, которые имеют одинаковый код. Например, парсинг картинок в галереи, строк или ячеек таблицы, списков характеристик.

  5. Шаблон вывода контента
  6. Здесь, Вы сможете настроить вывод/запись спарсенных блоков контента в определённой последовательности. Например, сначала вывести 5-ый блок, потом 3-й, а потом первый. Можно добавлять в шаблон произвольные слова и теги.

  7. Загрузка и обработка картинок
  8. Для загрузки картинок и других файлов на диск используется макрос DOWNLOADFILE, в который нужно поместить абсолютную или относительную ссылку на файл (справка [8]).

    Для вызова настройки макроса DOWNLOADFILE: SHIFT+CTRL+L
    Вызов настройки обработки картинок: shift+ctrl+i

  9. Обработка и импорт в CMS
  10. Модуль программы, который поможет обработать и импортировать контент в популярные CMS.

    Пример создания файла импорта для WordPress [9]

  11. Редактор CSV файлов
  12. Инструмент поможет редактировать csv файлы.

    Как переделать CSV прайс поставщика для импорта в интернет магазин (пример для Simpla CMS) [10]

  13. Функция html to txt
  14. Функция позволяет очищать текст от html-тегов. Задать использование этой функции можно отдельно для каждой границы парсинга.

    Настройка функции html to txt.

  15. Планировщик заданий
  16. Здесь можно указать время и периодичность запуска парсинга сохранённых проектов.

  17. Работа с прокси
  18. Для парсинга можно использовать прокси. Программа имеет свой встроенный прокси чекер, который после загрузки прокси проверит их и удалит мёртвые. Также Вы можете указать, использовать прокси или нет, и если использовать, то при сканировании сайтов или при парсинге контента.

Готовые проекты Content Downloader

На форуме можно найти готовые проекты [11] парсинга некоторых сайтов и заготовки для парсинга [12] популярных CMS.

Страница обновляется. Здесь представлена подборка ссылок на инструкции и видео, которые помогут в освоении программы.

Если есть вопросы, на которые не требуется быстрый ответ, можете спрашивать в комментариях, но лучше это делать на форуме пользователей по ссылке выше.

Описаны не все возможности и функции программы. Пост редактируется и дополняется.