SEO блог

Content Downloader — универсальный парсер контента

Content Downloader — это универсальный парсер контента с сайтов. С помощью программы вы можете получать, структурировать и обрабатывать практически любую информацию из открытых источников.

  • Купить программу можно на сайте разработчика sbfactory.ru
  • Задать вопросы можно на форуме пользователей.
  • Найти инструкции можно в системе помощи Content DownLoader.
  • Видео с реальными примерами парсинга можно найти на канале автора программы.

Если нет желания или времени вникать и разбираться, вы можете заказать настройку проекта Content DownLoader.

Описание программы Content Downloader

Порядок работы, описание основных разделов и функций программы, а также видео ролики, которые помогут понять суть работы с этими разделами.

  1. Сбор ссылок всех целевых страниц
  2. Первое, что нужно сделать, собрать адреса всех целевых страниц — карточек товаров или статей, исключив рубрики и страницы «о сайте», «контакты» и т.п. Делаем это во вкладке программы «Ссылки» (справка).

    Есть несколько способов сбора ссылок:

    Загрузить ссылки карты сайта. Если у сайта есть карта сайта для роботов — sitemap.xml, которая обновляется и содержит ссылки на все страницы сайта, добавьте её адрес и программа сама соберёт все ссылки.

    Название карты может быть любым и отличаться от sitemap.xml. Загляните в файл robots.txt, как правило, там указан адрес актуальной карты сайта для роботов.

    Генерировать ссылки. Если у страниц понятная структура, например, содержащая порядковые номера (id) страниц или товаров, то можно задать шаблон и сгенерировать все возможные варианты.

    Сканер сайтов. Настройте фильтрацию ссылок, указав какие ссылки включать, а какие не нужно. Запустите сканер и программа соберёт все ссылки.

    Отфильтровать ссылки на целевые страницы лучше сразу, но можно это сделать после загрузки кликнув правой кнопкой в окне ссылками и выбрав пункт «Настроить фильтр», а затем «применить фильтры».

  3. Настройка границ парсинга
  4. В программе есть 20 обычных границ и 5 повторяющихся границ. Использовать можно повторяющие внутри обычных и наоборот.

    Повторяющие границы нужны для сбора элементов, которые имеют одинаковый код. Например, парсинг картинок в галереи, строк или ячеек таблицы, списков характеристик.

  5. Шаблон вывода контента
  6. Здесь, Вы сможете настроить вывод/запись спарсенных блоков контента в определённой последовательности. Например, сначала вывести 5-ый блок, потом 3-й, а потом первый. Можно добавлять в шаблон произвольные слова и теги.

  7. Загрузка и обработка картинок
  8. Для загрузки картинок и других файлов на диск используется макрос DOWNLOADFILE, в который нужно поместить абсолютную или относительную ссылку на файл (справка).

    Для вызова настройки макроса DOWNLOADFILE: SHIFT+CTRL+L
    Вызов настройки обработки картинок: shift+ctrl+i

  9. Обработка и импорт в CMS
  10. Модуль программы, который поможет обработать и импортировать контент в популярные CMS.

    Пример создания файла импорта для WordPress

  11. Редактор CSV файлов
  12. Инструмент поможет редактировать csv файлы.

    Как переделать CSV прайс поставщика для импорта в интернет магазин (пример для Simpla CMS)

  13. Функция html to txt
  14. Функция позволяет очищать текст от html-тегов. Задать использование этой функции можно отдельно для каждой границы парсинга.

    Настройка функции html to txt.

  15. Планировщик заданий
  16. Здесь можно указать время и периодичность запуска парсинга сохранённых проектов.

  17. Работа с прокси
  18. Для парсинга можно использовать прокси. Программа имеет свой встроенный прокси чекер, который после загрузки прокси проверит их и удалит мёртвые. Также Вы можете указать, использовать прокси или нет, и если использовать, то при сканировании сайтов или при парсинге контента.

Готовые проекты Content Downloader

На форуме можно найти готовые проекты парсинга некоторых сайтов и заготовки для парсинга популярных CMS.

Страница обновляется. Здесь представлена подборка ссылок на инструкции и видео, которые помогут в освоении программы.

Если есть вопросы, на которые не требуется быстрый ответ, можете спрашивать в комментариях, но лучше это делать на форуме пользователей по ссылке выше.

Описаны не все возможности и функции программы. Пост редактируется и дополняется.

Комментарии:
  1. делает уникализацию 60-70%

    Интересно, а можно ли подробнее, как это происходит?

    • SEOjedi, программа не уникализирует контент. Автор комментария может перепутал с какой-то другой программой.

      Там есть возможность обработки данных прямо в процессе парсинга. То есть можно прогонять спарсенный текст через какой-нибудь скрипт уникализатор, но любой уникализатор на выходе даст бредотекст. Ещё у них (sbfactory) раньше был уникализатор http://web.archive.org/web/20120310221440/http://sbfactory.ru/?p=23, но сейчас в продуктах я его не нашёл, видимо снят с производства.)

  2. Программа норм. делает уникализацию 60-70%, просто после этого нужно ручками доработать текст и получить желаемые 100% я с ней работаю и не жалуюсь.

  3. Вот если честно немогу понять зачем нужен копипастный контент. Ну содрал, сделал магаз, яша ведь его выплюнет. Синонимайз? – для покупателей говнотекст получается. Единственное обоснование что он проживет как дорвей пару недель +- 2 недели. Для этого он нужен? CD имелось ввиду.

    • Почему он его должен выплюнуть. Если делают, значит не выплёвывает. Нормально они живут в индексе.

      Можно и уникализировать, меняя местами поля с описаниями, названия полей, цену, может ещё что-то, что можно заменить массово. Описания товаров это в большинстве магазинов характеристики товаров, без текстового описания. На сайте автора вроде бы были инструкции по созданию магазинов с уникализацией характеристик, хотя могу ошибаться.

      Если делается не псевдомагазин, а настоящий, то можно спарсив и импортировав нужные товары и их характеристики, дополнительно сделать короткие текстовые описания товаров, заказав тексты или написав один текст для группы товаров и размножить его.

      И не весь копипаст яша выплёвывает, видел много сайтов на копипасте, которые живут и ещё умудряются торговать ссылками.)

      А с помощью CD можно же не только парсить магазины. Можно парсить что угодно, вот для этого он и нужен.)