Content Downloader — универсальный парсер контента
Content Downloader — это универсальный парсер контента с сайтов. С помощью программы вы можете получать, структурировать и обрабатывать практически любую информацию из открытых источников.
- Купить программу можно на сайте разработчика sbfactory.ru
- Задать вопросы можно на форуме пользователей.
- Найти инструкции можно в системе помощи Content DownLoader.
- Видео с реальными примерами парсинга можно найти на канале автора программы.
Если нет желания или времени вникать и разбираться, вы можете заказать настройку проекта Content DownLoader.
Описание программы Content Downloader
Порядок работы, описание основных разделов и функций программы, а также видео ролики, которые помогут понять суть работы с этими разделами.
- Сбор ссылок всех целевых страниц
- Настройка границ парсинга
- Шаблон вывода контента
- Загрузка и обработка картинок
- Обработка и импорт в CMS
- Редактор CSV файлов
- Функция html to txt
- Планировщик заданий
- Работа с прокси
Первое, что нужно сделать, собрать адреса всех целевых страниц — карточек товаров или статей, исключив рубрики и страницы «о сайте», «контакты» и т.п. Делаем это во вкладке программы «Ссылки» (справка).
Есть несколько способов сбора ссылок:
Загрузить ссылки карты сайта. Если у сайта есть карта сайта для роботов — sitemap.xml, которая обновляется и содержит ссылки на все страницы сайта, добавьте её адрес и программа сама соберёт все ссылки.
Название карты может быть любым и отличаться от sitemap.xml. Загляните в файл robots.txt, как правило, там указан адрес актуальной карты сайта для роботов.
Генерировать ссылки. Если у страниц понятная структура, например, содержащая порядковые номера (id) страниц или товаров, то можно задать шаблон и сгенерировать все возможные варианты.
Сканер сайтов. Настройте фильтрацию ссылок, указав какие ссылки включать, а какие не нужно. Запустите сканер и программа соберёт все ссылки.
Отфильтровать ссылки на целевые страницы лучше сразу, но можно это сделать после загрузки кликнув правой кнопкой в окне ссылками и выбрав пункт «Настроить фильтр», а затем «применить фильтры».
В программе есть 20 обычных границ и 5 повторяющихся границ. Использовать можно повторяющие внутри обычных и наоборот.
Повторяющие границы нужны для сбора элементов, которые имеют одинаковый код. Например, парсинг картинок в галереи, строк или ячеек таблицы, списков характеристик.
Здесь, Вы сможете настроить вывод/запись спарсенных блоков контента в определённой последовательности. Например, сначала вывести 5-ый блок, потом 3-й, а потом первый. Можно добавлять в шаблон произвольные слова и теги.
Для загрузки картинок и других файлов на диск используется макрос DOWNLOADFILE, в который нужно поместить абсолютную или относительную ссылку на файл (справка).
Для вызова настройки макроса DOWNLOADFILE: SHIFT+CTRL+L
Вызов настройки обработки картинок: shift+ctrl+i
Модуль программы, который поможет обработать и импортировать контент в популярные CMS.
Пример создания файла импорта для WordPress
Инструмент поможет редактировать csv файлы.
Как переделать CSV прайс поставщика для импорта в интернет магазин (пример для Simpla CMS)
Функция позволяет очищать текст от html-тегов. Задать использование этой функции можно отдельно для каждой границы парсинга.
Настройка функции html to txt.
Здесь можно указать время и периодичность запуска парсинга сохранённых проектов.
Для парсинга можно использовать прокси. Программа имеет свой встроенный прокси чекер, который после загрузки прокси проверит их и удалит мёртвые. Также Вы можете указать, использовать прокси или нет, и если использовать, то при сканировании сайтов или при парсинге контента.
Готовые проекты Content Downloader
На форуме можно найти готовые проекты парсинга некоторых сайтов и заготовки для парсинга популярных CMS.
Страница обновляется. Здесь представлена подборка ссылок на инструкции и видео, которые помогут в освоении программы.
Если есть вопросы, на которые не требуется быстрый ответ, можете спрашивать в комментариях, но лучше это делать на форуме пользователей по ссылке выше.
Описаны не все возможности и функции программы. Пост редактируется и дополняется.
Интересно, а можно ли подробнее, как это происходит?
SEOjedi, программа не уникализирует контент. Автор комментария может перепутал с какой-то другой программой.
Там есть возможность обработки данных прямо в процессе парсинга. То есть можно прогонять спарсенный текст через какой-нибудь скрипт уникализатор, но любой уникализатор на выходе даст бредотекст. Ещё у них (sbfactory) раньше был уникализатор http://web.archive.org/web/20120310221440/http://sbfactory.ru/?p=23, но сейчас в продуктах я его не нашёл, видимо снят с производства.)
Программа норм. делает уникализацию 60-70%, просто после этого нужно ручками доработать текст и получить желаемые 100% я с ней работаю и не жалуюсь.
Вот если честно немогу понять зачем нужен копипастный контент. Ну содрал, сделал магаз, яша ведь его выплюнет. Синонимайз? – для покупателей говнотекст получается. Единственное обоснование что он проживет как дорвей пару недель +- 2 недели. Для этого он нужен? CD имелось ввиду.
Почему он его должен выплюнуть. Если делают, значит не выплёвывает. Нормально они живут в индексе.
Можно и уникализировать, меняя местами поля с описаниями, названия полей, цену, может ещё что-то, что можно заменить массово. Описания товаров это в большинстве магазинов характеристики товаров, без текстового описания. На сайте автора вроде бы были инструкции по созданию магазинов с уникализацией характеристик, хотя могу ошибаться.
Если делается не псевдомагазин, а настоящий, то можно спарсив и импортировав нужные товары и их характеристики, дополнительно сделать короткие текстовые описания товаров, заказав тексты или написав один текст для группы товаров и размножить его.
И не весь копипаст яша выплёвывает, видел много сайтов на копипасте, которые живут и ещё умудряются торговать ссылками.)
А с помощью CD можно же не только парсить магазины. Можно парсить что угодно, вот для этого он и нужен.)