В этой статье, я расскажу про универсальный парсер контента, которым Вы сможете спарсить контент практически с любого сайта. Читайте.

Парсер контента

В сети можно встретить множество различных парсеров контента заточенных под парсинг какого-то определённого вида контента, конкретного сайта или движка (CMS). У всех программ и скриптов заточенных под парсинг чего-то конкретного, есть один недостаток – они неуниверсальны, ими можно парсить какой-то определённый источник или тип сайтов. Плюс после обновления сайта источника или движка, в некоторых случаях, парсеры становятся неработоспособными и требуют обновлений, которые самостоятельно внести Вы вряд ли сможете.

Я хочу рассказать про универсальный парсер контентапрограмму Content Downloader. Отличие и превосходство программы над аналогами в том, что Вы можете самостоятельно настроить и парсить контент практически любого сайта.

Купив программу CD, вам больше не придётся тратиться на покупку или заказывать написание каких-то узких парсеров. Изучив инструкции и разобравшись в работе программы один раз, теперь Вы самостоятельно сможете “писать” парсеры, при этом, знаний в программировании Вам не потребуется. После освоения программы, Вы сможете спарсить практически любой сайт Сети.

Вы можете почитать многочисленные отзывы о программе, где говорится о достоинствах программы, что это действительно универсальный парсер. Единственное, в некоторых отзывах есть упоминание о том, что программа сложна в освоении. Отчасти согласен, но только отчасти. Это обычная многофункциональная программа имеющая много функций и настроек, на освоение которой, естественно, нужно потратить определённое время. Это не двухкнопочный парсер выдачи или конкретного сайта, где вбил url или запрос, нажал кнопку и получил результат. В узких парсерах, заточенных под парсинг чего-то конкретного, уже заложены нужные шаблоны, вам нужно только нажать кнопку и получить результат. В CD, всё по другому. Здесь Вы сами настраиваете шаблоны для парсинга, в этом его универсальность. Учитывая отличную справку, подборку статей и видеороликов по основным функциям программы и парсингу определённого типа сайтов, то проблем с освоением программы у Вас возникнуть не должно.

В этом посте я хотел описать все функции и варианты применения этой программы с примерами, но понял, что это нереально. Если описывать подробно все функции и возможные варианты использования программы, то получиться очень много букв и контента наберётся не на один пост, а на целый раздел. Столько я не готов написать в рамках этого поста, да и не имеет смысла, так как на сайте автора уже имеется много отличных инструкций и видео мануалов по конкретным функциям и возможным вариантам использования парсера контента Content Downloader. Ссылки приведу ниже. Плюс ко всему, сам я использую возможности программы максимум на 30-40 процентов, поэтому писать инструкцию под все способы использования программы, для меня проблематично.

Подборку ссылок на материалы, которые помогут освоить программу, даны в конце этой статьи. Ниже дал краткое описание основным настройкам и функциям программы Content Downloader.

  1. Загрузка страниц для парсинга
  2. Первое, что нужно будет сделать при парсинге, это загрузить адреса страниц сайта, которые Вы хотите спарсить. Указать адреса можно несколькими способами. Если у сайта есть карта, то Вы можете просто указать её адрес и программа спарсит все ссылки. Дополнительно можете проанализировать url’ы и задать фильтр, адреса с вхождением каких слов не включать в список (например, адреса разделов, тегов и т.п.). Если нет карты или вам нужно указать только определённые страницы/разделы сайта, то Вы можете, проанализировав ссылки, ввести ссылки по шаблону. Если по шаблону ссылки ввести невозможно, то можно спарсить ссылки задав границы парсинга.

  3. Настройка основных границ парсинга
  4. В этом разделе, Вы задаёте основные границы блоков контента, которые Вам нужно спарсить со страницы. Программа позволяет задать до 20 основных границ парсинга, то есть, проще говоря, со

  5. Настройка повторяющихся границ парсинга
  6. Это когда нужно спарсить повторяющиеся блоки на странице. Сначала Вы задаёте в “Основных границах парсинга” границы области, где выводятся повторяющиеся границы, а затем задаёте повторяющиеся границы. Программа спарсит контент всех заданных повторяющихся участков, расположенных до разметки конца области с повторяющимися границами. Это актуально для каталогов, списков и т.п. Программа позволяет задать до 5 повторяющихся границ.

  7. Обработка тегов
  8. Программа позволяет удалять из текста ненужные теги, тем самым очищая текст от мусора. Для того чтобы при парсинге удалялись ненужные теги, поставьте галочку на “htm to txt” и добавьте теги.

  9. Шаблон вывода контента
  10. Здесь, Вы сможете настроить вывод/запись спарсенных блоков контента в определённой последовательности. Например, сначала вывести 5-ый блок, потом 3-й, а потом первый. Можно добавлять в шаблон произвольные слова и теги.

  11. Импорт в CMS
  12. Этот мудуль программы позволяет импортировать спарсенный контент в CMS. На сайте автора описан процесс импорта. Ознакомьтесь. Этой функцией программы я не пользовался, так как для импорта контента в CMS использую зеброид.

  13. Синонимайзер контента
  14. Программа имеет встроенный синонимайзер контента и базу синонимов. Для использования синонимайзера нужно в настройках парсера в разделе “Дополнительно” отметить галочкой пункт “Синонимизировать”.

  15. Работа с прокси
  16. Для парсинга можно использовать прокси. Программа имеет свой встроенный прокси чекер, который после загрузки прокси проверит их и удалит мёртвые. Также Вы можете указать, использовать прокси или нет, и если использовать, то при сканировании сайтов или при парсинге контента.

  17. Парсер картинок google
  18. Инструмент, позволяющий парсить картинки с поиска по картинкам google. Вы лишь задаёте ключевые слова, по которым нужно искать картинки, а также можете указать размер картинок и их количество. Далее программа сама найдёт картинки и сохранит в казанную директорию на компьютере.

  19. Планировщик заданий
  20. Здесь Вы можете указать время и периодичность запуска парсинга сохранённых проектов.

Такой вот замечательный парсер контента. Думаю, будет незаменим и всегда пригодится в хозяйстве тем, кому иногда нужно чего-нибудь где-нибудь спарсить.

Многое из описанного выше, Вы можете не понять, пока не посмотрите видео и не прочитаете мануалы доступные на сайте автора.

В посте описал лишь основное. В парсере много различных настроек, часть из которых я ещё не использовал, так как не испытывал в этом необходимости.

Несколько видео роликов по использованию парсера контента с сайта разработчика:

Парсим произвольный сайт

Парсим интернет-магазин в CSV файл

Сайт разработчика: http://sbfactory.ru/

Страничка программы: http://sbfactory.ru/?p=600

Инструкции по эксплуатации: http://sbfactory.ru/cd/

Программа платная, как Вы уже наверно поняли. C 14.01.2012 09:32 по 21.01.2012 09:32 (включительно) программу можно купить по цене 1000 руб. Через дилеров можно купить дешевле. Желающим купить программу по акции, подскажу как дополнительно получить скидку 10%, то есть программа обойдётся Вам 900 руб. Если интересно, свяжитесь со мной.

Если считаете, что этот парсер контента для Вас окажется полезным, не упускайте момент купить программу со скидкой!

Акция домен в подарок продолжается:

Скрытая информация только для rss-подписчиков. Подпишитесь для регулярного получения эксклюзивной информации.


Декабрьский домен так никто и не хочет забирать. (:

Комментарии:
  1. делает уникализацию 60-70%

    Интересно, а можно ли подробнее, как это происходит?

    • SEOjedi, программа не уникализирует контент. Автор комментария может перепутал с какой-то другой программой.

      Там есть возможность обработки данных прямо в процессе парсинга. То есть можно прогонять спарсенный текст через какой-нибудь скрипт уникализатор, но любой уникализатор на выходе даст бредотекст. Ещё у них (sbfactory) раньше был уникализатор http://web.archive.org/web/20120310221440/http://sbfactory.ru/?p=23, но сейчас в продуктах я его не нашёл, видимо снят с производства.)

  2. Программа норм. делает уникализацию 60-70%, просто после этого нужно ручками доработать текст и получить желаемые 100% я с ней работаю и не жалуюсь.

  3. Вот если честно немогу понять зачем нужен копипастный контент. Ну содрал, сделал магаз, яша ведь его выплюнет. Синонимайз? – для покупателей говнотекст получается. Единственное обоснование что он проживет как дорвей пару недель +- 2 недели. Для этого он нужен? CD имелось ввиду.

    • Почему он его должен выплюнуть. Если делают, значит не выплёвывает. Нормально они живут в индексе.

      Можно и уникализировать, меняя местами поля с описаниями, названия полей, цену, может ещё что-то, что можно заменить массово. Описания товаров это в большинстве магазинов характеристики товаров, без текстового описания. На сайте автора вроде бы были инструкции по созданию магазинов с уникализацией характеристик, хотя могу ошибаться.

      Если делается не псевдомагазин, а настоящий, то можно спарсив и импортировав нужные товары и их характеристики, дополнительно сделать короткие текстовые описания товаров, заказав тексты или написав один текст для группы товаров и размножить его.

      И не весь копипаст яша выплёвывает, видел много сайтов на копипасте, которые живут и ещё умудряются торговать ссылками.)

      А с помощью CD можно же не только парсить магазины. Можно парсить что угодно, вот для этого он и нужен.)

Оставьте комментарий