Парсеры сайтов – программы для парсинга (статья №2).

0
654

В прошлой статье мы рассматривали программы для парсинга сайтов. Более подробно про парсинг сайтов: что это такое и для чего нужно, можете прочитать здесь.

Как ни странно, но интерес к парсингу сайтов в последнее время очень велик.Оно и не удивительно-не каждый способен ручками набирать злополучный текст,правильно оформлять его и доносить до читателя.

В этой статье мы продолжим рассматривать программы для парсинга сайтов, которые являются актуальными.

Парсер контента Uni Parse

UniParse – бесплатный быстрый парсер контента и url с возможностью настройки фильтрации.

Парсер-контента-Uni-ParseВозможности:
– тексты с сайтов
– настраивается парсинг с любого сайта без мусора
– парсит url страниц.

При использовании учтите, парсер url может вызвать ответную реакцию вашего хостинг-провайдера и он может заблокировать ваш IP.

Настройка парсера контента Uni Parse

  1. Запускаем программу и ставим галочку напротив «Селективный парсинг»
  2. Далее нажимаем «SelectiveParse» и вам откроется окно с настройками селективного парсинга.
  3. Теперь нажимаем «add new block». Этим действием добавляем новый блок парсинга.
  4. Указываем признак начала блока для парсинга и признак конца. Важно: 1 строка = 1 блок парсинга. Блок нельзя разбивать на несколько строк.
  5. Добавляем модификаторы «[-cleantext]». Теперь из текста при парсинге будут удаляться html теги и прочий мусор который нам не нужен.
  6. Теперь нужно протестировать блок парсинга что бы убедиться что все сделано верно. В поле URL введите адрес страницы сайта с которого хотите осуществить парсинг контента и нажмите кнопку «Test». Полученный результат парсинга откроется в блокноте. Если все сделано верно вы увидите чистый текст без мусора.
  7. Жмем «save» что бы сохранить настройки и закрываем окно.
  8. В поле «Cайт» вводим адрес нужного нам ресурса. с «http://» и со слэшем на конце «/». Вайтлист признаки адресов страниц с которых будет парсится текст – это любая последовательность символов из URL. Одна строка – один признак. Парсится по шаблонам будут только эти страницы, с остальных будут собираться только ссылки. В блэклист заносим страницы, где заведомо делать нечего – на такие страницы парсер доже за ссылками не пойдет.
  9. Теперь запускаем парсер и идем пить кофе.

Пример настроек для парсера контента Uni Parse

Ниже приведен пример настроек для парсинга сайта http://obzor-tyt.ru. Парсятся только основные статьи.
[crayon-/] Парсер вырезает контент от
[crayon-/] И включительно до
[crayon-/] Модификатор [-cleantext] говорит парсеру контента о том, что из полученного куска надо удалить все форматирование текста и весь мусор.

File-seven скачать

Плагин WP UniParser 3.0

WP UniParser 3.0 – это универсальный парсер, который умеет парсить контент с сайтов на абсолютно любых CMS!

WP UniParser 3.0 отличается простотой установки и настройки. Парсер устанавливается как обычный WordPress плагин. Чтобы спарсить контент с какого-либо сайта, вам нужно всего лишь указать границы блока контента, а также настроить правила обхода «жертвы».

WP UniParser 3.0 также предоставляет удобный функционал для обработки добываемого контента. Например, вы можете легко очистить контент от лишних тегов или рекламных блоков (если таковые там присутствуют). Еще одной удобной функцией плагина является автогенерация категорий. Благодаря ей парсер может автоматически сгенерировать сателлит, который по структуре категорий будет максимально приближен к сайту, с которого производится парсинг.

Стоит также упомянуть о возможности WP UniParser 3.0 планировать публикацию постов. Таким образом, вы можете за один раз напарсить огромное количество записей, которые будут постепенно публиковаться на вашем блоге в течение длительного периода времени.

Ну и напоследок – функция автоперевода контента через сервис Google Translate. Она позволяет пользователю указать язык, на который необходимо перевести спарсенный контент перед добавлением на блог. По умолчанию в плагине представлены самые популярные языки (русский, английский, немецкий, французский, украинский и др.), но если нужно, разработчик по просьбе покупателя может добавить любой язык, присутствующий в Google Translate.

Большим плюсом продукта является наличие хорошо проработанного FAQ. С ним будет полезно ознакомиться всем будущим покупателям.

File-seven скачать

КАК НАСТРОИТЬ ПЛАГИН WP UNIPARSER В АВТОНАПОЛНЯЕМОМ БЛОГЕ НА WORDPRESS

На сайте http://kolchaka.net/ показан простой пример работы плагина WP UniParser. Чтобы вам не прыгать с сайта на сайт, предоставлю данную информацию здесь.

Итак, заходим в админку своего блога, далее Параметры (Settings), далее WPUniParser.

Устанавливаем все настройки в соответствии с нижеприведенными:

Задайте URLы, с которых парсить контент (каждый с новой строки)
//kolchaka.net/

Выбор категории для сохранения
Выбирайте любую (в данном примере будет использована автогенерация категорий)

Выбор автора
Выбирайте любого

Выбор языка с которого переводить
Русский

Выбор языка на который переводить
English

Задавать вопрос о продолжении парсинга
ОТМЕЧЕНА

Вырезать скрипты
ОТМЕЧЕНА
Вырезать формы
ОТМЕЧЕНА
Вырезать комментарии
ОТМЕЧЕНА
Вырезать ссылки
ОТМЕЧЕНА
Вырезать рисунки
СНЯТА
Вырезать спаны
ОТМЕЧЕНА
Вырезать объекты
ОТМЕЧЕНА
Вырезать все теги
СНЯТА

Сохранять рисунки на свой сервер (замедляет работу парсера)
СНЯТА

Максимальный размер папки uploads (Кб)
Любое число (если рисунки на свой сервер не сохраняются, данный параметр не актуален)

Сколько постов публиковать сразу
5
Интервал в минутах между публикацией новых постов
15
Интервал в минутах до публикации первых постов (для публикации сразу)
0
Сколько максимум постов граббить за этот проход
20

Выводить логи всех ошибок (критические выводятся всегда) и обработки (не рекомендуется для больших сайтов)
ОТМЕЧЕНА
Страницы не прошедшие URL ограничения не включать в список для парсинга
СНЯТА

Введите регулярное выражение для поиска начальной позиции обрезки
/<div class="post-content clear-block">/i

Введите строки, по которым будет снизу обрезаться статья (каждая с новой строки)
<table class="post-meta">

Введите строки, при нахождении которых в URL страница игнорируется (каждая с новой строки) – ИЛИ логика
/feed
/uploads/
/category/
/sitemap
/contact
/author/
/print/
/search/
/label/

Введите строки, при нахождении которых в коде страницы она игнорируется (каждая с новой строки) – ИЛИ логика
ПУСТОЕ ПОЛЕ

Введите строки, одна из которых должна обязательно присутствовать в URL, чтобы страница обрабатывалась (каждая с новой строки) – ИЛИ логика

ПУСТОЕ ПОЛЕ

Введите строки, которые должны обязательно присутствовать в теле страницы, чтобы страница обрабатывалась (каждая с новой строки) – И логика
<div class="shareThis clear-block">

Введите теги, ограничивающие заголовок
<h1|</h1>

Введите ограничения участков для вырезания
ПУСТОЕ ПОЛЕ

SEO (вставка ключевиков в посты)
ПУСТОЕ ПОЛЕ

Минимальное количество вхождений ключевика
Любое число (если поле SEO пустое, эта настройка не актуальна)

Максимальное количество вхождений ключевика
Любое число (если поле SEO пустое, эта настройка не актуальна)

Введите метки для автогенерации категорий (NEW!!!)
rel="category tag">|</a>

Вот как выглядит админка с данными настройками:

Жмем Отпарсить.

Ожидаем окна с вопросом «Продолжить обработку необработанных страниц?».

Жмем OK. Начинается следующий проход. Парсинг продолжается. Количество страниц, обрабатываемых парсером за проход, устанавливается в соответствующем поле:

ВАЖНО: обратите внимание, что количество страниц, обработанных за проход, может не совпадать с количеством постов, добавленных на наш блог, поскольку некоторые страницы могут не пройти установленных пользователем ограничений (о них ниже).

Таким образом, парсер будет работать до тех пор, пока не обработает все страницы, попавшие в очередь на обработку. Если Вы не хотите, чтобы между проходами вам задавался вопрос о продолжении парсинга, снимите галочку «Задавать вопрос о продолжении парсинга».

Но вот, парсинг наконец-то закончился. Это видно по ставшим активными полям настроек. Теперь потянем полосу прокрутки вниз, чтобы добраться до логов работы парсера.

Лог (по умолчанию) имеет 4 раздела:
Лог сообщений (лог сообщений парсера, выданных за последний проход);
Информация о процессе обработки (общее количество обработанных страниц, а также страниц, которые еще предстоит обработать);
Обработанные страницы (в логе максимум 200) (URLы обработанных страниц. В логе выдается максимум 200).
Страницы, которые предстоит обработать (в логе максимум 200) URLы страниц, которые стоят в очереди на обработку. В логе выдается максимум 200).

В текущем примере мы видим, что блок «Страницы, которые предстоит обработать» не содержит ни одной записи. Так произошло, потому что WP UniParser спарсил все страницы сайта, которые прошли по заданным пользователем ограничениям, и на данный момент очередь страниц для обработки пуста.

Теперь можно оценить результаты работы плагина. Заходим на наш блог (на главную страницу) и видим, что у нас появилось 5 новых постов (согласно настройке «Сколько постов публиковать сразу»).

Далее заходим в админку (в меню Записи->Изменить) и видим, что на самом деле на блог добавилось 19 новых постов, из которых 5 опубликовано, а 14 запланировано (запланировано может быть и больше, если блог с момента написания FAQ будет расти). Далее, смотрим в свойства запланированных постов и видим, что каждый из них планируется на 15 минут позже предудыщего (согласно настройке «Интервал в минутах между публикацией новых постов»). Запланированные посты будут автоматически публиковаться во время, на которое они запланированы.

Спасибо за внимание.Надеюсь данная статья была интересной.