
Недавно по наводке Сеоштейна мне удалось приобрести замечательный парсер контента, который значительно экономит моё время при копировании материалов с других сайтов (а куда без копипаста?).
Хочется отметить, что автор программы всегда готов помочь и продолжает активную работу над усовершенствованием продукта, учитывая пожелания пользователей.
Помимо парсера, в программе есть ещё и много дополнительных полезностей, например: экспорт в Wordpress и Zebrum, массовая обработка файлов, работа с изображениями.
Сегодня этот инструмент стоит 810 рублей.
Давайте попробуем что-нибудь спарсить. Чтобы никого не обидеть, будем экспериментировать на моём блоге.
Парсинг контента
Откроем программу, нажмём на иконку настроек — откроются две вкладки, выберем «ссылки».
В список ссылок (самое нижнее окошко) добавим карту сайта и посмотрим, какие ссылки предполагается получить.

Как видите, здесь много лишних для нас страниц. Попробуем исправить ситуацию, задав границы парсинга. Для этого выделим ссылку в списке и в опции задать границы парсинга нажмём на троеточие.
Укажем кодировку utf-8, зададим начало парсинга:

и конец:

Теперь откроем «Фильтры» и настроим их следующим образом:

Замечу, что данные настройки актуальны именно для моего блога, для других сайтов придётся подгонять их индивидуально.
Далее введём стартовый url для сканирования всего сайта и нажмём на кнопку «получить ссылки».
![]()
Удаляем из списка полученных ссылок категории и другие непойманные мелочи, и имеем в итоге только ссылки на статьи. Так как однажды мне пришлось изменить шаблон ссылок на блоге, мне придётся ещё и удалить из списка образовавшиеся в следствие этого дубли.
Теперь перейдём на вкладку «контент», выберем любую ссылку и зададим границы парсинга для содержимого. Начало:

и конец:

Сошлёмся на первоисточник, укажем путь сохранения и выберем формат html. Включим загрузку картинок, да так, чтобы они сохранялись в одну папку. Если нажать «дополнительно», то в открывшемся окне можно будет указать имя этой папки и выбрать что, как и в каком количестве сохранять.

Теперь настроим заголовок. Укажем границы парсинга:
![]()
и настроим всё так, как на картинке:

Сделаем предпросмотр любого элемента из списка (двойной клик либо иконка с лупой), порадуемся тому, что скоро получим, и начнём парсинг нажатием на зелёную двойную стрелочку.
Откроем папку, в которую мы сохранили контент, проверим качество работы и приступим к экспорту.
Экспорт контента
Нажимаем на иконку «Обработка и импорт в КМС», там жмём на плюсик (расширенная функция добавления файлов), и в открывшемся окне добавляем всё, что мы только что спарсили.
Выбираем массовую обработку файлов, переходим на вкладку «автозаполнение полей», в заголовке выбираем «брать из тегов h», отмечаем удаление строки из текста и нажимаем «заполнить».
Если вы копируете контент для сателлитов под Sape, то совсем не лишним будет изменить заголовки на собственные. Метки желательно проставлять самостоятельно.
Можно автоматически вставить во все статьи тег < !--more-- >, это делается на вкладке «автопростановка тегов».
Переходим на вкладку «чистка документов» и удаляем пустые строки в начале документов.
На вкладке «преобразование < img >» сначала удаляем все префиксы, а затем добавляем примерно следующий префикс ко всем картинкам:
/wp-content/uploads/2010/05/
Если ваш сайт находится не в корневом каталоге, то придётся указать адрес полностью, например:
http://localhost/wordpress/wp-content/uploads/2010/05/
Если на сайте нет этой папки, то смело создаём её и заливаем туда все спарсенные изображения.
Вернёмся в программу и нажмём на иконку «сохранить всё», после чего можем приступить к созданию файла импорта нажатием на соответствующую иконку (документ с направленной вверх стрелочкой).
В открывшемся окне укажем путь сохрания, нужную CMS, и запланируем публикацию так, как нам нравится. Например:

Очень удобно, что система предсказывает дату последней публикации.
Нажимаем на кнопку «создать файл импорта» и переходим к импорту материалов на сайт.
Мы создали файл импорта для Wordpress, поэтому заходим в панель администратора этой CMS и переходим на страницу Инструменты → Импорт → Wordpress. Импортируем файл и наслаждаемся результатом.
Желаю вам всего самого доброго.
Артём Савельев.
P.S. Осталось чуть больше месяца до окончания марафона. Ссылки в сапе покупаются и Яндексом индексируются, контент загружается, вроде всё хорошо. Очень хотелось бы попасть под парочку апов тИЦ.


Пассивный доход
Пассивный доход
Размещение ссылок
Размещение статей
Размещение ссылок
Размещение ссылок
Ссылки
Ссылки
Быстрые ссылки
Ссылки и статьи
Ай яй яй...проказник ты Артем! Но за прогу и наводку зачет!
Ответить
@Supaman, я не столько статьи или новости парсю, сколько всяческие адреса, телефоны, объявления и подобное — думаю не так страшно, адреса они везде одни и те же
Ответить
А ссылка на первоисточник активная?
Ответить
@Nata, да, но она между тегами noindex
Ответить
Интересно и как такие сайты сидят. Им бан не страшен? Там же уника нет?
Ответить
@Nata, уник есть, но есть не только он =)
Ответить
Как то ты это так обтекаемо а можно поподробнее. А то звучит вроде как пойди туда не знаю куда и принеси то не знаю что?
Ответить
@Nata, не уник в основном не статьи, а всяческая каталожная информация типа адресов, объявлений и похожих полезностей.
Ответить
А зачем нужен тогда ворованный контент, если есть уник?
Ответить
@Денис, адреса, телефоны, объявления и подобное — потому что для многих сайтов нужно это, уника такого формата ненапасёшься.
Ответить
А есть интипрога чтобы контент не парсили?
Ответить
@Дэн Гамбург, наверняка это как-то можно технически решить на стороне сайта.
Ответить
@Артём Савельев, скока читал, со стороны сайта решить нельзя, всё обходят))
Ответить
Толковая прога, но у меня вот какой вопрос однако. Извините, если off.
Сам я в программировании не силён, посоветуйте парсер для сбора блогов, причём чтобы не ошибался в определении DoFollow-NoFollow.
Может есть какой универсальный, типа «для всего» ?
Заранее спасибо.
Ответить
@Дэн Гамбург, можно выкладывать принтскриненый текст в виде картинки. Тогда не спарсят
Ответить
Дмитрий, спарсят — картинки скачают , распознают и выложат !
Ответить
не понимаю зачем воровать- ведь есть нормальный контент
Ответить
myworld, воруют затем, что лень самим писать, рерайтить и т.д.
Мы ж в России живем, заплатил денег, установил, настроил, наворовал, вот тебе и готовый проект)) а там пузы вырастил и в сапу...
Ответить
Спасибо за программку Артем, действительно нужная вещь. Приобрел и радуюсь жизни. А скопискраденые тексты гоню через свой синонимайзер. Для сатиллетов самое оно
Ответить
не плохой инструмент, возьму на вооружение
Ответить
С ворованным контентом ща пузо сильно не наростиш))). Нащет синонимы для сателитов: поговаривают, что Яша закупил алгоритмы самых распространенных в сети синонимайзеров и по этим алгоритмам запросто распознает левый контент и отправляет в бан. Несзнаю насколько верные сведения насчет покупки, но то что мою сетку сателитов, с синонимизированным контентом отправили полностью в бан... это точно. Так что ... Уникальный контент рулит)))))))
Ответить
@AndrCom, и уникальный и копированный контент рулит, а вот синонимайз нет, не рулит =)
Ответить
Где же стока уника взять-то? :-0
Ответить
Артем, а где ты брал уникальный контент?
Ответить