Вконтакте
Телефон для заказов: +7 (910) 487 81 94
Подписка на RSS

Парсер контента Content Downloader

Недавно по наводке Сеоштейна мне удалось приобрести замечательный парсер контента, который значительно экономит моё время при копировании материалов с других сайтов (а куда без копипаста?).

Хочется отметить, что автор программы всегда готов помочь и продолжает активную работу над усовершенствованием продукта, учитывая пожелания пользователей.

Помимо парсера, в программе есть ещё и много дополнительных полезностей, например: экспорт в Wordpress и Zebrum, массовая обработка файлов, работа с изображениями.

Сегодня этот инструмент стоит 810 рублей.

Давайте попробуем что-нибудь спарсить. Чтобы никого не обидеть, будем экспериментировать на моём блоге.

Парсинг контента

Откроем программу, нажмём на иконку настроек — откроются две вкладки, выберем «ссылки».

В список ссылок (самое нижнее окошко) добавим карту сайта и посмотрим, какие ссылки предполагается получить.

Как видите, здесь много лишних для нас страниц. Попробуем исправить ситуацию, задав границы парсинга. Для этого выделим ссылку в списке и в опции задать границы парсинга нажмём на троеточие.

Укажем кодировку utf-8, зададим начало парсинга:

и конец:

Теперь откроем «Фильтры» и настроим их следующим образом:

Замечу, что данные настройки актуальны именно для моего блога, для других сайтов придётся подгонять их индивидуально.

Далее введём стартовый url для сканирования всего сайта и нажмём на кнопку «получить ссылки».

Удаляем из списка полученных ссылок категории и другие непойманные мелочи, и имеем в итоге только ссылки на статьи. Так как однажды мне пришлось изменить шаблон ссылок на блоге, мне придётся ещё и удалить из списка образовавшиеся в следствие этого дубли.

Теперь перейдём на вкладку «контент», выберем любую ссылку и зададим границы парсинга для содержимого. Начало:

и конец:

Сошлёмся на первоисточник, укажем путь сохранения и выберем формат html. Включим загрузку картинок, да так, чтобы они сохранялись в одну папку. Если нажать «дополнительно», то в открывшемся окне можно будет указать имя этой папки и выбрать что, как и в каком количестве сохранять.

Теперь настроим заголовок. Укажем границы парсинга:

и настроим всё так, как на картинке:

Сделаем предпросмотр любого элемента из списка (двойной клик либо иконка с лупой), порадуемся тому, что скоро получим, и начнём парсинг нажатием на зелёную двойную стрелочку.

Откроем папку, в которую мы сохранили контент, проверим качество работы и приступим к экспорту.

Экспорт контента

Нажимаем на иконку «Обработка и импорт в КМС», там жмём на плюсик (расширенная функция добавления файлов), и в открывшемся окне добавляем всё, что мы только что спарсили.

Выбираем массовую обработку файлов, переходим на вкладку «автозаполнение полей», в заголовке выбираем «брать из тегов h», отмечаем удаление строки из текста и нажимаем «заполнить».

Если вы копируете контент для сателлитов под Sape, то совсем не лишним будет изменить заголовки на собственные. Метки желательно проставлять самостоятельно.

Можно автоматически вставить во все статьи тег < !--more-- >, это делается на вкладке «автопростановка тегов».

Переходим на вкладку «чистка документов» и удаляем пустые строки в начале документов.

На вкладке «преобразование < img >» сначала удаляем все префиксы, а затем добавляем примерно следующий префикс ко всем картинкам:

/wp-content/uploads/2010/05/

Если ваш сайт находится не в корневом каталоге, то придётся указать адрес полностью, например:

http://localhost/wordpress/wp-content/uploads/2010/05/

Если на сайте нет этой папки, то смело создаём её и заливаем туда все спарсенные изображения.

Вернёмся в программу и нажмём на иконку «сохранить всё», после чего можем приступить к созданию файла импорта нажатием на соответствующую иконку (документ с направленной вверх стрелочкой).

В открывшемся окне укажем путь сохрания, нужную CMS, и запланируем публикацию так, как нам нравится. Например:

Очень удобно, что система предсказывает дату последней публикации.

Нажимаем на кнопку «создать файл импорта» и переходим к импорту материалов на сайт.

Мы создали файл импорта для Wordpress, поэтому заходим в панель администратора этой CMS и переходим на страницу Инструменты → Импорт → Wordpress. Импортируем файл и наслаждаемся результатом.

Желаю вам всего самого доброго.
Артём Савельев.

P.S. Осталось чуть больше месяца до окончания марафона. Ссылки в сапе покупаются и Яндексом индексируются, контент загружается, вроде всё хорошо. Очень хотелось бы попасть под парочку апов тИЦ.

Понравилась статья?

Статьи по теме:

Создание блога под ключ всего за 999 рублей!

«Парсер контента Content Downloader» — 24 комментария

  • Ай яй яй...проказник ты Артем! Но за прогу и наводку зачет! :)

    Ответить

    @Supaman, я не столько статьи или новости парсю, сколько всяческие адреса, телефоны, объявления и подобное — думаю не так страшно, адреса они везде одни и те же

    Ответить

  • А ссылка на первоисточник активная?

    Ответить

    @Nata, да, но она между тегами noindex

    Ответить

  • Интересно и как такие сайты сидят. Им бан не страшен? Там же уника нет?

    Ответить

    @Nata, уник есть, но есть не только он =)

    Ответить

  • Как то ты это так обтекаемо а можно поподробнее. А то звучит вроде как пойди туда не знаю куда и принеси то не знаю что?

    Ответить

    @Nata, не уник в основном не статьи, а всяческая каталожная информация типа адресов, объявлений и похожих полезностей.

    Ответить

  • А зачем нужен тогда ворованный контент, если есть уник?

    Ответить

    @Денис, адреса, телефоны, объявления и подобное — потому что для многих сайтов нужно это, уника такого формата ненапасёшься.

    Ответить

  • А есть интипрога чтобы контент не парсили?

    Ответить

    @Дэн Гамбург, наверняка это как-то можно технически решить на стороне сайта.

    Ответить

    @Артём Савельев, скока читал, со стороны сайта решить нельзя, всё обходят))

    Ответить

  • Толковая прога, но у меня вот какой вопрос однако. Извините, если off.

    Сам я в программировании не силён, посоветуйте парсер для сбора блогов, причём чтобы не ошибался в определении DoFollow-NoFollow.

    Может есть какой универсальный, типа «для всего» ? :-)

    Заранее спасибо.

    Ответить

  • @Дэн Гамбург, можно выкладывать принтскриненый текст в виде картинки. Тогда не спарсят :)

    Ответить

  • Дмитрий, спарсят — картинки скачают , распознают и выложат !

    Ответить

  • не понимаю зачем воровать- ведь есть нормальный контент

    Ответить

  • myworld, воруют затем, что лень самим писать, рерайтить и т.д.

    Мы ж в России живем, заплатил денег, установил, настроил, наворовал, вот тебе и готовый проект)) а там пузы вырастил и в сапу...

    Ответить

  • Спасибо за программку Артем, действительно нужная вещь. Приобрел и радуюсь жизни. А скопискраденые тексты гоню через свой синонимайзер. Для сатиллетов самое оно :)

    Ответить

  • не плохой инструмент, возьму на вооружение

    Ответить

  • С ворованным контентом ща пузо сильно не наростиш))). Нащет синонимы для сателитов: поговаривают, что Яша закупил алгоритмы самых распространенных в сети синонимайзеров и по этим алгоритмам запросто распознает левый контент и отправляет в бан. Несзнаю насколько верные сведения насчет покупки, но то что мою сетку сателитов, с синонимизированным контентом отправили полностью в бан... это точно. Так что ... Уникальный контент рулит)))))))

    Ответить

    @AndrCom, и уникальный и копированный контент рулит, а вот синонимайз нет, не рулит =)

    Ответить

  • Где же стока уника взять-то? :-0

    Ответить

  • Артем, а где ты брал уникальный контент?

    Ответить

Ваш комментарий

Поля отмеченные * нужно в любом случае заполнить. Пожалуйста, воспринимайте буквально текст «Блог или профиль в соц. сети», не оставляйте ссылки на интернет-магазины, коммерческие сайты и страницы, на которых нельзя познакомиться с вами и вашей деятельностью - такое творчество будет удалено. Это dofollow блог.