Сообщения

WPGrabber 2.1.320

Изображение
Работа с картинками, файлами формата jpg, jpeg, png, gif, которые присутствуют в теле статьи с донора.

1. Сгенерировать имена файлов картинок из заголовка Изначально wpgrabber создавал имена для картинок по незатейливой формуле
получалось что-то типа такого: 0160b531e131125a612942f00444eda9.jpg



Говорят,  для SEO это не очень хорошо :)
Будем создавать имена для файлов из заголовка для поста.
Из заголовка будем брать первые 145 символов, плюс добавим первые 7  символов из первоначальной формулы.


Хорошо. Дальше.

2.Свой атрибут class Удобно задать картинкам свой стилевой класс, который позволяет связать определенный тег со стилевым оформлением.


Заменит все стилевые классы донора, работает если в шаблоне HTML-кода картинок есть %ADDS%

3. Название для атрибута class Собственно, название для вашего класса, по умолчанию class="wpg_image"





4. Сгенерировать alt При включении этой опции wpgrabber попытается создать атрибут alt,
При выключенных 5 и 6:
     Если  alt у донора пустой, то …

Обновление плагина WPGrabber 2.1.319

Изображение
Решил зафиксировать изменения, внесенные за 2018 год в плагин WPGrabber.

[19.02.2018] Отладка
При настройке лент, случаются разные ситуации:
- сервер донора не доступен
- ваш ip адрес забанен админом донора
- старая версия SSL (Ошибка сертификата SSL: [Errno 1])
- при парсинге картинка битая, потому что в заголовках отсутствует "Accept-Encoding: gzip"

И чтобы быстро понять в чём дело, очень помогают следующии моменты.

WPGrabber не сохраняет картинки с относительными путями

Изображение
Настройка сетевых запросов WPGrabber
"Для скачивания файлов (картинок) использовать метод" -> CURL"Включить обработку редиректов" ->  Да   


Настройки  PHP (php.ini)
allow_url_fopen = On
open_basedir = off



Теперь настройки ленты, варианты:
1). Путь начинается со слеша(/)
Шаблон поиска ~src="/~is
Шаблон замены src="https:// илиsrc="http://




2). Если путь начинается с двойного слэша (//)
Шаблон поиска ~src="//~is
Шаблон замены src="https:// илиsrc="http://

Парсинг в WPGrabber с авторизацией

Изображение
Встречаются сайты, ограничивающие просмотр
для не зарегистрированых посетителей.

Типа такого: You have viewed your 1 free article

В WPGrabber для WordPress это выглядить как текст не найден!

Предлагаю простое решение: подложить cookiesзарегистрированного пользователя. 

Для этого используем плагин для Firefox тормозиллы :)
Устанавливаем Cookie Exporter, регистриремся на ресурсе,
В меню "Инструменты" -> "Export Cookies..." сохраняем под именем "cookies.txt" в папку временных файлов 
Обычно это "/wp-content/wpgrabber_tmp/"
 Файл cookies.txt выглядить примерно так:
Проверяем:
Страница с контентом:
Естественно, что периодически сессию придётся обновлять. Кроме этого надо добавить в файле TGrabberCore.php в  функцию getContent curl_setopt($ch, CURLOPT_COOKIEFILE, $this->cookieFile);
            curl_setopt($ch, CURLOPT_COOKIEJAR, $this->cookieFile);

а в function __construct()  добавить         $this->tmpDir     = $this->rootPath . $thi…

Настройка лент WPGrabber

Изображение
Заказать настройку ленты WPGrabberздесь
Импортирует контент с любого HTML-сайта, RSS-потока, со стен групп и сообществ ВК. Благодаря гибким настройкам обработки автоматически удаляются ненужные блоки информации, ссылки и картинки. Поддерживает режим автоматической работы обновления с другими сайтами. Работает без ограничений – собирает тексты с любого количества сайтов.Никаких привязок к домену, серверу или лицензии
Настройка плагина WPGrabberвключает автообновление, подключение API-ключ Яндекс.Переводчика, CRON-задание, порядок и периоды обновления лент, интервал запуска процессов, устранение неполадок и многое другое.





Плагин полностью совместим с WordPress 4.9.8 и предыдущими версиями движка.
Поддержка PHP 7.2







Просмотреть работу плагина на примерах граббинга контента с нескольких сайтов.
Пример парсинга ленты foto-interiors.com плагином wpgrabber 

Импорт контента в блог со стен групп и сообществ соц. сети Вконтакте.ру

Пример парсинга ленты tourprom.ru плагином wpgrabber



11.05.2018…

Пример импорта статей с forexlive.com для WPGrabber

Изображение
1) Создаем новую ленту в настройках плагина WPGrabber для Wordpress.
В строке «Наименование ленты» можно записать любое имя нашей настройки импорта, я обычно пишу URL без протокола, например: «forexlive.com/technical-analysis».

Как настроить авто обновление лент в WPGrabber используя CRON на сервере?

Изображение
Для того, чтобы ваши ленты в WPGrabber обновлялись регулярно и автоматически по определенному расписанию (через определенные промежутки времени)

Вам необходимо настроить CRON-задание на сервере, которое будет делать запрос по адресу:

http://ваш_сайт/?wpgrun=1

Всю эту настройку нужно производить в панели управления вашего хостинга.

Для начала убедитесь, что у вас есть такие возможности. Найдите в панели управления хостингом раздел "CRON" (Управление CRON, Планировщик CRON, CRONTAB, CRON-задания и т.д.).

Далее есть несколько вариантов настройки CRON-задания. Использование какого-либо из них зависит от настроек и возможностей вашего хостинга. Лучше всего почитать Справку или FAQ по настройке CRON-задание у вас на хостинге. Так же можно обратится к технического поддержке вашего хостинга с просьбой: "Прислать пример отправки GET-запроса по адресу http://ваш_сайт/?wpgrun=1 ".

Варианты CRON-заданий:
Через wget
Пример CRON-команды:

/usr/bin/wget -O 'http://ваш_сайт/?wp…