Этот курс сделает вас профессиональным разработчиком парсеров, роботов, скриптов автоматизации. Вы сможете парсить сайты любой сложности, работать с Selenium Webdriver, писать роботы, и создать платформу уровня UNI Delivery. Курс будет активно наполняться новыми лекциями и разделами!
Курс включает в себя такие разделы:
1. Простой парсинг
Вы изучите, как парсить простые сайты с минимальными затратами времени. Как сохранять контент в БД и запускать параллельно несколько потоков парсера.
2. Автоматизация, роботы, парсеры, тестирование с помощью Selenium и PHP
Вы научитесь работать в Selenium WebDriver с помощью PHP – мы сделаем заказы в интернет магазинах с помощью робота.
3. Работа с cURL, прокси, Cookie
Изучим работу с cURL, прокси, Cookie в PHP.
4. Копии сайтов с помощью cURL, создание прокси скрипта
Автор курса – разработчик платформы UNI Delivery, где десятки американских магазинов открываются внутри платформы. Мы создадим LIVE (онлайн) копии таких сайтов как Amazon и 6PM.
5. Работа с PhantomJS
Вы изучите PhantomJS – виртуальный браузер, мощный инструмент для автоматизации и парсинга.
6. Работа с DigitalOcean, Vultr
Вы узнаете, как работать с виртуальными серверами на платформах DigitalOcean, Vultr и разворачивать там парсеры.
Введение
Простой парсинг
PhantomJS и PHP. Парсим сайты. Создаем живую копию сайта Zappos.com
В этой лекции вы узнаете, что такое PhantomJS и как его запускать из командной строки.
Вы также узнаете, как получить скриншот, исходный код страницы.
Вы увидите, как можно задать параметры браузера, например, разрешение экрана (размер окна).
В этой лекции мы создадим приложение-генератор скриншотов сайтов на PHP. Узнаем как подменять User Agent.
В этой лекции мы напишем JS код, который будет получать все ссылки на страницы категорий Zappos.com. Далее этот код будет использоваться для получения JSON и передачи массива ссылок на сторону PHP. В следующей лекции мы запустим этот код в PhantomJS и научимся работать с файловой системой.
В этой лекции мы узнаем, как выполнить сторонний (пользовательский) код на странице, которая загружена через PhantomJS.
В этой лекции показано, как записать данные на диск из PhantomJS. Также мы прочитаем эти данные из PHP и превратим их в ассоциативный массив.
В этой лекции вы узнаете, как использовать рекурсию в PhantomJS для того, чтобы пройтись по пеждинации (1,2,...200...) страниц каталога. Мы будем находить ссылку на след. страницу каталога и парсить ее.
В этой лекции вы узнаете, как спарсить все ссылки на товары со страницы категории интернет магазина.
В этой лекции вы увидите, как можно записать все ссылки на товары в один файл JSON для того, чтобы дальше работать с ними в PHP.
Бонус. Безлимитный Google Translate без ключа API. Парсинг Google Translate
В этой лекции вы узнаете, как написать свой парсер гугл транслейт и как передавать параметры из командной строки прямо в PhantomJS.