Парсинг информации с сайтов по продаже автомобилей.
Саму задачу можно разделить на 4 части:
1. Формирование задания: список сайтов, список данных, формат для экспорта данных
1. Непосредственно сам парсинг - сбор нужных данных
2. Обработка (анализ) полученных данных
3. Передача (экспорт) данных в определенном формате, непосредственно в CRM заказчика
Особенность реализации этого проекта в том, что все источники данных защищены от роботов, для выполнения сбора информации мы написали самостоятельные браузеры, которые эмулируют естественное поведение людей на сайте и отличить эти браузеры от настоящего человеческого поведения невозможно. Запрос происходит с реально существующего браузера, который запускается на сервере в виртуальное среде.
Созданный нами сервис отслеживает обновления на указанных сайтах, собирает данные, обрабатывает их, формирует файл в формате определенном заказчиком и совершает экспорт данных. Запрос - проверка на появление новой информации на указанных сайтах проводилась ежеминутно, а общий период сбора информации с сайта продолжался в течении нескольких месяцев беспрерывно.