Парсинг автосайтов

Парсинг автосайтов


Парсинг информации с сайтов по продаже автомобилей.

Саму задачу можно разделить на 4 части:

1. Формирование задания: список сайтов, список данных, формат для экспорта данных
1. Непосредственно сам парсинг - сбор нужных данных 
2. Обработка (анализ) полученных данных
3. Передача (экспорт) данных в определенном формате, непосредственно в CRM заказчика

Особенность реализации этого проекта в том, что все источники данных защищены от роботов, для выполнения сбора информации мы написали самостоятельные браузеры, которые эмулируют естественное поведение людей на сайте и отличить эти браузеры от настоящего человеческого поведения невозможно. Запрос происходит с реально существующего браузера, который запускается на сервере в виртуальное среде. 

Созданный нами сервис отслеживает обновления на указанных сайтах, собирает данные, обрабатывает их, формирует файл в формате определенном заказчиком и совершает экспорт данных. Запрос - проверка на появление новой информации на указанных сайтах проводилась ежеминутно, а общий период сбора информации с сайта продолжался в течении нескольких месяцев беспрерывно.