Парсинг сайта (site parsing) — это автоматический синтаксический анализ сайта с целью их сохранения результатов анализа в заранее подготовленной структуре данных, проще говоря, в базе данных.
Парсинг сайта нужен для автоматического получения отчета, на базе которого принимается решение.
Другими словами парсинг сайта нужен при работе с большими объемами информации на каком-либо сайте, то есть тогда, когда ручной просмотр сайта с целью получения какого-либо отчета дороже, чем автоматическое получение этого отчета.
Существует достаточно много полуфабрикатов парсинга, которые уже заточены настолько, насколько это возможно на поиск и сбор телефонов с различных сайтов для создания баз для холодного обзвона, или на сбор почтовых адресов с сайтов для различных спам рассылок, но работают эти полуфабрикаты не всегда устойчиво, так как владельцы сайтов стараются замаскировать почтовые адреса так, чтобы они были видны человеку, но не видны парсеру, например, сам почтовый адрес представляют в виде картинки. Кроме того, парсинговые полуфабрикаты довольно сложны в настройке. Порой сложность настройки парсингового полуфабриката сравнима со сложностью написания кода парсера с нуля.
Конечно же, парсеры полуфабрикаты не могут полноценно выполнять задачи сравнения цен на товары между ценами на товары заказчика и ценами на товары конкурентов заказчика. Максимум, что они могут сделать – это выгрузить названия товаров и цены на них в Excel. И дальше уже – задача сотрудников заказчика «вручную» догадаться, идет ли речь об одном и том же товаре, или же о разных, но с похожим названием.
Лучше всех в задачах парсинга сайтов преуспели команды поисковых систем: Google, Yandex, Bing и прочих. Но и у них не всегда и не все получается гладко.
Это я пишу к тому, что синтаксический и семантический анализ сайта не всегда дает гарантированный и устойчивый во времени результат, потому что анализируемые сайты тоже меняются, и если раньше перед номером телефона было слово «Телефон», то через какое-то время вместо этого слова может оказаться слово «Звоните», которое является ссылкой на автоматический набор номера с мобильного телефона.
Однако парсеры поисковых систем все же созданы для восприятия результатов своей работы человеком. Они, конечно же, не заточены на то, чтобы результаты отправлять в базу данных заказчика для последующей автоматической обработки и участия в бизнес процессах или использовании в отчетах. Выполнение задачи интеграции результатов своей работы с корпоративными системами заказчика поисковые системы отдают таким программистам, как я.
Что же предлагаю я в рамках услуги парсинга сайтов? В рамках услуги разработки парсера я предлагаю автоматизацию того, что у заказчика получается делать в ручном режиме, то, что делать приходится регулярно, в достаточно больших объемах, ту рутину, которую заказчик хотел бы автоматизировать. Мы опишем алгоритм работы в ручном режиме, и автоматизируем его.
Если у вас есть такая задача – пишите.