Наполняем Облако Данных — Web Crawler As a Service

Cуществует множество сервисов, позволяющих вам хранить и накапливать данные в облаке. Но для каких задач используются такие облака? В Digital мире наиболее ценная информация — это содержимое web-ресурсов, эффективная работа с которыми позволяет решать неограниченное число бизнес задач. А Web Crawler — рабочая лошадка — инструмент, который позволяют добывать такую информацию, сегодня доступен в облаке.

Web Crawler - crawler.1dmp.io

Ярким примером такого инструмента является сервис crawler.1dpm.io, позволяющий извлечь новые знания из web-ресурсов и использовать web для обогащения своих данных и построения новых бизнес-моделей. Какие сценарии и кейсы открываются перед компаниями с использованием подобных сервисов?

Web Crawler появился как часть поисковых систем и исторически решал задачи обхода web-ресурсов и их индексации для оптимизации поиска.

Кейсы для Web Crawler

Но необходимость анализа содержимого web-страниц сегодня выходит за рамки поиска и используется в множестве новых задач, например:

  • Персональные предложения и рекомендации — как понять, чем интересуется на самом деле клиент;
  • Таргетированная реклама и Real-Time Bidding;
  • Мониторинг медийного пространства и анализ эмоциональной окраски;
  • Сравнение цен конкурентов, анализ рынков и изменений на них;
  • Обогащение клиентского профиля (в том числе и из социальных сетей);
  • Выявление трендов и динамики на базе открытых источников.

Как работает Web Crawler

При работе с содержимым web-страниц можно выделить 4 ключевые задачи:

  1. Получение списка web-ресурсов, с которых необходимо получить информацию;
  2. Получение содержимого web-ресурсов;
  3. Анализ полученных текстов;

Например, вам необходимо показать клиенту рекламу, в соответствии с его интересами. Сегодня существует множество способов понять, какие web-ресурсы посещал клиент и получить их в виде списка url.

О том, как происходит отслеживание вашей жизни в интернет я уже упоминал. В случае с RTB такими данными обладает DMP (Data Management Platform) платформа.

Обладая таким списком, Web Crawler выкачивает значимый текст с интернет страниц.

Далее этот текст может быть проанализирован на ключевые слова или передан в сервисы классификации текстов, чтобы понять тематику содержимого. Современные сервисы классификации используют механизмы машинного обучения, предлагая возможности по настройке вашей собственной таксономии (например, категории интересов или эмоциональной окраски) и позволяют достичь точности более 90%.

Понимая, что нужно вашему клиенту — вы делаете ему то предложение, которое он ожидает в данный момент.

Сбор содержимого web-страниц — задача не из легких и требует достаточных аппаратных ресурсов, особенно если выполняется на постоянной основе. Многие сайты пытаются защититься от сбора информации, блокируя такие сервисы. Для каких-то сайтов необходимо правильно настраивать расписание обхода, а для каких-то строить полноценное кеширование, чтобы не ходить за одной и той же информацией.

Поэтому сегодня Web Crawler As A Service должен не только предоставлять возможность по web-адресу получить его содержимое.

Но и представлять собой полноценное хранилище, для хранения структурированной и не структурированной информации, с личным кабинетом, интерфейсами загрузки и выгрузки данных. А также дополнительную аналитику, которую можно применять непосредственно на данных без выгрузки их из облака.

( Hadoop + R + NoSQL)  — обязательные архитектурные элементы Web Crawler As A Service

Протестировать платформу работы с данными в облаке, а также сервис Web Crawler можно на сайте 1DMP.io

Вопрос: А вы готовы воспользоваться возможностями таких сервисов? Что еще -as-a-Service на ваш взгляд будет развиваться в ближайшее время?  

Вы можете оставить комментарий здесь