Артем Астафуров: «Мы начинали с паяльников, но остановились на облаке»

19 июля 2016
Артем Астафуров, лидер практики M2M/IoT

Лидер практики IoT DataArt рассказывает, как изменился интернет вещей за последние три года, о новых инженерных задачах и кадровых трудностях рынка, о том, куда движется платформа DeviceHive и что такое Big Data Академия.

— IoT несколько лет назад и сегодня — две совершенно разных истории?

— Мы начали это путешествие года четыре назад, и тогда направление IoT начиналось с датчиков, подключаемых к интернету, и «умных домов». Конечно, сейчас многое из того, что казалось важным и оригинальным в то время, выглядит достаточно наивным. Но в целом именно работа, проделанная с самого начала и до сегодняшнего дня, дает нам опыт, на который мы можем опереться. Сегодня Internet of Things — второй большой хайп после Big Data. Можно сказать, что, как только все закончили говорить о Big Data в энтерпрайзе, тут же начали говорить, как крупные корпорации будут применять IoT на практике.

Впрочем, по сути одно — логическое продолжение другого: в IoT мы имеем дело с большим количеством данных и событиями, которые нужно анализировать в реальном времени, а затем делать из них выводы. Мы имеем дело с тем, что раньше называли просто аналитикой, а теперь называют predictive analytics — нам необходимо на основе событий, прошлых и настоящих, предсказать, как ситуация будет меняться в будущем. И корни многих самых важных и интересных инженерных проблем нашего времени действительно растут из Internet of Things, поскольку наряду с финансами, онлайн-рекламой и социальными сетями, именно вещи генерируют больше всего событий и данных. И как раз получение, передача, анализ и хранение и представляют самый большой интерес и для DataArt, и для энтерпрайзов, и, наверное, для всего IT-сообщества.

Изначально была гипотеза, что мы будем помогать подключать устройства к интернету и давать инструменты взаимодействия с этими устройствами — так родился DeviceHive. На практике оказалось, что одни из самых интересных задач возникают вокруг больших объемов данных, которые генерируют эти устройство. Так наши задачи перешли в область создания распределенных систем, которые умеют прокачивать через себя эти данные и дают возможность строить на их основе различную аналитику, чтобы по-разному реагировать на сложные события.

— Вещи способны генерировать мощные потоки данных, но о каких именно объемах идет речь?

— Мы говорим о терабайтах и даже петабайтах информации. Мы говорим о данных, которые давно не умещаются на один сервер и, честно говоря, в рамках задач, которые решаем мы, самого понятия сервера уже не существует. Мы оперируем понятиями облачной инфраструктуры, в которую по мере усложнения задачи и увеличения объема информации просто добавляются необходимые ресурсы. Мы даже не знаем, где выполняется наша конкретная задача, поскольку никогда не смотрим на эти машины отдельно. Мы используем их десятками, а иногда и сотнями — и для нас это просто вычислительные мощности, которые прокачивают через себя наши данные.

— Будут ли необходимые мощности в будущем объединятся на ограниченном количестве платформ? И обострит ли это конкуренцию между платформами?

— Это так. Сейчас основные игроки известны: Amazon, Microsoft, Google и IBM. Причем мы можем долго дискутировать, как индустрия будет выглядеть через пять лет, но стоит признаться, что мы этого попросту не знаем. Например, многим кажется, что IBM несколько отстает от жизни. Но давайте вспомним, что происходило с IBM и персональными компьютерами в 80-е годы. Apple тогда приоткрыл эту дверь, а уже в середине десятилетия потерял эту нишу — ее заняли IBM и Microsoft. Так что никто не может предсказать, как пойдут дела с тем же Amazon, который сегодня, конечно, доминирует. Энтерпрайз их — все корпорации хотят переходить на инфраструктуру Amazon, избавляясь от своей собственной. Но нам еще предстоит увидеть, какую карту разыграет IBM.

— И Microsoft?

— О нем точно не стоит забывать — в последнее время он очень сильно выглядит на общем фоне. Интересно, что они будут делать дальше после покупки LinkedIn. Потому что, как мы понимаем, речь идет не только об инфраструктуре для бизнес-приложений и аналитики, но еще и о данных — о том, где эти данные находятся и что значат для бизнеса. Большое количество информации из LinkedIn в Microsoft Azure может сделать обращение к нему очень привлекательной сделкой для многих желающих использовать облако.

— Локальные, заточенные под специфические задачи платформы точно уйдут в прошлое?

— Можно просто посмотреть на то, как происходила эволюция операционных систем. Сначала было много локальных вариантов, потом появились основные игроки, накрывшие собой почти всю индустрию. Они-то и заняли свои ниши – одни в персональных компьютерах, другие в быстрорастущих серверных системах времен интернет-бума. С облачными технологиями мы можем получить похожую картинку — большие кластеры проблем, решаемых с помощью той или иной инфраструктуры и того или иного облачного предложения, уже вырисовываются.

Как я уже говорил, большинство крупных компаний хочет в Amazon, более консервативные хотят в IBM и ждут, что тот предложит. Правда, после того как это предложение будет сделано, неизвестно, как поведут себя все те, кто стремился в Amazon. Многие боятся оказаться в полной зависимости от Amazon и строят свои системы так, чтобы их можно было перенести из облака в облако — это еще одна нетривиальная задача, которую мы помогаем решать клиентам.

— Задачи, стоящие перед практикой внутри компании, меняются вместе с индустрией?

— Вообще история IoT вывела нас в очень интересное место, оказаться в котором совершенно не ожидали: наша компания просто была открыта миру, поэтому нас сюда и занесло. Теперь мы говорим про параллельные вычисления, работу с большими объемами данных, машинное обучение, облачные системы и дизайн систем для облака. Все это в принципе изменило наш взгляд на вещи. Здесь, конечно, требуется серьезная подготовка, и в связи с этим мы повернули нашу open source-платформу DeviceHive в ту же сторону.

Три года назад мы сделали DeviceHive, имея в голове определенную картину: видели его неким веб-сервером, к которому будут подключаться устройства и посылать сообщения, которые мы с помощью веб-приложений сможем читать. Затем мы поняли, что для реальных масштабов задач IoT старый дизайн не совсем подходит — пришлось взглянуть на архитектуру по-другому. Мы усвоили уроки и стали развивать DeviceHive, в этом участвовали несколько поколений команд. По мере своего развития, DeviceHive стал и платформой для обучения. Новые специалисты, которые сейчас приобретают опыт, работая с DeviceHive, потом будут помогать нашим клиентам строить масштабируемые распределенные системы.

— Какие задачи практика IoT в DataArt сейчас решает для клиентов?

— В большинстве наших проектов мы выступаем не только как разработчики, но и как консультанты. Когда клиент просит у нас резюме людей, которые владеют всеми современными облачными технологиями, мы стараемся повернуть разговор в сторону конкретных проблем, которые компании нужно решить. Мы предлагаем вместе посмотреть на реальную ситуацию и решить, как мы можем помочь, исходя из суммарного опыта практики. Поскольку IoT — очень горячий рынок, на котором ощущается острая нехватка кадров, обычно на такое предложение реагируют очень хорошо.

— Специалистов в индустрии действительно остро не хватает?

Мы готовим кадры с помощью DeviceHive, у новых инженеров есть возможность поучаствовать в разработке платформы и записать это себе в резюме. Поскольку область сама по себе очень новая, нам тяжело строить экспертизу только на проектах, которые мы делаем для клиентов. Ведь чтобы заявить опыт, нужно его иметь, а для этого необходимы клиенты, способные дать задачи, решая которые, мы этот опыт приобретем. Стандартные решения в этой области только начали появляться, и нам пока приходится много тренироваться самим. С одной стороны, мы понимаем, как можем сделать DeviceHive лучше, с другой — инженеры на примере нашего собственного проекта учатся решению возникающих проблем.

На площадке DeviceHive возникла еще одна интересная структура — Big Data Академия, в которой собираются люди, которым небезразлична тема больших данных и распределенных систем и облачных вычислений. Там есть курсы, темы для обсуждения, задачи, форум, на котором можно попросить совета или поделиться интересной информацией. На этой площадке возникают группы, которые идут, например, участвовать в соревнованиях по машинному обучению.

— Правда ли, что требования к инженерам в сфере IoT особенно высокие?

Это так, но рост требований — общий тренд всей индустрии, связанный с развитием инструментов производства. Я бы даже назвал это индустриальной революцией внутри индустриальной революции, когда более традиционные, классические подходы заменяются автоматизированными или более инновационными. Примерно то же происходит и у нас. Многие задачи и сейчас можно решать с помощью менее продвинутой технологии, но у них есть свои ограничения, определенная стоимость поддержки, какие-то потенциальные проблемы, которые пока, может, и не так важны в рамках конкретного проекта, но впоследствии все чаще проявляются. В этом случае нужно поворачиваться, искать новые кадры и всеми силами помогать своим специалистам овладеть технологиями, больше общаться с теми, кто уже получил нужный опыт. Для этого мы и придумали Big Data Академию, куда может попасть любой любопытный. Там нет никаких вступительных тестов — каждый может посмотреть, интересна ли ему эта тема.

Но в целом требования к кадрам меняются, что позволяет нам заинтересовать на рынке труда инженеров, которым раньше наши предложения могли бы показаться не такими интересными. Ведь нельзя сказать, что этих кадров нет в принципе — просто некоторое время назад у нас не было такого объема задач достаточной сложности. Сейчас круг задач, способных по-настоящему увлечь инженерно мыслящих специалистов, серьезно расширился.

— Т. е. IoT — направление для настоящих гиков?

В некотором смысле. Это вносит определенные коррективы в то, как мы предоставляем сервис клиенту. Мы видим все меньше интервью и резюме, и все чаще сразу помогаем делом, выполняя пилотные проекты и превращая их в долгосрочные отношения. И должен сказать, многие работающие в нашей группе действительно всем этим живут и дышат.

— Всего за три года DeviceHive пережил кардинальную трансформацию. Это связано со скоростью развития всего IoT-направления? Так будет продолжаться и дальше?

— Да, конечно. До конца прочувствовать, что такое Agile-практики, мы смогли как раз в IoT-проектах, в том числе, DeviceHive. Выстроив план на год, по прошествии времени ты можешь только посмеяться над ним и вообще над тем, что ты думал о своей работе. Естественно, нужно вносить базовые ограничения, чтобы не пытаться решить все проблемы одновременно. Но иметь структуру, полностью открытую будущему, — это и есть «гибкая методология разработки». Какие-то вещи, дальнейшая работа над которыми казалось важной при создании DeviceHive, сегодня кажутся слаборелевантными: некоторые технологии просто отпали как стандартная практика в индустрии и даже перестали поддерживаться. Меняется команда — все-таки, мы пишем платформу внутри сервисной компании, что непросто даже с организационной точки зрения. Но за счет готовности к изменениям мы и двигаем DeviceHive в ногу со временем. И это фантастическое ощущение.

— Вопросы безопасности остаются ключевыми для индустрии IoT? Или изнутри возможные риски не выглядят так устрашающе?

— В конце концов, все мы люди. И если мы посмотрим на пирамиду Маслоу, точно обнаружим безопасность где-то в ее основании. Некоторые теперь любят в самый низ пририсовывать wi-fi, но все равно никто не отрицает, что безопасность — фундаментальная потребность каждого из нас. Мы постоянно, причем все чаще, сталкиваемся с предметами, связанными c интернетом вещей. Это уже не «умные дома» и носимые устройства, а практически все окружающие нас технологии: приложения на телефонах, отсылающие статистику своего использования, телеметрия с общественного транспорта, с помощью которой отслеживают сроки техобслуживания, данные, снимаемые с самолетов в воздухе, события, происходящие на рекламных площадках и т. д. И я бы не сказал, что в плане безопасности все это выглядит очень уж радужно. Жить-то мы будем, но, наверное, все могло бы быть продумано и лучше.

Сейчас мы как раз готовим очередной релиз DeviceHive, который выйдет в октябре — там целая пачка изменений будет касаться безопасности. В принципе прежде всего мы и фокусируемся на безопасности и производительности, которые между собой очень тесно связаны. Это динамическая система, в которой, подкрутив одно, можно сильно потерять в другом — платформа, не вызывающая никаких вопросов с точки зрения безопасности, окажется слабопроизводительной.

А если мы говорим о сотнях тысяч устройств, стоимость инфраструктуры для такой системы окажется попросту запретительной. Таким образом, главным становится вопрос оптимизации: мы смотрим, какие угрозы реальны, как их предотвратить, как это скажется на инфраструктуре и стоимости обслуживания, и в итоге на то, реально ли ее развертывание. Некоторые проекты, связанные с медициной, не разворачиваются массово именно из соображений безопасности. Наверное, мы бы все хотели носить устройства, которые сообщали бы врачам, когда нам нужно обследоваться. Но тут есть ряд ограничений – и вопрос возможности создания такого устройства – только половина проблемы. Вторая половина заключается в том, чтобы всю эту информацию безопасно передать. При этом как раз с первой частью инженеры разбираются успешнее, ведь за второй следят еще и регуляторы. Но технологии эволюционируют, и я думаю, что достаточно скоро мы увидим в числе прочего новое поколение устройств для массового рынка, способных собирать и передавать информацию о здоровье.

— Насколько в IT в целом понимают, чем занимаются инженеры в IoT?

— Я думаю, что из тех, кто лично с нами мало пересекается, достаточно многие представляют инженеров IoT сумасшедшими людьми с паяльниками. Три года назад это было отчасти справедливо, поскольку мы начинали с устройств и подключению их к облаку. Но закончили мы облаком и данными — планируем тут и оставаться. В этой области больший объем синергии с тем, чем занимаются другие практики, что нужно крупным клиентам — и здесь есть деньги в том виде, в котором компании их удобно зарабатывать.