Просчитать будущее. Кто кликнет, купит, соврёт или умрёт читать онлайн бесплатно на Lifeinbooks.ru

Просчитать будущее. Кто кликнет, купит, соврёт или умрёт

Эрик Сигель

Прогнозная аналитика ? новое оружие в арсенале ведущих мировых компаний и органов государственного управления. Благодаря развитию информационных технологий открылись новые возможности по использованию больших массивов данных для прогнозирования поведения обычных людей. Это помогает эффективнее управлять финансами, с высокой точностью прогнозировать объем продаж товаров, предвосхищать желания клиентов и целевую аудиторию новых продуктов, модернизировать технологии, улучшать здравоохранение и образование и даже бороться с преступностью. Эрик Сигель приводит массу примеров эффективного использования этой методики и показывает, как на практике начать использовать возможности больших данных для получения конкурентных преимуществ. Книга, ставшая мировым бестселлером и получившая множество восторженных отзывов от ведущих аналитиков и прогнозистов, будет интересна не только руководителям и менеджерам компаний, но и всем, кто хочет научиться с пользой для себя анализировать большие массивы данных.

Эрик Сигель

Просчитать будущее. Кто кликнет, купит, соврёт или умрёт

Переводчик И. Евстигнеева

Научный редактор М. Оверченко

Руководитель проекта О. Равданис

Корректоры Е. Чудинова, Е. Аксёнова

Компьютерная верстка К. Свищёв

Дизайн обложки М. Борисов

Арт-директор С. Тимонов

В оформлении обложки использовано изображение из фотобанка shutterstock.com

Настоящее издание опубликовано по лицензии

Все права защищены. Никакая часть электронной версии этой книги не может быть воспроизведена в какой бы то ни было форме и какими бы то ни было средствами, включая размещение в сети Интернет и в корпоративных сетях, для частного и публичного использования без письменного разрешения владельца авторских прав.

* * *

«Просчитать будущее» предлагает массу замечательных примеров того, как организации в разных сферах деятельности извлекают ценные практические знания из данных. И новичок, и эксперт найдут эту книгу интересной и узнают что-то новое.

Крис Пулиот, директор по аналитике и разработке алгоритмов в Netflix

Четкое и убедительное объяснение могущества прогнозной аналитики и того, как она может трансформировать компании и даже целые отрасли.

Энтони Голдблум, основатель и генеральный директор Kaggle.com

Обязательная к прочтению, эта книга открывает нам глаза на технологии прогнозного моделирования, предсказывающие наше поведение и ежедневно влияющие на наши жизни.

Чжоу Ю, аналитик сервиса Online-to-Store в компании Google

Наконец-то появилась полноценная книга об этой отрасли. Доктору Сигелю удалось сделать то, чего до него никто даже не пытался сделать, – написать доступную и увлекательную книгу о прогнозной аналитике, которую должны прочитать все, кого интересует связанный с ней потенциал – и риски.

Марк Берри, вице-президент People Insights, подразделения ConAgra Foods

Эрик Сигель предлагает нам глубокое понимание этого нового мира больших данных, машинного обучения и интеллектуального анализа данных.

Марк Перриш, вице-президент по работе с подписчиками в Barnes & Noble

Захватывающе и увлекательно – читается как триллер! Прогнозная аналитика все больше проникает в повседневную жизнь людей и незаметно оказывает влияние на то, что мы делаем. Эрик Сигель рассказывает не только о возможностях, но и об угрозах, которые прогнозная аналитика несет с собой в реальный мир.

Марианна Дизик, статистик в Google

Подробный рассказ о том, как можно справиться с непредсказуемостью этого мира. Эрик четко объясняет, почему одни варианты действий более прибыльны, чем другие, – и я полностью с ним согласен!

Деннис Мортенсен, генеральный директор Visual Revenue, бывший директор по анализу данных в Yahoo!

Эта книга посвящается, с огромной любовью, моей матери, Лайзе Шамберг, и моему отцу, Эндрю Сигелю

Предисловие

Эта книга рассказывает о количественных методах прогнозирования человеческого поведения. Первые попытки в этом направлении были предприняты еще во время Второй мировой войны. В 1940 году отец кибернетики Норберт Винер занялся предсказанием поведения немецких летчиков с вполне конкретной целью – сбивать в небе их самолеты. Его метод использовал в качестве входного параметра наблюдаемую траекторию движения самолета, учитывал наиболее вероятные маневры уклонения и выдавал прогноз, где скорее всего окажется самолет, чтобы его можно было поразить выпущенным снарядом. К сожалению, Винер мог предсказать траекторию движения самолета только на одну секунду вперед, тогда как, чтобы сбить его, требовалось предугадать его положение в небе через 20 секунд.

Из книги Эрика Сигеля вы узнаете о множестве куда более успешных попыток подобного прогнозирования. Со времен Винера несравнимо выросла как производительность компьютеров, так и массивы накопленных данных. В результате банки, розничные торговцы, организаторы политических кампаний, медицинские учреждения и многие другие организации научились весьма успешно прогнозировать поведение конкретных людей. Цель этих усилий – привлечение новых клиентов, победа на выборах, борьба с заболеваниями и т. д.

По моему убеждению – которое, судя по всему, разделяет и Сигель, – эта интеллектуальная деятельность в целом полезна для человечества. В таких сферах, как здравоохранение, борьба с преступностью и терроризмом, она позволяет спасти жизни. Использование прогнозной аналитики в рекламе повышает эффективность последней, позволяет экономить время и внимание ее получателей и даже способствует защите окружающей среды, сохраняя деревья благодаря уменьшению объемов почтовых рассылок и издаваемых каталогов. В политике успех также, кажется, сопутствует кандидатам, следующим этому научному подходу (хотя некоторые могут не согласиться, я вижу в этом определенный положительный момент).

Однако, как отмечает Сигель в самом начале своей замечательной книги, эти методы могут быть использованы и с неблаговидными целями. «С большей силой приходит большая ответственность», – цитирует он Человека-паука, подразумевая, что как общество мы должны быть осторожны при использовании таких прогнозных моделей – или придется ограничивать их применение, а значит, и выгоды от них. Как и другие мощные технологии или разрушительные инновации, прогнозная аналитика по своей сути находится вне морали и может быть использована как во благо, так и во зло. Но, чтобы избежать последнего, вам необходимо понимать, на что в принципе способен этот научный подход, и вы узнаете об этом, если продолжите читать книгу.

Прогнозная, или предиктивная, аналитика – не единственный вид аналитики, но, безусловно, наиболее интересный и важный из всех. Не думаю, что нам нужны новые книги, посвященные чисто описательной аналитике, которая показывает прошлое, но не дает понимания того, почему это произошло. В своих работах я также часто ссылаюсь на третий тип – «предписывающую»

Страница 2 из 20

аналитику, которая объясняет, что делать, с помощью контролируемого эксперимента или оптимизации. Однако эти количественные методы намного менее популярны, чем прогнозный подход.

Книга и лежащие в ее основе идеи служат хорошим противовесом теории Нассима Николаса Талеба. В своих книгах, включая знаменитый труд «Черный лебедь», Талеб утверждает, что многие попытки прогнозирования обречены на неудачу вследствие случайной и непредсказуемой природы сложных событий. Без сомнения, он прав в том, что некоторые события действительно относятся к разряду «черных лебедей» и не поддаются прогнозированию, но дело в том, что во многих случаях человеческое поведение вполне стандартно и предсказуемо. Многочисленные примеры успешного прогнозирования, приводимые Сигелем, напоминают нам о том, что большинство лебедей – белые.

Сигель не входит в число приверженцев идеи «больших данных». Разумеется, некоторые из приведенных им примеров попадают в эту категорию, описывая ситуации с наличием слишком большого или неструктурированного объема данных, которым невозможно легко управлять при помощи обычных реляционных баз данных. Но качество прогнозной аналитики зависит не от относительного размера имеющихся у вас данных, а от того, что вы с ними делаете. Я обнаружил, что зачастую «чем больше данных, тем ничтожнее результаты», и многие приверженцы больших данных довольствуются их использованием для создания какого-нибудь визуально привлекательного аналитического продукта. Но это далеко не так ценно, как создание прогнозной модели.

Из-под пера Сигеля вышла книга одновременно сложная и доступная для понимания даже неискушенного читателя. В ней вы найдете множество увлекательных историй, красочных иллюстраций и занимательное повествование. Я бы рекомендовал ее к прочтению даже далеким от этой темы людям, поскольку вряд ли можно сомневаться в том, что на протяжении жизни их поведение подвергалось и еще не раз будет подвергаться внимательному анализу и прогнозированию. Кроме того, в своей профессиональной деятельности большинство людей будет все чаще сталкиваться с использованием прогнозных моделей, поэтому будет нелишним научиться их учитывать и оценивать и действовать в соответствии с ними.

Короче говоря, мы живем в «прогнозируемом» обществе. И лучший способ преуспеть в нем – понимать цели, методы и ограничения предиктивных моделей. А лучший способ понять их – прочитать эту книгу.

Томас Дэвенпорт,

профессор Гарвардской школы бизнеса, заслуженный профессор Колледжа Бабсон, один из основателей Международного института аналитики, соавтор книги «Аналитика как конкурентное преимущество» и нескольких других книг из этой области

Вступление

Прошлое – забыто. Будущее – закрыто. Настоящее – даровано, потому его и зовут настоящим.

Приписывается Алану Александру Милну, Биллу Кину и мастеру Угвею, мудрой черепахе из мультипликационного фильма «Кунг-фу панда»

Когда я говорю людям, чем занимаюсь, они порой удивленно пожимают плечами. Что ж, таковы издержки моей профессиональной деятельности.

Информационный век страдает от одного вопиющего пробела в информации. Это заявление может удивить многих, учитывая, сколь скрупулезно мы записываем «все, что происходит в этом мире». Не довольствуясь тщательным документированием всех важных исторических событий, мы разработали системы, которые регистрируют каждый клик, платеж, звонок, аварию, преступление или случай заболевания. Кажется, любители данных должны быть удовлетворены, если не избалованы до крайности таким объемом информации.

Но эта кажущаяся бесконечность информации исключает события, знания о которых наиболее ценны для нас, – а именно события, которые еще не произошли.

Способность предугадать будущее – заветная мечта любого человека, и мы, каждый в отдельности и как общество в целом, буквально одержимы предсказаниями. Мы поклоняемся божествам ясновидения. Мы охотно платим хиромантам, внимательно изучаем гороскопы, обожаем астрологию и печенья с предсказаниями.

К сожалению, многие из тех, кто слепо верит экстрасенсам и иже с ними, напрочь отвергают науку. Как правило, они считают научный подход либо слишком трудным для понимания, либо слишком скучным. Или, быть может, они уверены в том, что предсказания по своей природе невозможны без содействия сверхъестественных сил.

В связи с этим мне нравится приводить в пример один телесериал – комедийный детектив «Ясновидец» (Psych), где главный герой – молодой консультант полиции, современная реинкарнация Шерлока Холмса – обладает настолько развитой наблюдательностью и неординарными дедуктивными способностями, что ему удается убедить полицейских в том, что он ясновидящий. Используя свои уникальные навыки, он помогает полиции расследовать самые сложные уголовные дела, при этом делая вид, что руководствуется не реальными уликами, которые находит, а неким наитием и голосами из потустороннего мира.

Я испытываю аналогичный порыв, когда у меня спрашивают мнение по поводу астрологических знаков. Но, как правило, я отделываюсь шуткой, заявляя, что «я – Скорпион, а Скорпионы не верят в астрологию».

Самый распространенный вопрос, который мне задают на вечеринках, – чем я зарабатываю на жизнь. И, честно говоря, я уже готов встретить удивленный взгляд, как только произнесу два слова – прогнозная аналитика. Большинство людей могут позволить себе роскошь описать свою работу одним словом: врач, юрист, официант, бухгалтер или актер. Но мое заявление всякий раз выливается в пространную беседу. Любая попытка быть краткими терпит провал:

Я консультант в области одной из бизнес-технологий. Как правило, за этим следует вопрос: «Какой именно из технологий?»

Я разрабатываю компьютерные модели, позволяющие предсказать, что люди будут делать в тех или иных ситуациях. Недоумение вкупе с полным недоверием и отчасти страхом.

Я учу компьютеры анализировать данные, чтобы прогнозировать индивидуальное человеческое поведение. Недоумение плюс нежелание продолжать разговор о том, что именно это за данные.

Я анализирую данные с целью поиска закономерностей. Еще более непонимающие взгляды, неловкие паузы, перемежающиеся с вопросами невпопад.

Я помогаю маркетологам определить, какие клиенты будут покупать, а какие нет. Кажется, на этот раз меня поняли, но такое объяснение существенно упрощает и сужает сущность того, чем я занимаюсь.

Я предсказываю поведение клиентов так же, как экспресс-тест на беременность позволяет определить, беременны вы или нет. Все делают шаг назад.

Потому я и написал эту книгу, чтобы объяснить вам суть прогнозной аналитики и продемонстрировать, почему она является интуитивным, мощным и порой внушающим благоговение инструментом.

У меня есть хорошая новость: в деле прогнозирования многое достигается малым. Я называю это «эффектом прогнозирования», и эта тема красной нитью проходит через всю книгу. Ценность прогнозов очевидна – разумеется, если они не сводятся к простым догадкам. От нас не требуется делать невозможное и заниматься сомнительным ясновидением. Суть прогнозной аналитики не менее захватывающая, но куда более внушающая доверие:

Страница 3 из 20

умение даже совсем немного приподнять завесу тумана над завтрашним днем приносит щедрое вознаграждение. Другими словами, прогнозная аналитика помогает нам противодействовать финансовым рискам, укрепить сферу здравоохранения, избавиться от спама, эффективнее бороться с преступностью и увеличить продажи.

Кто вы по духу – ученый или бизнесмен? Вас воодушевляет сама идея прогнозирования или та польза, которую это умение может принести миру?

Что касается лично меня, то меня поразила сама возможность познать непознаваемое. Прогнозная аналитика, кажется, бросает вызов фундаментальному закону природы, согласно которому вы не можете увидеть будущее, потому что оно еще не настало. Однако мы нашли обходной путь, создав машины, способные учиться на прошлом опыте. Эта регламентированная дисциплина использует то, что мы уже знаем – в виде данных, – для составления все более точных сценариев того, что произойдет дальше. Соединяя передовые математические подходы и технологии, мы, ученые, проводим бесчисленные тесты и вносим корректировки, пока в конце концов не получаем систему, способную проникнуть через ранее считавшийся непроницаемым барьер между сегодняшним и завтрашним днем. Мы смело шагаем туда, где раньше не ступала нога человека!

Кто-то занимается продажами, кто-то политикой. Я занимаюсь предсказаниями, и это потрясающе.

Введение

Эффект прогнозирования

Как и любому другому человеку, порой мне сопутствует удача, порой нет. Черные и белые полосы в моей жизни чередуются точно так же, как и в вашей. Но мне всегда хочется узнать – не могло ли все произойти иначе? Для начала позвольте мне рассказать вам шесть коротких историй.

1. В 2009 году я почти уничтожил свое правое колено, катаясь на горных лыжах в Юте. Прыгнул я хорошо, а вот приземлился плохо. Для операции на колене мне нужно было выбрать место, откуда будет взята ткань для восстановления моей порванной передней крестообразной связки (главной связки коленного сустава). Выбор был сложным, поскольку от него могло зависеть, как я буду жить дальше – с хорошим коленным суставом или плохим. Я выбрал мышцы задней поверхности бедра. Не могли ли врачи в больнице сделать лучший с медицинской точки зрения выбор?

2. Несмотря на все мои страдания, дороже всего это обошлось моей страховой компании – операции на колене стоят дорого. Могла ли компания лучше предвидеть этот риск, заключая договор страхования с сумасшедшим любителем горных лыж, и назначить соответствующую страховую премию?

3. В далеком 1995 году я стал жертвой еще одного инцидента, хотя тот и причинил мне гораздо меньше страданий. У меня украли персональные данные, что в итоге стоило мне десятков часов, потраченных на бюрократические формальности и оформление различных документов, чтобы восстановить мой испорченный кредитный рейтинг. Не могли ли кредиторы предотвратить эти неприятности, каким-либо образом определив, что заявки на новые кредиты на мое имя поступают от мошенников?

4. Очистив свое доброе имя, я взял ипотечный кредит для покупки квартиры. Было ли это хорошим решением или же мой финансовый консультант должен был предупредить меня, что в скором времени размер моей задолженности может превысить стоимость приобретенной недвижимости?

5. Моя профессиональная жизнь также не отличается стабильностью. Хотя сам бизнес процветает, моя компания всегда сталкивается с риском изменения экономических условий и растущей конкуренцией. Можем ли мы защитить рентабельность, спрогнозировав, какие маркетинговые мероприятия и другие инвестиции принесут отдачу, а какие будут пустой тратой денег?

6. Каждый день я, как и вы, переживаю множество мелких событий, которые определяют мою жизнь. Хороший спам-фильтр оказывает существенное влияние почти на каждый рабочий час. Мы сильно зависим от эффективного поиска в Интернете при решении вопросов, связанных с работой, здоровьем (например, чтобы разобраться со спецификой операций на коленном суставе), домашним ремонтом и т. д. Мы полагаемся на персонализированные рекомендации музыки и фильмов от Pandora и Netflix. Мне интересно, почему после стольких лет все эти компании не изучили меня достаточно хорошо, чтобы посылать мне меньше рекламной макулатуры (и таким образом спасти от вырубки немало деревьев)?

Все эти ситуации важны. От них может зависеть, будет ли успешным или неудачным ваш день, год или вся жизнь. Но что между ними общего?

Все эти проблемы – и многие другие, им подобные, – лучше всего решаются через прогнозирование. Будет ли результат хирургической операции положительным для пациента? Не может ли обращающийся за кредитом человек оказаться мошенником? Не может ли ипотечный кредит стать непосильным бременем для домовладельца? Отреагирует ли клиент на отправленный ему рекламный буклет? Через прогнозирование подобных вещей можно существенно улучшить качество медицинского обслуживания, снизить финансовые риски, свести на нет спам, повысить эффективность борьбы с преступностью и сократить расходы.

Прогнозирование в большом бизнесе – судьба активов

Есть и другой аспект. Помимо очевидной выгоды для нас с вами как для потребителей прогнозирование полезно и для организаций, давая им в руки совершенно новый вид оружия в конкурентной борьбе. Компании набрасываются на прогнозы, как коршуны, – в положительном смысле.

В середине 1990-х годов ученый-предприниматель по имени Дэн Стейнберг пришел в штаб-квартиру крупнейшего американского банка Chase, чтобы предложить свою систему прогнозирования для управления миллионами ипотечных кредитов. Этот банковский колосс поверил в технологию прогнозирования, предложенную Стейнбергом, и взял ее за основу для принятия решений, касающихся операций со своим гигантским ипотечным портфелем. Что написал этот парень в своем резюме?

Прогнозирование – это сила. Крупный бизнес обеспечивает себе непоколебимое конкурентное преимущество, прогнозируя будущую судьбу и стоимость отдельных активов. В вышеупомянутом случае это означало, что, принимая решения по ипотечным кредитам на основе прогнозирования будущей платежеспособности домовладельцев, Chase уменьшал риск и получал дополнительную прибыль, которой в противном случае у него не было бы.

Позвольте вам представить… ясновидящий компьютер

Стремительно развиваясь и проникая во все новые сферы, сегодня предиктивные технологии стали обыденным явлением и затрагивают каждого из нас каждый день. Они влияют на ваш опыт незаметным образом – когда вы ведете машину, покупаете, учитесь, голосуете, обращаетесь к врачу, общаетесь, смотрите телевизор, зарабатываете деньги, берете в долг или даже крадете.

Эта книга рассказывает о наиболее значимых достижениях в области компьютерного прогнозирования и о двух силах, стоящих за ними: об увлеченных людях и увлекательнейшей науке, двигающих этот прогресс.

Прогнозирование – в высшей степени непростая задача. Каждый прогноз зависит от множества факторов: широкого разнообразия известных параметров, характеризующих каждого пациента, домовладельца или сообщение по электронной почте, которое может оказаться спамом. Как справиться с этой сложнейшей задачей – соединить вместе

Страница 4 из 20

все части головоломки для составления конкретного прогноза?

Идея проста, хотя воплотить ее на практике не так просто. Проблема решается путем применения систематического научного подхода для развития и постоянного совершенствования наших умений в области прогнозирования. Другими словами, нам необходимо в буквальном смысле научиться прогнозировать.

Решение кроется в машинном обучении – компьютеры автоматически приобретают новые знания и способности, жадно поглощая самый ценный и самый мощный неприродный ресурс современного общества: данные.

«Накормите меня!» – пища для размышлений для компьютеров

Данные – это новая нефть.

Меглена Кунева, еврокомиссар по защите прав потребителей

Единственным источником знаний является опыт.

Альберт Эйнштейн

Богу мы верим, все остальные должны предоставлять данные.

Уильям Эдвардс Деминг (американский ученый, известный своей теорией управления качеством)

Большинство людей не испытывают никакого интереса к данным. Что может быть скучнее, чем эти бесконечные массивы сухих цифр и фактов, порой столь банальных, как пост в Twitter типа «Я купил себе новые кроссовки!». Это бесполезный побочный продукт, который в огромных количествах образуется в процессе ведения любого бизнеса.

Вы ошибаетесь! Правда в том, что данные представляют собой бесценное собрание опыта, на котором можно учиться. Каждая медицинская процедура, кредитная заявка, публикация на Facebook, рекомендация фильма, акт мошенничества, спам-сообщение или покупка – каждый положительный или отрицательный результат, каждая успешная или неудачная попытка продажи, каждый инцидент, событие и транзакция – кодируются как данные и сохраняется в базе данных. По оценкам, объемы данных увеличиваются на 2,5 квинтиллиона байтов в день (это единица с 18 нулями). Вот где произошел настоящий Большой взрыв, породив безграничные потоки сырых, необработанных данных, с которыми могут справиться только компьютеры. При правильном использовании компьютеры жадно поглощают этот океан данных – и учатся на них.

Иногда погоня за данными превращается в настоящую золотую лихорадку. Но данные – это не золото. Повторяю, необработанные данные – это сырье. Золото – то, что можно из них добыть.

Процесс машинного обучения на основе данных раскрывает всю мощь этого все возрастающего ресурса. Он позволяет выявить, что движет людьми и их поступками, что цепляет нас за душу и как устроен мир. Получение таких знаний и делает прогнозирование возможным.

Например, благодаря машинному обучению мы получили такие ценные сведения, как[1 - Более подробно об этих примерах читайте в главе 3.]:

• ранний выход на пенсию уменьшает ожидаемую продолжительность жизни;

• люди, которых на сайтах знакомств чаще отмечают как привлекательных, вызывают меньше интереса;

• большинство фанатов Рианны по своим политическим убеждениям – демократы;

• вегетарианцы реже пропускают авиарейсы;

• количество преступлений на местном уровне увеличивается после публичных спортивных мероприятий.

Машинное обучение опирается на подобные знания, чтобы совершенствовать прогнозные возможности систем через процесс обработки больших объемов данных по методу проб и ошибок, уходящий корнями в статистику и компьютерную науку.

Я знал, что вы это сделаете

Располагая такими возможностями, что мы хотели бы спрогнозировать? Фактически все, что делает человек, стоит того, чтобы стать предметом прогнозирования, – а именно то, как мы потребляем, думаем, работаем, уходим, голосуем, любим, воспроизводим потомство, разводимся, создаем проблемы, обманываем, воруем, убиваем или умираем. Давайте рассмотрим некоторые примеры[2 - Больше примеров и дополнительных деталей вы найдете в таблицах в приложении D.].

Потребление

• Голливудские киностудии, принимая решение о производстве фильмов, прогнозируют их успех.

• Американский сервис Netflix заплатил $1 млн группе ученых, которым удалось лучше других усовершенствовать способность его системы рекомендаций прогнозировать, какие фильмы должны понравиться его пользователям.

• Австралийская энергетическая компания Energex прогнозирует спрос на электроэнергию для принятия решений о том, где строить собственные электросети, а компания Con Edison – возможные сбои системы в случае повышения уровня энергопотребления.

• Уолл-стрит прогнозирует цены акций, наблюдая за их движением под влиянием динамики спроса. Такие фирмы, как AlphaGenius и Derwent Capital, управляют торговыми операциями своих хедж-фондов, отслеживая тренды и настроения широкой общественности через посты на Twitter.

• Компании – от гиганта U. S. Bank до небольших фирм, таких как Harbor Sweets (производитель сладостей) и Vermont Country Store («классические продукты высокого качества, которые трудно найти»), – прогнозируют, какие клиенты будут покупать их продукцию, чтобы нацелить на них свои маркетинговые усилия. Эти прогнозы диктуют распределение драгоценных маркетинговых бюджетов. Некоторые компании в буквальном смысле прогнозируют даже то, как наилучшим образом повлиять на вас, чтобы заставить покупать еще больше (эта тема рассматривается в главе 7).

• Прогнозирование определяет и то, какие купоны вы получаете в кассе супермаркетов. Британский розничный гигант Tesco, третья по величине сеть продуктовых магазинов в мире, прогнозирует эффективность этого целевого маркетинга и ежегодно распределяет более 100 млн персонализированных скидочных купонов в 13 странах мира. Благодаря прогнозированию уровень использования купонов вырос в 3,6 раза по сравнению с предыдущими программами. Аналогичным образом поступают Kmart, Kroger, Ralph’s, Safeway, Stop & Shop, Target и Winn-Dixie.

• Прогнозирование вероятности кликов приносит щедрое вознаграждение. Поскольку веб-сайтам часто платят за каждый клик по размещенным на них рекламным объявлениям, то им важно спрогнозировать, какие объявления скорее всего привлекут ваше внимание, чтобы немедленно показать их вам. Использование прогнозирования для правильного подбора рекламы обеспечивает многомиллионные доходы.

Любовь, работа, дети и разводы

• Ведущая социальная сеть для делового общения LinkedIn прогнозирует ваши профессиональные навыки.

• Популярные сайты знакомств Match.com, OkCupid и eHarmony прогнозируют, какая из красоток на вашем экране подходит вам больше всего.

• Ретейлер Target прогнозирует, кто из покупателей ждет ребенка, чтобы рекламировать соответствующие товары. Ничто не предсказывает будущие потребительские нужды лучше, чем ожидаемое рождение нового потребителя.

• Клинические исследователи прогнозируют вероятность супружеской неверности и развода. Существуют даже сайты, на которых вы можете самостоятельно оценить ваши шансы на долгий и прочный брак (например, www.divorce360.com (http://www.divorce360.com/)). По слухам, компании, эмитирующие кредитные карты, делают то же самое.

Мышление и принятие решений

• В 2012 году Обама был переизбран президентом благодаря прогнозированию поведения избирателей. Его предвыборная кампания строилась на прогнозировании того, какие избиратели положительно отреагируют на контакт (через телефонный звонок, личный визит, листовку или телевизионную рекламу), а каких

Страница 5 из 20

такого рода контакт непроизвольно подтолкнет проголосовать против. Эта технология была использована для принятия решений о методах предвыборной агитации для миллионов избирателей в колеблющихся штатах и помогла успешно склонить на сторону Обамы намного больше избирателей, чем позволило бы сделать традиционное таргетирование.

• «Что вы имеете в виду?» Системы научились определять намерение, стоящее за письменным словом. Citibank и PayPal выявляют отношение клиентов к их продуктам, а разработанная одним исследователем программа может сказать, какие отзывы о книгах на Amazon.com носят саркастический характер.

• Разработаны компьютерные программы по автоматическому оцениванию школьных сочинений, которые также работают на основе прогнозирования. Они оценивают сочинения так же точно, как и преподаватели.

• Созданный компанией IBM суперкомпьютер Watson принял участие в популярном в США интеллектуальном телешоу Jeopardy! (российский аналог – «Своя игра») и победил двух самых именитых чемпионов за всю его историю. Опираясь на технологию прогнозирования, эта машина умеет понимать заданные в свободной форме вопросы на самые разные темы и находить на них ответы в базе данных.

• Компьютеры буквально умеют читать ваши мысли. Исследователи научили системы декодировать сканы головного мозга и определять, о какого рода вещах вы сейчас думаете – таких как определенные инструменты, здания или еда, – с точностью более 80 %. В 2011 году IBM высказала прогноз, что через пять лет технологии чтения мыслей станут преобладающим направлением исследований.

Уход сотрудников и клиентов

• Компания Hewlett-Packard оценивает каждого из своих более чем 330 000 сотрудников по всему миру по шкале «Риск ухода», показывающей вероятность того, что этот человек покинет компанию, – чтобы менеджеры могли заранее вмешаться там, где это возможно, и изменить ситуацию.

• Вы когда-нибудь были недовольны услугами сотовой связи? Ваш оператор хочет об этом знать. Все крупные сотовые операторы занимаются прогнозированием вероятности того, что вы решите уйти к конкуренту (возможно, еще до того, как у вас в голове сформируется такая мысль), используя такие показатели, как сброс вызовов, интенсивность использования телефона, информация о счетах и уход к другим операторам абонентов из вашего списка контактов.

• FedEx стабильно сохраняет за собой позиции лидера рынка, прогнозируя с точностью от 65 до 90 %, какие клиенты могут уйти к конкурентам.

• Американская система государственных университетов (APUS) прогнозирует, какие студенты могут бросить учебное заведение, и использует эти прогнозы. Университеты штатов Алабама, Аризона, Айова, Оклахома и нидерландский Технический университет в Эйндховене также прогнозируют выбытие студентов.

• «Википедия» прогнозирует, кто из ее редакторов, работающих бесплатно из любви к своему делу и ради развития этого бесценного онлайн-актива, собирается прекратить оказывать ей добровольную помощь.

• Исследователи из Гарвардской медицинской школы прогнозируют, что, если ваши друзья бросают курить, у вас больше шансов сделать то же самое. Отказ от курения заразителен.

Проблемы

• Страховые компании прогнозируют, кто из страхователей вероятнее всего попадет в аварию или сломает ногу, катаясь на горных лыжах. Allstate прогнозирует ответственность за причинение телесных повреждений при автомобильных авариях на основе характеристик застрахованного транспортного средства, что позволяет компании экономить около $40 млн в год. Другой ведущий страховщик сообщил о том, что экономит почти $50 млн в год благодаря применению передовых предиктивных моделей в своей практике актуарных расчетов.

• Компания Ford также использует прогнозный анализ данных, так что ее автомобили могут определить, когда у водителя снижается концентрация внимания из-за каких-либо отвлекающих факторов, усталости или опьянения, и принять меры, например подать звуковой сигнал.

• Используя данные Национального совета по безопасности на транспорте (США), исследователи установили, какие происшествия на воздушном транспорте имеют в пять раз более высокую, чем в среднем, вероятность привести к фатальному исходу.

• Все крупные банки и эмитенты кредитных карт прогнозируют, какие заемщики вероятнее всего могут нарушить обязательства по возврату кредита. Коллекторские агентства строят работу с каждым проблемным должником на основании прогнозов о том, какая тактика позволит им взыскать с него максимальную сумму.

Болезни и смерть

Я не боюсь смерти, я просто не хочу при этом присутствовать.

Вуди Аллен

• В 2013 году калифорнийская организация Heritage Provider Network пообещала $3 млн тому, кто создаст лучший алгоритм для прогнозирования поступления пациентов в ее больницы. Благодаря этим прогнозам можно будет предпринимать профилактические меры, что позволит сэкономить десятки миллиардов долларов, которые ежегодно тратятся на ненужную госпитализацию. Аналогичным образом Медицинский центр при Университете Питтсбурга прогнозирует вероятность скорой повторной госпитализации, чтобы избежать преждевременной выписки пациентов из больницы.

• Исследователи Стэнфордского университета научили компьютеры диагностировать рак молочной железы точнее, чем это делают врачи. Для этого был разработан инновационный метод, учитывающий большее число факторов при анализе образцов ткани.

• Исследователи из Университета Бригама Янга и Университета штата Юта научились правильно прогнозировать примерно 80 % преждевременных родов (и примерно 80 % своевременных родов) на основе пептидных биомаркеров, которые появляются в крови уже на 24-й неделе беременности.

• Исследователи разработали метод диагностики шизофрении на основе одного только анализа устной речи.

• Все большее число компаний, занимающихся страхованием жизни, выходят за рамки обычных актуарных таблиц и используют методы прогнозной аналитики для оценки риска наступления смерти. Хотя официально это не называется страхованием на случай смерти, на деле компании пытаются спрогнозировать, когда вы умрете.

• Этим занимаются не только компании по страхованию жизни. Одна из ведущих медицинских страховых компаний прогнозирует вероятность того, что пожилые держатели страховых полисов перейдут в мир иной в течение ближайших полутора лет, на основании определенных клинических показателей, содержащихся в последних заявлениях о выплате страхового возмещения за предоставление медицинских услуг. Не бойтесь – это делается с благими целями.

• Исследователи разработали методики прогнозирования риска смерти при хирургическом вмешательстве на основе индивидуальных характеристик пациента и характеристик его состояния, чтобы помочь врачам принимать объективные решения.

• Врачи регулярно – хотя и непреднамеренно – жертвуют одними пациентам ради того, чтобы помочь другим, и эта сложившаяся практика почти не вызывает споров. Но ситуацию можно существенно улучшить, если выйти за рамки прогнозирования диагноза или результата и прогнозировать также воздействие медицинской помощи (прогнозирование воздействия – тема главы 7).

Ложь, мошенничество, кражи и

Страница 6 из 20

убийства

• Большинство средних и крупных банков используют технологии прогнозирования, чтобы противодействовать попыткам использования поддельных чеков, краж денег с кредитных карт и другим мошенническим действиям. Благодаря внедрению специальной системы Citizens Bank удалось на 20 % уменьшить убытки, вызванные мошенничеством с чеками. Hewlett-Packard сэкономила $66 млн, научившись выявлять мошеннические претензии по гарантии.

• Компьютерные прогнозные модели позволяют определить, кто должен находиться в тюрьме. Сотрудники судебно-пенитенциарной системы в штатах Орегон и Пенсильвания используют такие программы для оценки риска повторного совершения преступления и учитывают эти прогнозы при принятии решений об условно-досрочном освобождении и вынесении приговоров.

• Считается, что убийства в целом не поддаются прогнозированию со сколь-нибудь значимой степенью точности, но в рамках определенных групп риска предиктивные методики могут быть эффективны. В штате Мэриленд используется аналитическая система, выдающая прогнозы относительно того, кто из находящихся под надзором лиц может убить, а кто может быть убит. Университетские исследователи совместно с правоохранительными органами разработали прогнозные модели, способные предсказать вероятность рецидива среди тех, кто ранее был осужден за убийство.

• Один эксперт по борьбе с мошенничеством в крупном британском банке распространил свои разработки на сферу борьбы с терроризмом, выявив небольшую группу лиц, подозреваемых в преступных связях, на основе их банковских операций.

• В Чикаго, Мемфисе и Ричмонде (штат Вирджиния) полицейские усиленно патрулируют районы, где, по прогнозам, может произойти скачок уличной преступности.

• Вдохновленные детективным телесериалом «Обмани меня», где специалисты, изучая движение тела и мимику человека с целью распознать ложь, расследовали самые сложные преступления, исследователи из Университета Буффало создали компьютерную программу, способную выявить ложь с точностью 82 % на основе одного только движения глаз.

• В конце 1990-х годов, когда я работал преподавателем в Колумбийском университете, у меня была команда ассистентов, которые использовали компьютерную программу для проверки сотен домашних заданий по программированию на предмет выявления плагиата.

• Налоговое управление США прогнозирует, с какой вероятностью вы можете его обманывать.

Пределы и возможности прогнозирования

Экономист – это специалист, который назавтра узнает, почему не произошло то, что он предсказывал вчера.

Эрл Уилсон

Почему вы никогда не увидите заголовок «Экстрасенс выиграл в лотерею»?

Джей Лено

Все из перечисленных в предыдущем разделе достижений стали возможны благодаря прогнозированию, которое в свою очередь является результатом машинного обучения. Между всеми этими разнообразными примерами и научной фантастикой есть одно ключевое различие: они не вымышлены. И эти примеры – лишь скромный срез существующей ныне реальности. Можно с уверенностью сказать, что сила прогнозирования отныне всегда пребудет с нами.

Но не является ли такое утверждение чересчур смелым? В свое время датский физик Нильс Бор сказал: «Очень трудно сделать точный прогноз, особенно о будущем». В конце концов, возможно ли прогнозирование в принципе? Будущее покрыто мраком неизвестности, и неопределенность – единственное, в чем мы можем быть уверены.

Позвольте же мне немного рассеять перед вами туман в этой области. В принципе, точное прогнозирование невозможно. Даже погода прогнозируется всего лишь с 50 %-ной точностью, а предсказать поведение людей, будь то пациентов, клиентов или преступников, ничуть не проще.

Но есть и хорошая новость! Прогноз не должен быть точным на 100 %, чтобы представлять собой большую ценность. Например, одним из самых простых и эффективных применений технологии прогнозирования в коммерческой области является выбор целевой группы для прямой почтовой рассылки рекламных материалов. Если маркетологи могут выявить определенную группу людей, которые, скажем, отреагируют на эти материалы положительно с вероятностью в три раза большей, чем средний потребитель, компания может существенно сэкономить, удалив «не реагирующих» людей из списка рассылки. А эти люди, в свою очередь, выиграют оттого, что получат по почте меньше макулатуры.

Таким образом, бизнес уже давно использует эту игру с цифрами для массового маркетинга, деликатно, но весомо склоняя чащу весов на свою сторону, – и делает это без высокоточных прогнозов. На самом деле, чтобы прогнозирование имело практическую ценность, довольно и низкой точности. Если в среднем ответная маркетинговая реакция составляет 1 %, то в выделенной группе доля потенциальных покупателей увеличивается до 3 %. В данном случае мы не можем с уверенностью предсказать, отреагирует или нет каждый отдельно взятый адресат на рекламную рассылку. Но стоимость создается благодаря выявлению группы людей, которые – в совокупности – склонны вести себя определенным образом.

Это демонстрирует в общих чертах то, что я называю эффектом прогнозирования. Прогнозирование, даже не отличающееся высокой точностью, всегда лучше создает реальную стоимость, чем чистые догадки. Гораздо лучше иметь хотя бы смутное представление о том, что произойдет в будущем, чем пребывать в полной неизвестности.

Эффект прогнозирования: малым достигается многое.

Это первый из пяти эффектов, о которых рассказывается в этой книге. Вероятно, вы уже слышали об эффекте бабочки, эффекте Доплера и эффекте плацебо. Оставайтесь с нами, и вы узнаете также об эффекте данных, эффекте индукции, эффекте ансамбля и эффекте воздействия. Рассказ о каждом из них включает любопытные сведения из области науки и технологий: интуитивный взгляд, раскрывающий перед вами, как это работает и почему позволяет достигать успешных результатов.

Поле чудес

Люди… действуют на основе своих убеждений и предубеждений. Если вы сможете устранить то и другое и заменить их данными, вы получите реальное преимущество.

Майкл Льюис, из книги «Moneyball. Как математика изменила самую популярную спортивную игру в мире»

О какой области знаний или отрасли науки мы здесь говорим? Обучение тому, как прогнозировать на основе данных, иногда называют машинным обучением – но это преимущественно научный термин, который используется в исследовательских лабораториях, на научных конференциях и в университетах (например, в конце 1990-х я несколько раз вел курс по машинному обучению в Колумбийском университете). Хотя именно в этих академических кругах куются новые знания, это не то место, где шины соприкасаются с дорогой. Там, где машинное обучение находит реальное практическое применение – в коммерческой, промышленной и государственной сферах, – его называют иначе:

Прогнозная аналитика (ПА, англ. predictive analytics) – технология, опирающаяся на опыт (данные) для прогнозирования будущего поведения людей с целью принятия оптимальных решений.

Построенная на фундаменте компьютерных наук и статистики и активно развиваемая благодаря научно-исследовательским программам, прогнозная аналитика

Страница 7 из 20

превратилась в самостоятельную дисциплину. Но ПА шагнула далеко за пределы теоретической науки и стала мощным практическим инструментом, оказывающим непосредственное влияние на нашу повседневную жизнь. Ежедневно она влияет на миллионы решений, касающихся того, кому позвонить, отправить почту, назначить диагностику или профилактические мероприятия, кого пригласить на свидание, предостеречь или посадить в тюрьму. ПА дает возможность принимать персонализированные решения в отношении каждого человека. Отвечая на массу мелких вопросов, ПА на самом деле может дать нам ответ на ключевой вопрос: как можно повысить эффективность всех этих многосложных функций в таких сферах, как государственное управление, здравоохранение, бизнес, правоохранительная и некоммерческая деятельность?

Таким образом, ПА кардинально отличается от стандартного прогнозирования (которое в английском языке называется словом forecasting). Последнее производит совокупные прогнозные оценки на макроскопическом уровне. Как будет развиваться экономика? Какой кандидат в президенты наберет больше голосов в Огайо? В то время как совокупная прогнозная оценка скажет вам, сколько стаканчиков мороженого будет куплено в штате Небраска в следующем месяце, ПА позволит узнать, какие именно жители Небраски вероятнее всего соблазнятся на эту покупку.

ПА является ведущим направлением в рамках растущей тенденции по принятию решений, «основанных на данных», опирающихся не на «чутье», а на объективные эмпирические факты. Но как только вы вступаете в эту область, вы тут же сталкиваетесь с массой замысловатых названий, таких как наука о данных, бизнес-аналитика, обработка больших данных и т. п. Хотя ПА входит в каждое из перечисленных определений, эти красочные термины имеют больше отношения к общей культуре и сферам профессиональной компетенции специалистов, занимающихся инновационными и творческими манипуляциями с данными, чем к конкретным технологиям или методам. Это многозначные термины; иногда они могут означать всего лишь стандартные отчеты в Excel – т. е. вещи важные и требующие значительного мастерства, но не опирающиеся на науку или сложную математику. Другими словами, в каждом конкретном случае их наполнение субъективно. Как однажды выразился Майк Лукидес, вице-президент инновационного издательства O’Reilly: «Наука о данных похожа на порнографию – когда видишь, понимаешь, что это». Еще один термин data mining – «извлечение знаний из данных», или интеллектуальный анализ данных – может использоваться как синоним прогнозной аналитики, но эта образная метафора может описывать и другие способы добычи знаний из данных, а также часто употребляется в более широком смысле.

Организационное обучение

Ведущие компании в эпоху Интернета, в том числе Google и Amazon… имеют бизнес-модели, которые опираются на предиктивные модели, основанные на машинном обучении.

Профессор Васант Дхар из Школы бизнеса Стерна при Нью-Йоркском университете

Если рассматривать организацию как своего рода «мегачеловека», не означает ли это, что она нуждается в «мегаобучении»? Люди объединяются в группу – будь то компания, правительство, больница, университет, благотворительная организация и т. п., – чтобы служить интересам ее членов и тех, кого она обслуживает. Будучи сформированной, группа выигрывает от разделения труда, взаимодополняющих навыков и эффекта масштаба. Возможности группы как целого намного превосходят сумму возможностей отдельных ее членов. Коллективное обучение является следующим логическим шагом для организации, позволяющим еще больше увеличить ее коллективный потенциал. Точно так же, как торговый агент со временем учится на своем положительном и отрицательном опыте взаимодействия с потенциальными клиентами, на своих успехах и неудачах, ПА дает в руки организации инструмент, посредством которого она может учиться на опыте, приобретаемом ею через отдельных ее членов и компьютерные системы. На самом деле организация, которая не использует получаемые ею данные таким образом, похожа на человека с фотографической памятью, который не умеет с пользой применять этот дар.

За редкими исключениями именно организации, а не отдельные люди, максимально выигрывают от использования ПА. Организации принимают огромное количество операционных решений, но, поскольку по природе своей они неэффективны и расточительны, существует значительный простор для оптимизации и улучшений. Маркетинговые службы делают массовые почтовые рассылки, но значительная часть рекламного материала, для изготовления которого тратится немало денег и вырубается немало деревьев, попадает прямиком в мусорную корзину. По оценкам, 80 % всех сообщений по электронной почте является спамом. Рискованным заемщикам выдается слишком много кредитов. Заявления на предоставление государственных пособий накапливаются в огромных количествах и не рассматриваются в срок. И это при том, что организации располагают изобилием данных, которые могут быть использованы для прогнозирования и соответствующего улучшения операций.

В коммерческом секторе прибыль является движущей силой. Только представьте себе, какие вырисовываются многообещающие перспективы, если повседневные рутинные операции станут более эффективными, целевой маркетинг – более точным, если будет предотвращаться больше попыток мошенничества, выдаваться меньше кредитов ненадежным заемщикам и привлекаться больше онлайн-клиентов. Позволяя оптимизировать критически важные операции, ПА существенно увеличивает коллективные возможности организации и ее эффективность в целом.

Новая модная профессия: аналитик данных

Самой привлекательной профессией в ближайшие десять лет будет профессия статистика.

Хэл Вэриен, главный экономист Google и профессор Калифорнийского университета в Беркли, 2009 год

Альтернатива прогнозированию будущего – анализ прошлого… а для этого нужно всего лишь иметь хорошую память.

Шелдон Купер, физик-теоретик, главный персонаж телесериала «Теория Большого взрыва»

Но прибыль – не единственный мотиватор. Источник энергии, главная сила, движущая эту махину вперед, – это «Сила умников»! Я имею в виду специалистов-практиков и их энтузиазм. По правде говоря, моя страсть к прогнозной аналитике проистекает вовсе не из ее ценности для организаций. Я занимаюсь этим ради собственного удовольствия. Идея, что машины действительно могут учиться, завораживает меня, и гораздо больше меня интересует то, что происходит внутри черного ящика, чем полезность происходящего для внешнего мира. Возможно, именно этот движущий мотив и отличает настоящего «умника» от других людей. Мы любим технологии; мы одержимы ими. Показательный пример: ведущее программное обеспечение с открытым исходным кодом, используемое в прогнозной аналитике, название которой состоит из одной буквы R (умники любят такие странные названия), имеет быстро расширяющуюся базу пользователей и добровольцев-разработчиков, которые совершенствуют его функциональные возможности и обеспечивают поддержку. Огромное число профессионалов и любителей стекаются на публичные конкурсы в сфере ПА, для которых

Страница 8 из 20

характерен дух не столько состязательности, сколько сотрудничества. Мы работаем в организациях или консультируем их. Мы – востребованные специалисты, поэтому много летаем. И летаем высшим классом.

Искусство обучения

Что вы делаете с вашим ЦП [центральным процессором],

Чтобы в полной мере реализовать его потенциал?

Используйте ваш мозг с умом,

Чтобы его производительность росла

в геометрической прогрессии.

Если вы хотите сделать свой компьютер умнее,

Есть один только путь —

Саморазвитие путем проб и ошибок.

Из стихотворения автора этой книги «Научитесь этому!»

Много лет назад человечество создало Совершенную универсальную машину и, следуя необъяснимому порыву преуменьшить гениальность своего творения, дало ему имя «компьютер» (первоначально в английском языке это слово означало человека, производящего вычисления вручную). Эта машина могла выполнять любой бесконечный набор сложнейших инструкций без единой ошибки и жалобы, и за несколько десятилетий ее скорость и возможности возросли настолько, что человечество могло только восклицать: «Черт возьми, неужели мы это сделали?!» Этому фантастическому устройству гораздо больше подошло бы величественное название La Machine, но по иронии судьбы через несколько десятков лет это имя было даровано кухонному комбайну (я не шучу). Какая жалость. «Что мы должны делать с компьютером? Каков его истинный потенциал, и как нам использовать его в полной мере?» – в изумлении спрашивало себя человечество.

Между компьютером и нашим головным мозгом есть нечто общее, что, с одной стороны, наделяет их тайной, а с другой – делает в наших глазах чем-то абсолютно естественным и само собой разумеющимся. Если, размышляя над этим предложением, вы слышали, как мимо вас пролетела муха, вы понимаете, о чем я говорю. И мозг, и компьютер работают в тишине. Их механизмы не издают ни звука. Да, у компьютеров есть дисководы и вентиляторы, которые могут издавать некоторый шум, – так же как ваша голова, в которой заключен ваш мозг, может издавать сопение, чихи и храпы, – но вся основная работа осуществляется ими без участия «движущихся частей», так что эти усилия происходят абсолютно бесшумно и незаметно. В результате вывод информации на монитор или появление гениальных идей в вашем уме могут показаться настоящим чудом[3 - Полная тишина характерна для твердотельных электронных приборов, но компьютеры необязательно должны иметь такую конструкцию. Концепция универсальной машины, выполняющей инструкции, является абстрактной и не привязана к феномену электричества. Вполне возможно создать компьютер, который состоит из шестерней, колес и рычагов и приводится в движение паром или бензином. Конечно, я бы не советовал это делать, но вы можете попытаться. Такой компьютер будет очень медленным, громоздким и громким, так что никто не станет его покупать.].

И наш головной мозг, и компьютер обладают поистине дьявольской мощностью. Так можно ли запрограммировать компьютер таким образом, чтобы научить его думать и чувствовать или сделать по-настоящему разумным? Кто знает? В лучшем случае это можно рассматривать как стимулирующие философские вопросы, на которые трудно дать ответ; в худшем – сделать их мерой успеха, который вследствие своей субъективности всегда будет оставаться недосягаемым. К счастью, в одном из вопросов у нас есть полная ясность: компьютеры обладают одной поистине впечатляющей, ключевой способностью, присущей человеку, – они умеют учиться.

Но как? Оказывается, что обучение – умение делать общие выводы на основе частных наблюдений – непростая задача. Это глубокая философская проблема. Задача машинного обучения состоит в том, чтобы находить закономерности, которые проявляются не только в имеющихся данных, но и в общем, за их пределами, чтобы результат обучения был верен и в новых ситуациях, которые ранее никогда не возникали. По сути, именно способность к выявлению таких закономерностей и обобщению является волшебной пилюлей ПА. Разработка методов машинного обучения – настоящее искусство. Чуть дальше мы более подробно остановимся на этой теме, а сейчас я дам вам одну подсказку. Компьютер узнает о том, как вы вероятнее всего поведете себя в той или иной конкретной ситуации, изучая других людей, а не вас.

Продолжая засыпать вас головоломками, я хочу загадать еще одну загадку: что часто происходит с нами, чего нельзя наблюдать и в отношении чего нельзя быть уверенным в том, что это произойдет с нами снова, – но что может быть спрогнозировано заранее? Ответ на загадку вы найдете в последней главе этой книги.

Извлечение информации из данных с целью прогнозирования – это только первый шаг. Сделать следующий шаг и начать действовать на основе прогнозов – вот где требуется настоящая смелость. Как вы узнаете из захватывающей истории, которую я расскажу вам в главе 1, применение прогнозной аналитики в реальной деятельности по остроте ощущений сопоставимо с запуском ракеты в космос.

Глава 1

Ракета прогнозной аналитики: три, два, один, старт!

В середине 1990-х годов один амбициозный молодой исследователь понял, что он не может больше ждать. Посоветовавшись с женой, он поставил все семейные сбережения на торговую систему, основанную на хитроумной модели прогнозирования динамики фондового рынка, которую он разработал в свободное от основной работы время. Подобно доктору Генри Джекилу, смело выпившему намешанное им непроверенное зелье, доктор Джон Элдер решительно сказал: «Поехали!»

Всегда страшно пробовать что-то новое, а тем более испытывать новую технологию. Запуск космического корабля может быть символом технологического величия и предметом национальной гордости, но за кадром остается небольшая группа жен астронавтов, которые в этот момент испытывают сильнейший страх за своих мужей. Астронавты же, по сути, добровольно обрекают себя на роль подопытных кроликов в колоссальном по размаху и важности эксперименте; они готовы пожертвовать собой ради того, чтобы стать частью истории.

Великие задачи рождают великие достижения. Мы уже совершили прогулку по Луне, а недавно первой негосударственной организации была вручена премия в размере $10 млн за разработку пилотируемого космического корабля многоразового использования. Мы вступаем в эпоху беспилотных автомобилей с системами автоматического управления – «Мам, посмотри, я не держусь за руль!» Сжигая в своих двигателях миллионы долларов всевозможных грантов и премий, эти машины самостоятельно рулят по улицам кампусов Google и BMW.

Замените рев ракеты на ряды данных, и перед вами откроется не менее головокружительная перспектива, чем возможность проникнуть за пределы Земли в космическое пространство, – а именно возможность проникнуть за пределы настоящего и заглянуть в будущее. Преодоление границы между настоящим и будущим – занятие ничуть не менее захватывающее, чем выход в космос, но менее опасное (космос – это вакуум, а вакуум убивает). Миллионы призовых долларов выделяются на то, чтобы научиться избегать ненужной госпитализации каждого отдельно взятого пациента или точно прогнозировать уникальные предпочтения конкретного потребителя. Телевикторина Jeopardy!

Страница 9 из 20

(российский аналог – «Своя игра») вручила приз в $1,5 млн создателям компьютера, победившего в поединке между человеком и машиной, что стало возможным благодаря значительному прогрессу в способности машины прогнозировать правильные ответы на вопросы. (Разумеется, IBM вложила гораздо больше денег для достижения этой победы, но более подробно об этом вы узнаете в главе 6.) Прибегая к помощи прогнозных аналитиков, организации удерживают детей в школах, обеспечивают приток новых клиентов и предотвращают совершение преступлений. Без преувеличения можно сказать, что благодаря прогнозной аналитике одерживаются победы на политических выборах, чемпионатах по бейсболу и… я еще не упоминал об управлении финансовым портфелем?

Биржевая торговля при помощи «черных ящиков», т. е. механических торговых систем, автоматически принимающих решения о проведении операций на рынке, – это cвятой Грааль принятия решений на основе данных. Черный ящик – это компьютерная программа, которая анализирует поступающие в нее потоки текущих финансовых данных и выдает приказы (или рекомендации) по покупке, продаже или удержанию бумаг. Он называется черным, поскольку до тех пор, пока он принимает правильные решения, вас не волнует, что происходит внутри него. Будучи работоспособным, он затмевает собой любой другой бизнес, возможный в этом мире: ваш компьютер становится устройством, превращающим электричество в деньги.

Для Джона Элдера запуск собственной торговой системы требовал немалого мужества. Даже если технология прогнозирования изменений на фондовом рынке будет огромным шагом вперед для человечества, для самого Джона этот шаг был совсем не маленьким. Для этого момента можно было подобрать множество метафор. Идя ва-банк и складывая все яйца в одну аналитическую корзину, Джон принимал большую дозу изобретенного им же лекарства.

Прежде чем продолжать рассказ о Джоне Элдере, давайте посмотрим, как происходит внедрение прогнозной аналитической системы не только для целей биржевой торговли, но и во множестве других сфер деятельности.

Внедрение ПА

Машинное обучение на основе данных находит применение практически повсеместно. Овладейте этим искусством, и вы будете востребованы почти повсюду!

Джон Элдер

Сегодня на нас буквально обрушивается поток головокружительных историй о все новых успехах, достигнутых благодаря ПА. Вот несколько ключевых факторов, которые привели к открытию этих шлюзов:

• значительное увеличение объемов данных;

• культурные сдвиги, происходящие по мере того, как организации начинают понимать преимущества и внедрять технологии прогнозной аналитики;

• совершенствование программного обеспечения, обеспечивающего организациям доступ к ПА.

Причина такого прорыва по всем фронтам заключается в одном счастливом качестве, присущем прогнозной аналитике, – ее универсальности. Применение этой технологии можно найти практически повсюду. Хотите придумать свой собственный инновационный способ использования ПА? Для этого вам нужно знать всего две вещи.

Любое применение ПА определяется двумя факторами.

1. Предмет прогнозирования: какое поведение, действие или событие должно быть спрогнозировано в отношении конкретного человека, акции или другого субъекта.

2. Цель прогнозирования: какие решения будут приняты или какие действия предприняты организацией в ответ на каждый прогноз или под его влиянием.

Поскольку список потенциальных областей применения ПА неограничен, а перечень уже достигнутых успехов невероятно обширен, их адекватная презентация сама по себе представляет собой небольшую задачу управления данными! Поэтому я составил большую выборку (в общей сложности 147 примеров) и поместил ее в виде девяти таблиц в приложении D этой книги. Перелистайте сейчас страницы и ознакомьтесь с ними, чтобы ощутить, сколь потрясающие вещи здесь происходят. Эти таблицы – как фотографии девушек на развороте глянцевого журнала – самая возбуждающая часть книги. Они раскрывают все области применения прогнозной аналитики: цены акций, риск, правонарушения, несчастные случаи, продажи, пожертвования, клики, отмены, проблемы со здоровьем, госпитализация, мошенничество, уклонение от уплаты налогов, преступления, неисправности, дебит нефти, отключение подачи электричества, предоставление государственных пособий, мысли, намерения, ответы, мнения, ложь, оценки, отсев учащихся, дружба, романтические отношения, беременность, разводы, рабочие места, увольнения, победы, выборы и многое другое. ПА стремительно проникает во все новые сферы нашей жизни.

В бизнесе свое главное применение ПА находит в области массового маркетинга, о чем мы говорили во введении.

Применение ПА: нацеливание прямого маркетинга

1. Предмет прогнозирования: какие клиенты положительно откликнутся на маркетинговый контакт.

2. Цель прогнозирования: нацеливание маркетинговых усилий на клиентов с наибольшей вероятностью положительного отклика.

Как уже было сказано, такое использование ПА хорошо иллюстрирует эффект прогнозирования:

Эффект прогнозирования: малым достигается многое.

Позвольте мне показать, как просто рассчитать величину чистой выгоды, создаваемой благодаря действию эффекта прогнозирования. Представьте, что у вас есть компания с списком рассылки, включающим 1 млн потенциальных клиентов. Стоимость прямой почтовой рассылки в расчете на клиента составляет $2, и в прошлом только 1 из 100 человек покупал ваш продукт (т. е. вы получали 10 000 откликов). Предположим, что вы по-прежнему решаете охватить рассылкой весь список.

Если ваша прибыль составляет $220 в расчете на каждый (редкий!) положительный отклик, то вы заработаете в общей сложности:

Общая прибыль = Выручка – Затраты = ($220 ? 10 000 откликов) – ($2 млн).

Можете не доставать ваш калькулятор – это $200 000 прибыли. Довольны ли вы таким результатом? Вряд ли.

Если вы новичок на арене прямого маркетинга (добро пожаловать!), вы заметите: это все равно как если бы вы заставили миллион обезьян кидать дротики в примерном направлении мишени – доля успешных попыток столь же невелика, зато масса дротиков (и денег) бросается на ветер. Как выразился один из пионеров маркетинга Джон Уонамейкер: «Половина денег, которые я трачу на рекламу, тратится впустую. Беда в том, что я не знаю, какая именно половина». Плохая новость в том, что на самом деле впустую тратится гораздо больше, чем половина; хорошая – ПА позволит вам существенно улучшить результаты.

Неточный прорицатель, к которому все прислушиваются

Первым шагом на пути прогнозирования будущего является признание того, что будущее нельзя спрогнозировать.

Стивен Дубнер, из передачи «Радио фрикономики» от 30 марта 2011 года

«Парадокс прогнозирования»: чем скептичнее мы относимся к нашей способности прогнозировать будущее, тем успешнее мы бываем в его планировании.

Нейт Сильвер, из книги «Сигнал и шум: почему не сбывается так много прогнозов – но некоторые все же сбываются»[4 - Silver N. The Signal and the Noise: Why So Many Predictions Fails – but Some Don’t. – NY: The Pinguin Press, 2012.]

Половина того, чему вы научитесь в медицинском институте, к моменту начала вашей врачебной практики окажется

Страница 10 из 20

неверным.

Д-р. Мехмет Оз

Ваш корпоративный прорицатель, прогнозно-аналитическая система, говорит вам, какие клиенты вероятнее всего откликнутся на прямую рассылку. Он выделяет четверть списка и заявляет: «Эти люди дадут положительный отклик с вероятностью в три раза выше средней». Так что теперь у вас есть короткий список из 250 000 потенциальных клиентов, из которых 3 %, т. е. 7500 человек, могут стать реальными покупателями.

Ну и прорицатель! При столь высокой степени неточности предсказаний мы по-прежнему не можем быть твердо уверены в результате по каждому потенциальному клиенту, учитывая ничтожную 3 %-ную долю откликов. Однако общий IQ ваших метающих дротики обезьян повышается фантастически. Если вы ограничите рассылку только этим коротким списком, вы заработаете:

Общая прибыль = Выручка – Затраты = ($220 ? 7500 откликов) – ($2 ? 250 000).

Это $1 150 000 прибыли. Вы увеличили прибыль в 5,75 раза просто за счет того, что разослали рекламные брошюры меньшему числу людей (и при этом также спасли от вырубки несколько деревьев). Вы спрогнозировали, кто вряд ли откликнется на вашу рекламу, и просто оставили этих людей в покое. Таким образом, вы сократили затраты на три четверти в обмен на снижение продаж всего на одну четверть. Согласитесь, это выгодная сделка.

Определить реальную денежную отдачу от прогнозирования несложно. Как вы уже увидели, если составление самих прогнозов требует применения сложных математических методов, то для того, чтобы оценить совокупное влияние на итоговый результат (такой, как прибыль) любого прогноза, точного или не очень, достаточно простейшей арифметики. Прогнозная аналитика – не некая абстрактная наука. Это бизнес.

Предупрежден – значит вооружен

Таким образом, даже небольшое предиктивное знание, незначительный задаваемый им в правильном направлении импульс обладает существенной ценностью. Писатели-фантасты любят рассуждать о том, к чему может привести даже самая малая возможность заглянуть в будущее. Помните, как герой Николаса Кейджа в фильме «Пророк», снятого по рассказу Филипа Дика, разделывается с опаснейшими преступниками? Его оружие? Врожденная способность заглядывать в будущее – хотя и всего на несколько минут. Но этого достаточно для того, чтобы предотвратить преступления. В результате этот тихий, мягкосердечный человек оказывается в самом центре боевых действий в окружении отряда вооруженных до зубов агентов ФБР, которые подчиняются каждому его жесту. Он предвидит урон, который может нанести каждая ловушка, снайпер или рядовой боевик, поэтому может правильно направлять действия своей группы суперагентов, избегая одной опасности за другой.

В некотором смысле внедрение ПА превращает вашу организацию в такую же команду суперагентов, обладающих сверхъестественной способностью избегать риска. Каждое решение, которое принимает организация, каждый шаг, который она делает, сопряжены с риском. Представьте себе, что будет, если организация сможет предвидеть любую опасность и избегать ее – будь то преступное деяние, падение цены акций, госпитализация, безнадежный долг, транспортная пробка, высокий процент отсева учащихся… или попадание рекламной брошюры в мусорную корзину. Таким образом, отныне организационный риск-менеджмент, целью которого традиционно была защита от единичных макроуровневых инцидентов, таких как падение самолета или экономический крах, расширяется до борьбы с мириадами микроуровневых рисков.

Но в этом нет ничего особенно ужасного. Мы также можем спрогнозировать благоприятное поведение, что часто сигнализирует о наличии возможности. Эта игра называется «Спрогнозируй и действуй» – другими словами, используйте открывающуюся возможность, когда ваша ПА-система подсказывает, что клиент может совершить покупку, цена акций будет расти, избиратель колеблется и может склониться на вашу сторону или привлекательная собеседница на сайте знакомств, скорее всего, согласится на свидание с вами.

Даже небольшое умение предвидеть будущее наделяет вас почти магической силой. В некоторых случаях очевидным решением будет принятие превентивных мер, чтобы избежать негативных событий, таких как преступление, убыток или болезнь. В других, предвидя благоприятную возможность, вы будете действовать, чтобы использовать ее. В любом случае прогнозирование служит принятию более осведомленных и правильных решений.

Давайте рассмотрим пример из реальной жизни, который я называю «делом на миллион долларов».

Тихая революция стоимостью в миллион

Когда организация внедряет в свою деятельность прогнозную аналитику, она бросает в бой целую армию – но это армия муравьев. Эти муравьи выходят маршем на передний край организационного фронта, там, где происходит контакт с клиентами, студентами, пациентами и т. п. – т. е. с людьми, которых обслуживает организация. Руководствуясь прогнозами, армия муравьев улучшает миллионы мелких решений, принимаемых в рамках этих взаимодействий. Этот процесс, как правило, протекает незаметно… пока кто-то не решает оценить его совокупный эффект. Несмотря на то, что улучшение решений происходит на микроуровне – на муравьином уровне, если использовать нашу метафору, – общий результат может быть впечатляющим.

В 2005 году я рылся в огромном массиве данных по поручению одного клиента, который хотел увеличить количество кликов на своем сайте. Точнее говоря, он хотел увеличить частоту кликов по рекламным объявлениям своих спонсоров. Это был вопрос денег: больше кликов – больше денег. За многие годы сайт приобрел десятки миллионов пользователей, и тот массив данных всего за последние несколько месяцев, который они мне предоставили, содержал 50 млн строк данных – немалый по размерам рудник, в котором мне предстояло добыть золото знаний и научиться прогнозировать… клики.

Реклама является неотъемлемой частью средств массовой информации – печатных, телевизионных или виртуальных. Бенджамин Франклин забыл включить ее в свой список, когда красноречиво заявил: «В нашем мире есть всего две неизбежные вещи – смерть и налоги». Крупнейшая интернет-компания Google указывает рекламу как главнейший источник доходов. То же самое делает и Facebook.

Но на этом сайте ситуация с рекламой немного отличалась от обычной, что еще больше увеличивало потенциальный выигрыш от умения правильно спрогнозировать клики пользователей. Это был ведущий сервис по поиску студенческих грантов и стипендий, который использовал каждый третий учащийся старших классов, готовящийся получить высшее образование: узкий нишевой сервис, который был чрезвычайно популярен у некоторых университетов и военных учебных заведений. Один из университетов публиковал броское рекламное объявление, в котором именовал себя «лидером творческого образования в Америке», а мигающая в центре кнопка с надписью «Да, пусть со мной свяжется представитель приемной комиссии Института искусств» просто умоляла, чтобы ее нажали. Разумеется, на сайте размещали рекламу и кредитные организации, предлагая будущим студентам другой источник финансирования: кредиты на обучение. Спонсоры платили по $25 за каждого потенциального новобранца. Неплохое вознаграждение за

Страница 11 из 20

один маленький щелчок мышью. Более того, поскольку реклама была весьма актуальна для пользователей, имея непосредственное отношение к цели их пребывания на сайте, доля откликов составляла необычайно высокие 5 %. Другими словами, этот небольшой бизнес, принадлежащий одной известной интернет-компании, специализирующейся на онлайн-рекрутинге, приносил хорошую прибыль. И любое, даже небольшое улучшение означало весомое увеличение дохода.

Однако улучшение алгоритма выбора рекламных объявлений было непростой задачей. Через определенные промежутки времени пользователям сайта демонстрировалось полноэкранное рекламное объявление, которое выбиралось из 291 имеющегося варианта. Хитрость заключалась в том, чтобы выбрать наиболее подходящее объявление для каждого конкретного пользователя. До настоящего момента выбор рекламы осуществлялся по простому принципу – какой доход она в среднем приносила в прошлом – без учета потребностей конкретного пользователя. Более привлекательные рекламные объявления всегда демонстрировались первыми. Хотя такой подход исключал возможность повышения релевантности объявлений для индивидуальных пользователей, он приносил замечательные результаты. Некоторые рекламодатели платили столь щедрое вознаграждение за каждый клик, и некоторые объявления инициировали столько кликов, что идея показывать некоторым пользователям менее действенную рекламу казалась сумасшедшей, поскольку могла подорвать уже сформированную систему извлечения дохода.

Опасности персонализации

Доверяя прогнозам и персонализируя на их основе свое предложение, вы идете на риск. Прогнозно-аналитическая система смело провозглашает: «Даже если рекламное объявление А в целом является сильным, в отношении этого конкретного пользователя стоит рискнуть и показать ему объявление B». По этой причине большая часть интернет-рекламы не персонализируется под конкретных пользователей. Даже рекламный сервис Google Adwords, который позволяет размещать текстовые объявления рядом с результатами поиска и на других веб-страницах, определяет, какие объявления показать, на основе содержания данной веб-страницы, кликабельности рекламы и предложения рекламодателя (сколько он готов платить за клик). Он не определяет их на основе того, что известно или спрогнозировано об этом конкретном пользователе, который увидит рекламу.

Но готовность пойти на этот риск выводит нас на новый уровень отношений с клиентами. Для бизнеса это означает «персонализацию», «повышение релевантности» и «индивидуализированный маркетинг». В других сферах это означает индивидуальный подход к лечению больных или к вынесению приговоров в отношении подозреваемых в совершении преступлений. В своей речи, посвященной удовлетворению широкого разнообразия наших предпочтений в выборе соуса для спагетти – с кусочками, сладкий, пряный – Малькольм Гладуэлл сказал: «Люди… искали универсализмы. Они искали универсальный способ вылечить всех нас… Вся наука XIX и большой части XX века была одержима универсализмами. Психологи, врачи, экономисты – все старались вывести правила, управляющие поведением всех нас. Но всё изменилось, не так ли? В чем состоит великая научная революция, произошедшая за последние 10–15 лет? В переходе от поиска универсализмов к пониманию многообразия. В области медицины мы хотим знать не то, как действует рак, а чем ваш рак отличается от моего».

От медицинских проблем до потребительских предпочтений индивидуализация побеждает универсализацию. То же касается и рекламы в Интернете.

Применение ПА: нацеливание рекламы

1. Предмет прогнозирования: какое рекламное объявление вероятнее всего спровоцирует клик у каждого конкретного пользователя.

2. Цель прогнозирования: повышение эффективности отображения рекламных объявлений (на основе вероятности клика, а также вознаграждения, выплачиваемого рекламодателем).

Я разработал для своего клиента прогнозно-аналитическую систему для персонализации рекламы, и компания решила испытать ее в деле, сравнив результаты с результатами своей прежней системы. Проигравший в этом поединке должен был оказаться в мусорной корзине второсортных идей, которые просто-напросто приносят меньше денег. Чтобы подготовиться к этому бою, мы снабдили ПА-систему мощным вооружением. Прогнозы генерировались посредством процесса машинного обучения, опирающегося на 50 млн примеров, каждый из которых содержал микроурок из прошлого, такой как «Пользователю Мэри было показано объявление А, и она по нему кликнула» (положительный отклик) или «Пользователю Джону было показано объявление В, и он по нему не кликнул» (отрицательный отклик).

Для отбора рекламы использовалась технология обучения, известная как наивная байесовская модель. Эта модель названа по имени преподобного Томаса Байеса, известного математика, жившего в XVIII веке, а термин «наивная» означает, что мы берем идеи очень умного человека и перерабатываем их таким образом, чтобы упростить их, но в то же время сделать пригодными для применения на практике. В результате мы получаем практический метод, который хорошо показывает себя в решении многих предиктивных задач и может быть приспособлен под конкретную задачу. Я выбрал этот метод за его относительную простоту, поскольку на самом деле мне нужно было разработать 291 такую модель – по одной для каждого объявления. Все вместе эти модели должны были предсказать, по какому рекламному объявлению вероятнее всего кликнет конкретный пользователь.

Внедрение: трудности и отсрочки

Как и запуск космического корабля, внедрение ПА в теории выглядит превосходно. Вы разрабатываете и строите аппарат, ставите его на стартовую площадку и ждете разрешения. Но в тот самый момент, когда вы готовы нажать кнопку «Старт», запуск отменяется. Затем откладывается. Затем отменяется снова. Так, братья Райт, воодушевленные потрясающими возможностями изобретенной ими новой конструкции крыла, создающей подъемную силу, решились пойти неизведанным и тернистым путем, многократно спотыкаясь и падая, рискуя своей жизнью и здоровьем, пока не устранили все проблемы.

Когда ПА используется в режиме реального времени, как в случае персонализации рекламы, прогнозы должны генерироваться со скоростью света, чтобы иметь практическую ценность. Виртуальный мир не терпит промедлений, когда нужно срочно решить, какую рекламу показать пользователю, купить или нет акции, авторизовать ли платеж по кредитной карте, какой фильм порекомендовать, отсеять ли сообщение как спам или как ответить на вопрос в интеллектуальной телевикторине Jeopardy!. ПА-система реального времени должна быть интегрирована непосредственно в операционные системы, такие как веб-сайты или средства обработки платежей по кредитным картам. Если вы впервые внедряете ПА в организации, этот проект может потребовать значительных усилий со стороны ее программистов, которые зачастую и без того перегружены работой по обслуживанию корпоративных систем, чтобы обеспечить нормальное функционирование организации. Таким образом, этап внедрения в проекте ПА требует гораздо большего, чем просто разрешения со стороны высшего руководства: он

Страница 12 из 20

требует большой реальной работы. К тому моменту, когда программисты интегрировали мою прогнозно-аналитическую систему, данным, на которых я ее отлаживал, уже было около 11 месяцев. Были ли результаты обучения по-прежнему релевантны почти год спустя или же они потеряли свою прогнозную силу?

В полете

Майор Том Центру управления полетами: —

Прием! Я шагнул за шлюз,

И поплыл я в непривычной пустоте…

Дэвид Боуи, из песни «Космическое путешествие»

После запуска ПА-системы начинается страшный период ожидания, словно вы плаваете в космическом пространстве и все вокруг вас застыло в полной неподвижности. Но на самом деле, когда вы дрейфуете на земной орбите, вы несетесь в космосе со скоростью более 22 400 км в час. В отличие от красочного зрелища запуска ракеты или строительства небоскреба, запуск ПА-системы происходит почти незаметно. Она начинает работать, но никаких немедленных видимых изменений в повседневных операциях не происходит. Например, если после установки системы персонализации рекламы вы зайдете на сайт, вам, как обычно, будут показывать рекламные объявления, так что вы можете даже усомниться в том, оказывает ли система какое-либо влияние на их выбор. Это то, что компьютеры умеют делать лучше всего. Они обладают способностью инициировать масштабные процедурные изменения, которые часто остаются незамеченными, поскольку не могут непосредственно наблюдаться ни одним человеком.

Но под поверхностью происходят глобальные перемены, словно весь океан подвергается радикальной реконфигурации. На самом деле эффект становится очевиден только тогда, когда составляется общий отчет.

В случае, о котором я рассказываю, прогнозный подход восторжествовал. Организация провела прямое сравнение: для одной половины пользователей реклама продолжала выбираться при помощи существующей системы, а для другой использовался новый предиктивный алгоритм. Новая система увеличила доходы по крайней мере на 3,6 %, что означало дополнительный $1 млн каждые 19 месяцев (из расчета на основании текущих поступлений). Причем эта система затрагивала только полностраничную рекламу; гораздо больше меньших по размеру объявлений размещалось на каждой странице сайта, и их эффективность также могла быть повышена через внедрение аналогичной ПА-системы.

Нам не потребовалось ни новых клиентов, ни новых рекламодателей, ни изменения действующих контрактов, ни нового компьютерного оборудования, ни новых сотрудников, ни нового рабочего подхода – для того, чтобы сгенерировать дополнительный денежный поток, потребовалось только улучшить процесс принятия решений. В хорошо отлаженной, работоспособной системе, подобной той, что была у моего клиента, даже небольшое улучшение на 3,6 % приносит существенную отдачу. Иногда выигрыш может быть еще значительнее: одна страховая компания сообщает, что благодаря использованию технологии прогнозной аналитики она экономит почти $50 млн в год за счет снижения убыточности на половину процентного пункта.

Так как же эти модели предсказывают каждый клик?

Элементарно, Ватсон: сила наблюдательности

Аналогично тому, как Шерлок Холмс делал проницательные выводы, опираясь на свое суждение о характере подозреваемого, прогнозирование основано на одном правиле: то, что известно о каждом конкретном человеке, дает набор подсказок о том, как он может поступить в той или иной ситуации. Вероятность того, что пользователь кликнет мышкой по определенному рекламному объявлению, зависит от разнообразных факторов, включая пол, год обучения, домен электронной почты (Hotmail, Yahoo! Gmail и т. д.), результаты предлагаемых на сайте опросов и тестов (имеет ли пользователь больше гуманитарный или математический склад ума?) и т. д.

На самом деле этот сайт собирал огромное количество информации о своих пользователях. Чтобы выяснить, на какие гранты или стипендии они могут претендовать, пользователи отвечали на десятки вопросов о своей успеваемости в школе, сфере интересов, внеклассных увлечениях, профессии, которую они хотят получить, образовании родителей и многом другом. Таким образом, таблица данных была не только очень длинной (50 млн примеров), но и широкой: каждая строка содержала всю информацию, известную о пользователе на тот момент, когда ему показывалось рекламное объявление.

На первый взгляд это кажется непосильной задачей: переработать миллионы примеров, чтобы узнать, каким образом использовать различные факты, известные о конкретном человеке, чтобы научиться составлять более-менее обоснованные прогнозы. Но эту задачу можно разбить на несколько частей, что намного упростит ее. Давайте начнем с хитроумного инструмента, который непосредственно занимается выработкой прогнозов, – электронного Шерлока Холмса, знающего, как учесть все эти факторы и на их основе сделать прогноз в отношении конкретного человека.

Прогнозная модель – это механизм, который предсказывает поведение индивида, такое как щелчок мышью, покупка, ложь или смерть. Она использует в качестве входных данных характеристики конкретного индивида и на выходе выдает прогнозную скоринговую оценку. Чем выше оценка, тем больше вероятность того, что индивид проявит прогнозируемое поведение.

Прогнозная модель (представленная в этой книге в виде «золотого» яйца, пусть и в черно-белом цвете) ставит каждому индивиду скоринговую оценку:

Другими словами, прогнозная модель учитывает все известные характеристики индивида и на их основе вырабатывает прогноз. Существует много способов это сделать. Один из них состоит в том, чтобы оценить влияние каждой характеристики и затем суммировать эти влияния – например, для женщин скоринговая оценка повышается на 33,4 балла, для пользователей Hotmail уменьшается на 15,7 балла и т. д. Каждый признак увеличивает или уменьшает итоговую скоринговую оценку для конкретного человека. Такая модель называется линейной; она считается достаточно простой и ограниченной в своих возможностях, хотя, как правило, это гораздо лучше, чем ничего.

Другие модели основаны на правилах, таких как в рассматриваемом нами примере:

Это правило является ценной находкой, так как средняя вероятность отклика на рекламное объявление института искусств составляет всего 2,7 %. Условно говоря, мы выделили группу потенциально активных «кликеров».

Интересно, что пользователи, заявившие об интересе к военной службе, чаще проявляют интерес и к рекламе института искусств. Хотя можно строить догадки, важно не предполагать существование прямой причинно-следственной связи. Например, может оказаться, что пользователи, которые более тщательно заполняют свой профиль на сайте, в целом склонны кликать по всем видам объявлений.

Различные типы моделей состязаются между собой в точности прогнозирования. Модели, основанные на наборах правил, подобных только что рассмотренным нами, считаются относительно простыми. Другие модели могут опираться на сложнейшие математические формулы, позволяющие вырабатывать более точные прогнозы, хотя их логика может быть во многом непонятной для человеческого разума.

Но все прогнозные модели имеют общую цель – учесть все разнообразные факторы, касающиеся

Страница 13 из 20

конкретного индивида, чтобы составить единую прогнозную скоринговую оценку. Затем эта оценка используется для принятия организацией решения о том, какие действия следует предпринять.

Но прежде чем использовать модель, ее нужно создать. И такая модель создается посредством машинного обучения:

Машинное обучение перемалывает данные, чтобы построить модель – новую машину прогнозирования. Таким образом, модель сама по себе является продуктом машинного обучения. Поэтому машинное обучение также называют прогнозным моделированием – обычно в коммерческой сфере употребляется этот термин. Если взять ранее упомянутый нами метафорический термин data mining («извлечение знаний из данных»), то прогнозная модель и есть тот самый добытый бриллиант.

Прогнозное моделирование полностью создает модель с нуля. Все формулы, удельные веса или правила вырабатываются автоматически с помощью компьютера. Для этого и предназначен процесс машинного обучения – механически приобретать новые знания и развивать новые способности, опираясь на анализ данных. Другими словами, присущий ПА «дар предвидения» вырастает из автоматизации.

Как охотник по возвращении в племя гордо демонстрирует свою добычу, так и прогнозный аналитик вывешивает свою модель на доске объявлений в корпоративной штаб-квартире. Как охотник передает добычу повару для дальнейшего приготовления, так и исследователь отлаживает свою модель, переводит ее на стандартный компьютерный язык и отправляет по электронной почте программистам для интеграции. Сытое племя одаривает охотника хвалебными песнопениями, довольный результатами руководитель компании одаривает аналитика премиями. Племя пережевывает мясо, аналитик перемалывает данные.

Принять решение – значит действовать

Недостаточно знать – надо применять знания на деле.

Иоганн Вольфганг фон Гёте

Картофель или рис? Что мне делать со своей жизнью? Я не могу решить.

Из песни «Я не умею решать» группы Muffin[5 - Рок-группа, в которой играет сестра автора Рэйчел.](1996)

Когда модель разработана, не спешите самодовольно почивать на лаврах. Даже самые точные прогнозы бесполезны, если они не применяются на деле. Это просто идеи, нематериальные сущности. Они могут поражать своей проницательностью, но, будучи повешены в рамочке на стену, смогут свидетельствовать разве что о вашем нарциссизме. Ни пользы, ни денег, ни каких-либо других осязаемых результатов они не принесут.

В отличие от отчетов, спокойно лежащих на столе, ПА выходит за стены лабораторий и начинает действовать в реальной жизни. И в этом отношении прогнозная аналитика стоит выше других форм интеллектуального анализа данных. ПА обожает внедрения и запуски, поскольку создаваемый ею продукт – прогнозы – требует конкретных действий.

Индивидуальная прогнозная скоринговая оценка напрямую влияет на решение о том, какое действие следует предпринять в отношении каждого конкретного человека. Врач проводит более пристальное обследование пациента, для которого спрогнозирован повышенный риск повторной госпитализации; представитель сервисной службы связывается с покупателем, для которого предсказана высокая вероятность отказа от товара или услуги. Прогнозная оценка требует действия – позвонить, написать, предложить скидку, порекомендовать продукт, показать объявление, провести проверку, расследовать, проверить на наличие дефектов, одобрить кредит или купить акции. Действуя на основе прогнозов, вырабатываемых посредством машинного обучения, организация в буквальном смысле слова учится на собственном опыте, улучшая свои повседневные операции.

Чтобы подчеркнуть этот момент, мы подвергли небольшой манипуляции английский язык. Сторонники ПА любят говорить о таком ключевом качестве прогнозной аналитики, как actionability, подразумевая ее непосредственную применимость на практике. ПА буквально диктует организации, что нужно делать. Но этот термин был украден нами из юридической сферы, где он означает «наличие исковой силы» (т. е. наличие оснований для возбуждения дела), и был наделен новым значением. Причина выбора столь агрессивной терминологии в том, что люди устали от впечатляющих на первый взгляд отчетов, которые в реальности дают лишь смутное чувство направления.

Таким образом, фраза «У вас расстегнулась молния на ширинке» побуждает к действию и, следовательно, обладает качеством actionability (она четко дает понять, что делать, – и вы можете и должны принять меры, чтобы исправить ситуацию), тогда как фраза «Вы лысеете» – нет (облысение не лечится, поэтому в этой ситуации ничего поделать нельзя). А для продавца одежды чрезвычайной actionability – непосредственной применимостью на практике – обладает прогноз «Этот человек с большой вероятностью может купить джинсы с ширинкой на пуговицах и эту модную кепку».

Запуск в действие ПА создает критически важное преимущество в высококонкурентном мире бизнеса. Сегодня мы видим тенденцию к массовому обезличиванию, когда все компании кажутся похожими друг на друга. Такое чувство, что все они продают практически одинаковые товары и услуги и действуют почти одинаковыми способами. Если компания сумеет выделиться из толпы, вы представляете себе ее перспективы?

«Во времена, когда компании во многих отраслях предлагают схожие товары и применяют схожие технологии, одной из последних оставшихся точек дифференциации являются высокоэффективные бизнес-процессы», – написали в книге «Аналитика как конкурентное преимущество: Новая наука побеждать»[6 - Дэвенпорт Т., Харрис Дж. Аналитика как конкурентное преимущество: Новая наука побеждать. – М.: BestBusinessBooks, 2010.] Томас Дэвенпорт и Джоан Харрис. Тут-то и пригодится прогнозная аналитика. Как показывают исследования, ужесточение конкуренции – главная на сегодняшний день причина, почему организации внедряют эту технологию.

Одно предостережение: внедрение ПА может повлечь за собой не только благоприятные изменения, но и новые риски. Помня об этом, мы вернемся к истории Джона.

Рискованный шаг

Дамы и господа… позвольте представить вам этого образованного и утонченного молодого человека, который совсем недавно был массой неразумной безжизненной материи.

Д-р Фредерик Франкенштейн (в исполнении Дж. Уайлдера) в фильме «Молодой Франкенштейн» Мела Брукса

Д-р Джон Элдер поставил все деньги на свою прогнозную модель. Он состряпал ее в лаборатории, упаковал в черный ящик и запустил в работу на фондовом рынке. Некоторые люди собственноручно изготавливают себе удобную кровать, чтобы затем предаваться на ней спокойным снам. Но Джон вскарабкался на гору, чтобы совершить прыжок веры. Прыгая вниз с экспериментальными крыльями собственной конструкции, Джон хотел знать, сколько времени пройдет, прежде чем он сможет с уверенностью сказать, что летит, а не просто падает вниз.

Думая о рисках, Джон словно смотрелся в треснувшее зеркало, отражающее его собственную уязвимость. Все их с женой пенсионные накопления были загружены в экспериментальный аппарат, который был запущен в неизвестность и который ожидала одна из двух участей обычной ракеты: успешный полет или падение. Десятки тысяч трейдеров в условиях жесточайшей

Страница 14 из 20

конкуренции каждодневно занимаются тем, что ищут устойчивые рыночные закономерности, способные приносить прибыль; научиться делать это автоматически посредством машинного обучения – невероятного честолюбия замысел, многим представляющийся нереализуемым. Фактически Джон действовал как первопроходец, поскольку любая работа в этой области покрыта завесой тайны, что не дает возможности учиться на успехах и неудачах других. Несмотря на то что ученые активно публикуют свои теоретические разработки, а трейдеры охотно обсуждают открывающиеся возможности, реальная механика алгоритмических торговых стратегий скрыта за семью печатями. То, что отлично выглядит на бумаге, может таить в себе дефект или ошибку, способные подорвать торговую систему и привести к банкротству. Джон говорит: «Уолл-стрит – вот самый крепкий орешек в деле анализа данных».

Риск был очевиден. Ведь незадолго до этого Джон обнаружил критический изъян в одной прогнозной торговой системе и собственноручно вырыл ей могилу. Небольшой финансовой компании Delta Financial была предложена механическая торговая система, так называемый черный ящик, который предположительно должен был прогнозировать движения индекса S&P 500 с 70 %-ной точностью. Разработанная именитым ученым, эта торговая система обещала принести миллионы, и заинтересованные лица активно подыскивали инвесторов, готовых сделать крупные ставки. Поскольку Delta была известна своим пристрастием к исследованию и продвижению инновационных подходов, а также готовностью идти на сопряженные с этим риски, ей было предложено взять на себя роль первоиспытателя и проложить путь для других ранних инвесторов. В качестве необходимой меры предосторожности Delta хотела протестировать предложенную ей систему на практике, поэтому обратилась к Джону, который оказывал ей консультационные услуги, параллельно работая над докторской диссертацией в Университете Шарлоттсвилля, штат Вирджиния. Работа Джона для Delta часто заключалась в проверке, а иногда и «рытье могил» для механических торговых систем.

Как доказать, что машина сломана, если вам не разрешают заглянуть внутрь? Джон был настроен скептически: заявленная 70 %-ная точность прогнозов давала ему повод для сомнений. Это было слишком хорошо, чтобы быть правдой. Но у него не было доступа к самой прогнозной модели. В целях обеспечения строжайшей секретности протокол такого рода проверки предусматривал предоставление Джону только численных выходных данных, а информация о самой системе ограничивалась несколькими восторженными прилагательными, такими как инновационная, уникальная, эффективная! И вот, имея на руках столь скудные доказательства, Джон пытался доказать факт преступления, в совершении которого он сам не был полностью уверен.

Прежде чем запустить ПА-систему в действие, организации проверяют ее работоспособность посредством «прогнозирования прошлого» (так называемого бэктестинга). Модель должна доказать свою прогнозную точность на исторических данных. Она может тестироваться на данных за прошлую неделю, прошлый месяц или прошлый год. В модель загружаются входные данные, которые были известны в некий исходный момент времени, и она выдает прогноз, который сопоставляется с тем, что фактически произошло в дальнейшем. Например, модель должна спрогнозировать, упадет или вырастет индекс S&P 500 21 марта 1991 года. Если она дает правильный ответ на этот ретроспективный вопрос, опираясь только на данные, доступные 20 марта 1991 года (т. е. за день до этого), мы получаем доказательство работоспособности модели. Вот такие-то ретроспективные прогнозы – без единого намека на то, каким образом они были получены, – были единственной информацией, с которой предстояло работать Джону.

Хьюстон, у нас проблема

Даже самые гениальные инженеры совершают самые прозаичные и дорогостоящие ошибки. В конце 1998 года НАСА запустило космический аппарат Mars Climate Orbiter, который должен был совершить сложнейший девятимесячный полет до Марса и обосноваться на его орбите. Нужно сказать, что эту миссию удалось успешно выполнить менее чем половине всех запущенных в мире космических аппаратов. Этот же аппарат стоимостью $327,6 млн также постигла печальная участь – но вовсе не по воле злого рока, а из-за глупой ошибки. Он прошел над поверхностью Марса на высоте всего 57 км вместо расчетных 140 км и попросту сгорел в атмосфере. В чем же причина такого отклонения? Дело в том, что в программном обеспечении Mars Climate Orbiter использовалась международная единица измерения силы ньютон, в то время как программное обеспечение на Земле использовало британскую единицу измерения фунт-сила. Ой…

Джон смотрел на испещренный числами монитор и размышлял, не скрывается ли здесь какой-нибудь изъян, и если да, то как его обнаружить. Глядя на длинный список впечатляющих – пусть и ретроспективных пока – прогнозов, он ясно видел обещание огромных прибылей, которое так будоражило остальных. Если бы ему удалось найти дефект в системе, приговор был бы очевиден; если нет, он обрекал всех на затяжную неопределенность. Эту задачу можно было решить только при помощи обратного инжиниринга, или декомпиляции: исходя из сгенерированных системой прогнозов, может ли он догадаться о том, как она работает под капотом, – т. е. по сути раскрыть тайную механику этого черного ящика? Ирония заключалась в том, что прогнозное моделирование само по себе построено на обратном инжиниринге. Машинное обучение начинается с того, что берутся эмпирические данные, описывающие уже свершившиеся события и факты, и в них ищутся закономерности, которые могли сгенерировать имеющиеся данные или же могут объяснить их. Джон пытался вывести закономерности, которые вывела до него другая команда. Каким образом он действовал? Опирался на интуитивные догадки и плохо информированные умозаключения, которые можно было проверить только методом проб и ошибок, и тестировал каждую созданную им замысловатую гипотетическую конструкцию, программируя ее вручную и сравнивая ее результаты с предоставленными ему ретроспективными прогнозами.

Его настойчивость наконец-то принесла свои плоды: Джон обнаружил изъян в прогнозной модели, тем самым разоблачив неприглядную тайну Волшебника из Страны Оз. Оказалось, что прогнозная система была построена на кощунственном обмане: она опиралась на данные, на которые ни в коем случае не должна была опираться, – на данные из будущего. Ее впечатляющие ретроспективные прогнозы вообще не были прогнозами как таковыми. Они были частично основаны на трехдневных средних значениях, рассчитанных по вчерашней, сегодняшней и… завтрашней цене. Возможно, разработчики намеревались включить параметр трехдневного среднего, ограничив его расчет сегодняшним днем, но нечаянно сдвинули диапазон на день вперед. Ой… Наличие такой серьезной ошибки позволяло спрогнозировать со 100 %-ной точностью, что модель вряд ли вообще будет работать на практике. Дело в том, что, работая в реальных условиях, она лишится возможности включать в свои прогнозы те самые ключевые данные, которые, собственно говоря, и предназначена была прогнозировать – завтрашнюю цену акций, – просто потому, что та пока не известна. Если бы

Страница 15 из 20

система была внедрена, она никогда не смогла бы обеспечить такую же сверхточность прогнозов, которую она продемонстрировала обманным путем на исторических данных. Действуя интуитивно, при помощи обратного инжиниринга, Джон сумел разработать метод, содержащий такую же ошибку, и показал, что его прогнозы полностью совпадают с прогнозами этой «гениальной» торговой системы.

Прогнозная модель пойдет ко дну быстрее, чем «Титаник», если не устранить все подобные «утечки», прежде чем спускать ее на воду. Но такого рода «утечки из будущего» – распространенная проблема. Хотя такая ошибка нарушает фундаментальную целостность прогнозирования, ее легко совершить, поскольку каждая модель тестируется на исторических данных, для которых прогнозирование, строго говоря, невозможно. Относительное будущее всегда легкодоступно в экспериментальных данных, и его легко непреднамеренно включить в ту самую модель, которая пытается его предсказать. Такие утечки из будущего буквально стали притчей во языцех среди специалистов по прогнозной аналитике. Если бы это был эпизод из «Звездного пути», то наш любимый инженер-маньяк Скотти воскликнул бы: «Капитан, мы теряем нашу временную целостность!»

Джон не без удовольствия сообщил Delta Financial эту неприятную новость: он развенчал систему, по сути разоблачив ее как непреднамеренное мошенничество. Большие надежды были разбиты, но благодарность последовала незамедлительно, поскольку потенциальные инвесторы осознали, что были на волосок от огромных убытков. Честолюбивый изобретатель системы был удручен, но признал, что ему пришлось бы гораздо хуже, если бы ошибка вскрылась после запуска системы. Вполне вероятно, его могло ожидать уголовное преследование за мошенничество, пусть и неумышленное. Проект был закрыт.

Маленькая модель, которая сделала это

Все новое зарождается там, где заканчивается старое.

Из песни «Closing Time» группы Semisonic

Несмотря на молодой возраст, Джон был компетентным специалистом в области анализа данных, к которому часто обращались за советом инвесторы-предприниматели, хотевшие внедрить механическую торговую систему. Один из таких инвесторов переехал в Шарлоттсвилль как раз после того, как Джон Элдер, получив докторскую степень, переехал в Хьюстон: ученому предстояло пройти очередной этап своего академического пути ? его ждало место научного сотрудника в постдокторантуре Университета Райса. Но в Шарлоттсвилле он оставил после себя глубокий след, поэтому и в академических, и в коммерческих кругах инвестору посоветовали обратиться к Джону. Несмотря на расстояние, тот нанял Джона, чтобы подготовить и запустить новую механическую торговую систему и затем следить за ее работой дистанционно, из Хьюстона.

Так для Джона настало время оставить безопасную роль консультанта, ограничивающегося оценкой прогнозных систем, разработанных другими, и создать свою собственную. Он собрал небольшую группу коллег, и за несколько месяцев, опираясь на ключевые идеи, предоставленные им инвестором, они разработали новую многообещающую прогнозную модель и на ее основе создали механическую торговую систему. Джону не терпелось испытать ее в действии. Все было готово для запуска, кроме одного: люди не были готовы поставить на систему свои деньги.

Верить Джону были веские основания. Он был талантливым ученым, обладающим глубокими научными знаниями, но вместе с тем имел впечатляющий опыт в решении широкого спектра практических задач в области интеллектуального анализа данных. В докторской диссертации он предложил наиболее эффективный, по признанию коллег, метод оптимизации для определенного широкого класса задач системной инженерии (машинное обучение также представляет собой своего рода задачу оптимизации). Помимо прочего, он разработал прогнозную систему для определения вида летучих мышей по издаваемым им эхолокационным сигналам. Прежде чем уйти в науку, Джон занимался непосредственно практическими аспектами применения машинного обучения, в том числе системами управления космическими полетами, системами для обнаружения трещин в трубах системы охлаждения ядерных реакторов, не говоря уже о проектах по проверке черных ящиков для Delta Financial.

И вот теперь последнее творение Джона было полностью готово к старту. Результаты тестирования на исторических данных вселяли уверенность в работоспособности системы, обещая радужные перспективы. Вот как сказал об этом Джон: «Из всепоглощающего рыночного шума вырисовался небольшой шаблон. Мы наткнулись на устойчивую неэффективность ценообразования в одной из частей рынка, что давало нам небольшое преимущество над средним инвестором, которое казалось повторяемым». Неэффективность ценообразования – именно за счет этого и живут биржевые трейдеры. На абсолютно эффективном рынке такое было бы невозможным, но реальный рынок далек от идеала, поэтому тот, кто умеет обнаружить точки неэффективности, может сорвать большой куш.

Применение ПА: механические торговые системы

1. Предмет прогнозирования: будет ли цена акции расти или падать.

2. Цель прогнозирования: использовать прогнозы для покупки акций, которые будут расти в цене, и продажи акций, цены которых будут падать.

Джон не мог получить зеленый свет. Он пытался убедить инвесторов, но натыкался на опасливые отказы. Казалось, это был замкнутый круг. Инвесторы не могли преодолеть свой страх, пока не увидят успешной работы системы, но система не могла быть запущена в работу, поскольку у нее не было топлива – денег. Нужно было действовать сейчас, так как каждый день означал упущенную возможность.

После очередной встречи, которая также закончилась ничем, Джон вернулся домой и поговорил с женой Элизабет. Могла ли супруга устоять перед горячим энтузиазмом любимого мужа и его верой в собственные силы? Она дала разрешение рискнуть всем, что у них было, – шаг, который мог поставить под угрозу даже дом, в котором они жили.

Но Джону требовалось одобрение еще одной стороны. Он изложил свой план инвестору-клиенту, что вызвало вопросы, удивление и опасения. Джон хотел начать на свои личные средства, что устраняло всякий риск для клиента и позволяло разрешить любые сомнения благодаря испытанию модели в реальных условиях. Но этот неортодоксальный шаг был сродни сомнительному решению быть своим собственным адвокатом. Когда человек рискует всеми своими деньгами, на такое часто смотрят неодобрительно. Это говорит о его чрезмерной самоуверенности, если не о глупой браваде. Даже если сам клиент верил Джону, другие инвесторы не знали его и не доверяли ему. Но Джон сам устанавливал правила игры, в которую решил сыграть.

Он получил от инвестора ответ: «Действуйте!» Это означало, что теперь ничто не стояло у него на пути. Но это также могло означать, что инвестор был готов списать проект со счетов, понимая, что ему нечего больше терять.

Хьюстон, мы взлетели

Прогнозные аналитики часто в некоторой мере ставят на кон свою профессиональную жизнь, чтобы двигаться вперед, но этот случай был экстремальным. Как и легендарный бейсбольный тренер Билли Бин из OakLand A’s, который рисковал своей карьерой, разрабатывая и тестируя новый аналитический подход к

Страница 16 из 20

управлению командой, Джон рисковал всем, что имел. В начале 1994 года на его индивидуальном пенсионном счету накопилось чуть больше $40 000. И все эти деньги он поставил на свою торговую систему.

«Запускать в действие черный ящик по-настоящему захватывающе и страшно, – говорит Джон. – Это американские горки, где невозможно остановиться. Ваша тележка преодолевает головокружительные подъемы и спуски, и при этом существует вполне реальная вероятность того, что она может сойти с рельсов».

Как и в бейсболе, отмечает он, эти спады не являются спадами как таковыми. Это неизбежные статистические реалии. Всякий раз вы задаете себе вопрос: «Это чувство падения – нормальная часть безопасной езды или признак того, что что-то сломалось?» Ключевым компонентом его системы был тщательно продуманный механизм оценки реального качества – показателя целостности системы, учитывающего, был ли последний успех действительно заслуженным или же всего лишь результатом слепой удачи.

Сразу после старта предиктивная ракета Джона принялась уверенно набирать высоту. Она увеличивала его активы со скоростью примерно на 40 % в год, что означало удвоение его первоначальной инвестиции всего за два года.

Клиент был впечатлен и вскоре вложил пару миллионов долларов из своего кармана. Через год прогнозная модель управляла фондом в $20 млн, сформированным группой инвесторов, и в конечном итоге активы под ее управлением выросли до нескольких сотен миллионов долларов. При таком размахе каждый небольшой успешный прогноз, сделанный системой, приносил многократную отдачу.

Все участники этого пиршества получали щедрый кусок пирога, и торговая система Джона продолжала свое триумфальное шествие почти девять лет, все это время стабильно опережая рынок. Она автономно торговала в десятках рыночных секторов, таких как технологии, транспорт и здравоохранение. По словам Джона, «система обыгрывала рынок каждый год, демонстрируя лишь две трети среднего отклонения[7 - Среднее, или среднеквадратическое, отклонение можно считать мерой неопределенности. В биржевом анализе используется для оценки волатильности. Мера риска для инвестиций: чем больше величина среднего отклонения, тем выше риск. – Прим. пер.], – это был потрясающий результат с точки зрения доходности, скорректированной с учетом риска».

Но все хорошее однажды заканчивается, и точно так же, как когда-то Джон уговорил своего клиента начать проект, теперь он убедил его закрыть. После почти десяти лет успешной работы ключевой показатель целостности системы начал снижаться. Джон был уверен, что система работает на последних парах, поэтому без лишних церемоний фонд был закрыт, а деньги – розданы. Система была остановлена вовремя, пока не произошла катастрофа, и все инвесторы вышли из этого предприятия с щедрой прибылью.

Настоящий ученый

Впечатляющий успех его детища кардинально изменил жизнь Джона. Когда проект вышел на крейсерский режим, он начал с легкостью обеспечивать средствами к существованию свою быстро растущую семью. На управление проектом у Джона уходило не больше двух часов в день, которые он посвящал мониторингу, настройке и обновлению фундаментально стабильного и работоспособного метода, лежащего в основе черного ящика. Чем заниматься в остальное время? Сидеть в мягком кресле и потягивать вино, время от времени прерывая безделье семейными поездками в «Диснейленд»? Но Джон не привык к такому образу жизни. Раньше ему всегда приходилось «жечь свечу с двух концов», чтобы заработать на жизнь: в колледже он всегда подрабатывал в летние каникулы, параллельно с учебой в аспирантуре занимался консультированием, и даже этот проект по разработке черного ящика начался как работа по совместительству. Или же ему следует, как диктует традиционная логика бизнеса, заняться расширением своей деятельности, делая больше того же самого, в чем он преуспел?

Но страсть Джона к своему ремеслу перевесила своекорыстные реакции на свалившееся на него богатство. Другим словами, ему был присущ дух настоящего ученого. Он шутит по поводу своей ненасытной потребности искать и находить свежие и стимулирующие научные задачи. Он испытывает непреодолимую тягу к тому, чтобы постоянно пробовать что-то новое. От этой болезни есть только одно лекарство – растущий список разнообразных проектов. Поэтому через два года после запуска механической торговой системы он уволился из Университета Райса, упаковал вещи и вернулся с семьей в Шарлоттсвилль, чтобы открыть собственную компанию, специализирующуюся на интеллектуальном анализе данных.

Сегодня созданная Джоном компания Elder Research – крупнейшая фирма в Северной Америке по оказанию услуг в области прогнозного анализа. Тогда как для многих компаний ключом к успеху является узкая специализация, преимущество Elder Research заключается в прямо противоположном – в разнообразии. Деятельность компании выходит далеко за рамки мира финансов и охватывает все ведущие коммерческие сектора и многие правительственные сферы. Джон стал признанным авторитетом в своей области. Он председательствует на крупных конференциях, выступает соавтором новейших учебников, читает лекции в университетах и пять лет по поручению президента работал в комиссии по вопросам технологий в Совете национальной безопасности.

Прогнозирование для внутренних нужд

Чем больше становится известно историй, подобных истории Джона, тем больше организаций присоединяются к победному маршу прогнозной аналитики. Так, одна крупнейшая международная компания сосредотачивает всю силу прогнозирования на самой себе, окидывая зорким взглядом ПА собственных сотрудников. Читайте дальше, чтобы узнать о том, какие могут возникать положительные и отрицательные последствия, когда ученые осмеливаются обратить свой взор на людей. Нравится ли людям, когда их поведение прогнозируют?

Глава 2

С властью приходит ответственность

Hewlett-Packard, Target и полиция выведывают ваши секреты

Что будет, если вашего босса уведомят, что вы собираетесь уволиться – даже если вы никому об этом не говорили? Если вы являетесь одним из более чем 330 000 сотрудников компании Hewlett-Packard, то знайте, что ваш работодатель на регулярной основе оценивает вас и всех ваших коллег по шкале «риск ухода». Эта оценка показывает, какова вероятность того, что вы можете покинуть компанию. Если вы работаете в HP и не знали об этой практике, повремените выходить из себя от гнева, пока не прочитаете в этой главе объяснение такому поведению вашего работодателя.

Эта история с HP всплыла на волне шумихи, поднятой в средствах массовой информации вокруг компании Target в связи с вскрывшимся фактом, что этот крупнейший оператор гипермаркетов занимается прогнозированием беременности своих покупателей. В этом торнадо смешалось все – вводящие в заблуждение обвинения, страх перед могуществом корпораций, громкие заявления известных личностей и, конечно же, прогнозная аналитика (ПА). К моему удивлению, я оказался в самой гуще событий.

Несмотря на то, что средства массовой информации любят огульную пальбу, они часто выбирают для атаки в целом правильное направление. Нападки СМИ были реакционным и дезинформирующими, но

Страница 17 из 20

для всех было очевидно, что они не лишены законных оснований. Связанная с прогнозированием деятельность HP и Target поднимала чрезвычайно сложный и актуальный этический вопрос. А в контексте неприкосновенности частной жизни ставки повышались еще больше.

Почему? Потому что прогнозирование сует нос в ваше частное будущее. В обоих вышеописанных случаях компании узнавали ранее неизвестные чувствительные факты: вы собираетесь уволиться? Вы беременны? И дело даже не в возможности злоупотребления этими данными, их утечки или кражи. Дело в том, что таким образом помимо воли человека происходит косвенное раскрытие фактов, касающихся его частной жизни. Организации генерируют эти важные новые сведения из существующих безобидных данных, буквально создают их из воздуха. Но умеют ли они правильно управлять этой своей способностью?

Хотя мы уже признали всю силу прогнозирования и поставили его себе на службу, мы только сейчас начинаем осознавать риски, которые это влечет с точки зрения неприкосновенности частной жизни. Однако цепная реакция запущена и удивляет даже экспертов: организации вовсю используют новые возможности, потребители протестуют, СМИ подливают масло в огонь, ученые уворачиваются от нападок и подвергают пересмотру этические принципы.

Будем честны: в конце концов, прогнозная аналитика используется не только для того, чтобы выявлять будущих мам и нелояльных сотрудников. Она может применяться и в куда более неоднозначных целях. ПА помогает выявлять потенциальных преступников и активно используется правоохранительными органами для принятия решений о том, кто должен сидеть в тюрьме, а кого можно отпустить на свободу.

Далее я расскажу вам о том, как однажды невольно превратился из беззаботного аналитика в телезвезду и как организации были вынуждены сменить высокомерие на смирение. Затронем мы и тему использования прогнозной аналитики в сфере асоциальной деятельности.

Что прогнозирует Target и зачем

В 2010 году я пригласил эксперта из Target Эндрю Поула выступить с докладом на конференции Predictive Analytics World, где я был председателем программного комитета. Поул руководит целой армией профессиональных аналитиков, управляющих различными ПА-проектами для Target. В октябре того же года он сделал великолепный доклад, осветив в нем широкий спектр областей применения ПА в Target. Поул вышел на сцену и сразу же захватил внимание аудитории своей динамичной речью, в которой были и детальные примеры, и увлекательные истории, и демонстрация впечатляющих результатов в бизнесе. Аудитория была в восторге. Его выступление можно посмотреть на сайте www.pawcon.com/Target.

Ближе к концу выступления Поул рассказал о проекте по прогнозированию беременности среди покупателей. Маркетинговый потенциал таких прогнозов очевиден, принимая во внимание потребности семьи, ожидающей рождение ребенка.

Но это было чем-то принципиально новым, и я повернул голову, чтобы посмотреть на реакцию аудитории. Ничего. Абсолютно ничего. Как правило, в маркетинговых проектах ПА используется для прогнозирования покупательского поведения. Но в данном случае предмет прогнозирования не относился к вещам, непосредственно интересующим маркетологов, а сам был значимым предиктором широкого спектра покупательских потребностей. В конце концов, задача маркетолога состоит в выявлении спроса и использовании открывающихся возможностей. И эту цель прогнозирования можно считать «суррогатной матерью» (извините за сравнение) для соответствующих покупательских потребностей, за выявление которых розничный торговец и платит своим маркетологам.

Применение ПА: прогнозирование беременности

1. Предмет прогнозирования: кто из покупательниц в ближайшие месяцы ожидает рождения ребенка.

2. Цель прогнозирования: делать соответствующие маркетинговые предложения для будущих родителей.

На основе каких данных Target научилась прогнозировать беременность, учитывая, что прогнозное моделирование требует некоторого количества прецедентов, из которых оно могло бы получить данные для анализа? Как вы помните, прогнозное моделирование – это одна из форм автоматизированной обработки данных, сопровождающейся обучающими примерами, которые должны включать как положительные, так и отрицательные варианты. Другими словами, необходимо, чтобы в прошлом компания выявила ряд положительных примеров того, что она хочет спрогнозировать в будущем. Понятно, что для составления прогнозов наподобие «может купить стереосистему» у розничного продавца есть масса положительных примеров. Но как научиться определять, какие из покупательниц Target могут быть беременны?

Вас может удивить, насколько прост ответ на этот вопрос. Попробуете догадаться сами? Для этого проекта не используется никакой медицинской или фармацевтической информации. Каким же образом покупательницы информируют Target о том, что они беременны? Через сервис Baby Registry на сайте Target. (Baby Registry – это список вещей, которые потребуются при рождении ребенка.) Заполняющие список посетительницы сайта не только раскрывают факт своей беременности, но и указывают сроки. По словам Target, есть и другие маркетинговые программы, через которые будущие мамы дают о себе знать, таким образом выступая в качестве положительных примеров для обучения.

Используя сервис Baby Registry и другие источники данных о покупателях, Target сформировала массив данных и создала «довольно точную» прогнозную модель. Теперь компания может применять эту модель и к тем покупательницам, которые не сообщают о своей беременности. Это позволяет выявлять гораздо больше беременных покупательниц, поскольку очевидно, что большинство из них не регистрируется на вышеуказанном сервисе.

Модель составляет прогноз в отношении конкретной покупательницы на основании приобретаемых ею товаров, которые могут включать товары для новорожденных или же некую комбинацию других товаров, не обязательно напрямую связанных с рождением ребенка. Работа модели построена на автоматическом выявлении тенденций через исследование широкого разнообразия факторов. Не думаю, что модель Target подтвердила, что покупка мороженого и соленых огурцов является надежным индикатором беременности, но были проанализированы и учтены все до единой категории товаров. В результате модель выявляет на 30 % больше покупательниц, которым Target может предложить ориентированные на беременных рекламные материалы, – значительный успех с точки зрения маркетинга.

Многозначительная пауза

Гордо расхаживая по сцене, Поул расхваливал этот неортодоксальный маркетинговый подход, применяемый Target. Его ценность для бизнеса была очевидна, и к тому же Поул был харизматичным оратором. Скорее всего, он уже выступал с этой речью на внутренних презентациях в Target, где та была хорошо принята, и вот теперь произносил ее на открытой конференции. В любом случае материал был превосходным, и аудитория слушала его очень внимательно.

На мгновение у меня возникли некоторые сомнения, но, увлеченный самой технологией, я решил, что этот проект, как и полагается, был подвергнут тщательной проверке в самой Target и все поводы для опасений были устранены. Когда прогнозный аналитик выбирается из темной пещеры

Страница 18 из 20

данных на свет божий, ему зачастую бывает трудно представить, как отреагируют на его очередной проект обычные люди, которые, ни о чем не подозревая, ходят по улице. Поул заверил аудиторию, что Target строго соблюдает все законы, регулирующие неприкосновенность частной жизни и использование данных: «Target хочет быть уверена, что не попадет под обстрел средств массовой информации из-за того, что использует то, чего не должна использовать». На тот момент никто из присутствующих на конференции даже представить себе не мог, во что выльется этот доклад.

Мои 15 минут славы

Поскольку как эксперт в области ПА я оказался в центре разразившегося в СМИ скандала вокруг прогнозирования беременности, которым занималась Target, я из первого ряда мог наблюдать за тем, как один журналист бросает провоцирующую искру, комментаторы и эксперты разжигают из нее костер, а новостные выпуски раздувают пламя.

Кто же первым разболтал эту тайну? Несколько месяцев спустя после презентации Поула я дал интервью журналисту New York Times Чарльзу Дахиггу. Он спросил меня о том, какие интересные открытия были сделаны благодаря ПА. Я перечислил несколько из них и упомянул о прогнозировании беременности, дав ему ссылку на видеозапись выступления Поула, которое до тех пор привлекало к себе мало внимания, а также познакомил его с Поулом. Надо признать, что к тому времени я уже практически забыл, что эта тема может быть связана с вопросом о неприкосновенности частной жизни.

Через год, в феврале 2012 года, в New York Times Magazine вышла статья Дахигга «Как компании узнают ваши секреты», которая и послужила той искрой, из которой разгорелось пламя скандала вокруг истории с прогнозирование беременности. В написанной разоблачительным тоном статье противоправный характер действий Target представлялся как доказанный факт. Чтобы усилить воздействие, в статье приводилась анонимная история о том, как один отец узнал о беременности своей дочери-подростка, увидев рекламу товаров для беременных, присланную ей Target. При этом подспудно подразумевалось, что это было результатом проекта по прогнозированию беременности. New York Times Magazine даже подготовил в дополнение к статье короткое видео, в котором демонстрировались драматически замедленные кадры стоящих у кассы покупателей Target, в то время как на фоне тревожной музыки Дахигг вещал устрашающим голосом: «Они могут узнать о любых переменах в вашей жизни… они могут манипулировать вами… чтобы вы отдавали им еще больше долларов». Дахигг называет опирающийся на данные маркетинг «шпионажем» за клиентами.

Эта хорошо продуманная сенсация вызвала широкий резонанс в прессе, на радио и телевидении; многочисленные журналисты и комментаторы слепо принимали на веру то, что было всего лишь бездоказательными утверждениями, механически повторяя их и нагружая эмоциями. Случайно или нет, но именно в это время вышла книга Дахигга «Сила привычки: Почему мы живем и работаем именно так, а не иначе» (Random House, 2012 год)[8 - Дахигга Ч. Сила привычки: Почему мы живем и работаем именно так, а не иначе. – М.: Карьера Пресс, 2014.], которая немедленно оказалась в списке бестселлеров New York Times.

Поскольку в той пресловутой статье цитировались мои слова, я тоже оказался в эпицентре торнадо. Поул и Target молчали, словно набрали в рот воды. Я же, будучи независимым консультантом, наслаждался неограниченной свободой публичных выступлений. У меня не было мудрого работодателя, чтобы удержать меня от этого.

В свете софитов

Я не могу смотреть в лицо фактам.

Я напряжен, я нервничаю

И не могу расслабиться.

Из песни группы Talking Heads

Буквально за одну ночь я превратился из технаря в телезвезду, когда ночным рейсом рванул в Нью-Йорк, чтобы предстать в новостной программе на телеканале Fox News перед миллионами телезрителей. Честно говоря, морально я не был готов к этой роли. Плавая в абстрактном океане данных, профессиональные аналитики редко появляются на поверхности, да и то, как правило, по чистой случайности. Их работа большей частью состоит в бесконечных упражнениях в математике и алгоритмике с целью выявления закономерностей, обещающих быть верными в будущем, – странная, магическая игра, бросающая вызов законами физики, которые запрещают путешествия во времени. В своих лабораториях мы изолированы от внешнего мира, ничего не знаем ни о тоске разбитых сердец, ни о нарушенных личных тайнах. Попросив меня сменить лабораторный халат на костюм и галстук, сильные мира сего тем самым признавали, что наша малопонятная эзотерическая деятельность, ранее считавшаяся уделом лишь посвященных, на самом деле по-настоящему важна.

Организаторы утренней новостной программы Fox & Friends усадили меня за стол, и я изо всех сил старался придать себе невозмутимый вид, восседая на этом, совершенно очевидно, «горячем» месте. Перед началом передачи ведущая, знаменитая Гретчен Карлсон, остановила на мне взгляд и громко поприветствовала через всю студию: «Привет, Эрик!» Я тоже поздоровался с ней так, будто каждый день видел ее в этой студии: «Привет, Гретчен!»

Затем мы вышли в прямой эфир, который смотрели около двух миллионов телезрителей. Полностью соглашаясь с позицией Times, Карлсон устроила Target разнос за раскрытие факта беременности молодой девушки. Из ее слов можно было сделать вывод, что такой побочный ущерб присущ любому прикладному применению ПА. Второй приглашенный, профессор медицинской этики, полностью поддержал Карлсон и высказал мнение, что любое применение ПА должно быть запрещено, по крайней мере до тех пор, пока не будет проведено тщательное расследование. Далее миллионам телезрителей канала Fox были показаны кадры с магазинами Target, поверх которых большими буквами был напечатан вопрос «Магазины шпионят за вами?», затем сменившийся надписью «Target держит вас на прицеле».

Очень быстро стало ясно, что я был приглашен в качестве антигероя, поскольку шоу было призвано выставить мою профессию в дьявольском обличье. На данный момент я был лицом ПА, и мне нужно было дать отпор. Если организации подчас небрежно обращаются с той властью над людьми, которой наделяет их прогнозная аналитика, то СМИ не менее небрежно обращаются со своей властью над умами телезрителей, не стесняясь обрушивать на них голословные заявления и ложную информацию. Я сделал глубокий вдох и сказал, что статья в New York Times Magazine вводит в заблуждение, поскольку намекает, что Target обладает «сверхъестественной» способностью со 100 %-ной точностью предсказывать беременность покупательниц, и устанавливает недоказанную взаимосвязь между ПА-проектом и сомнительной историей с беременной девочкой-подростком. Прогнозы Target не являются медицинским диагнозом и не основаны на медицинской информации. Мне удалось втиснуть в отведенные мне пару минут выступления ключевую мысль: нельзя огульно клеймить позором всю прогнозную аналитику. Мое выступление можно посмотреть на сайте www.pawcon.com/Target-on-fox.

В другом интервью меня попросили прокомментировать высказывание Кэтрин Альбрехт, ярой защитницы неприкосновенности частной жизни, которая заявила: «Цель розничных продавцов состоит в том, чтобы узнать о своих покупателях все, что только можно. Магазины превратились в этакие зоопарки, где в роли зверей выступают

Страница 19 из 20

покупатели». Что я ответил? В отличие от социальных наук, задача ПА – повышение операционной эффективности организаций; ее не интересуют люди как таковые. И, в конце концов, если вы наблюдаете за человеком, это не означает, что вы обращаетесь с ним как с подопытным кроликом.

СМИ активно освещали эту тему, и через несколько недель казалось, что не осталось ни одного человека ни в моем профессиональном кругу, ни за его пределами, который не был бы в курсе этой истории с прогнозированием беременности. Даже комик Стивен Кольбер не смог пройти мимо, заявив, что Target вскоре научится на основе покупательских привычек вашего супруга или супруги прогнозировать, есть ли у них связь на стороне, и будет предлагать вам купон на электроплитку, которая потребуется вам в вашей новой холостяцкой квартире (шутки шутками, но прогнозирование разводов включено в таблицу 1 в приложении D, а также упоминается в примечаниях к этой книге).

Когда пыль уляжется, нам предстоит серьезная задача – разобраться в созданной СМИ мешанине раздутых страхов и обвинений и четко сформулировать реальные риски, которые влечет за собой ПА с точки зрения неприкосновенности частной жизни.

Невозможно посадить под замок того, кто умеет телепортироваться

Наступит время, когда информация о транзакциях станет более важной, чем сами транзакции.

Уолтер Ристон, бывший генеральный директор и председатель совета директоров Citicorp

Данные важны. И в этом причина наших тревог и волнений.

Персональные данные не равноценны реальному человеку – они гораздо лучше. Они не занимают места, их обслуживание почти ничего не стоит, они могут существовать вечно, и их гораздо проще воспроизводить и перемещать. Данные ценятся дороже, чем на вес золота, – и это действительно так, ведь данные ничего не весят, у них нет массы.

Разумеется, данные о человеке не могут сравниться по ценности с самим человеком, но из-за их дешевизны они являются выгодной инвестицией. Как замечает Алексис Мадригал, главный редактор журнала The Atlantic, данные о пользователе можно купить примерно за полцента, тогда как стоимость среднего пользователя для экосистемы интернет-рекламы оценивается в $1200 в год.

Ценность данных – содержащаяся в них информация, возможности их использования – и есть то, что делает их «чувствительными», т. е. требующими особого обращения. Чем ценнее данные, тем более они чувствительны. Поэтому напряженность, которую мы чувствуем, неизбежна. Если какие-то данные никого не интересуют, никто не будет их защищать, никто не будет пытаться получить к ним доступ – да и начать с того, что никто не будет стараться их сохранить. Как выразился Джон Элдер: «Когда что-то воспринимается как опасное, это свидетельствует о его силе. В слабом не видят угрозы».

Проблема защиты данных существует с момента изобретения письменности. Кто-то нацарапал что-то на клочке папируса, и с тех пор начался нескончаемый бой за введение и соблюдение правил доступа к данным.

Но сегодня ситуация кардинально изменилась: цифровые данные способны с мгновенной скоростью перемещаться на любые расстояния между людьми, организациями и странами. И делать это почти бесплатно. Сложите вместе все эти факторы, и вы получите чрезвычайно коварное и проворное существо, рой мух, который невероятно трудно контролировать. Это все равно что пытаться посадить в тюрьму Ночного Змея – персонажа фильма «Люди Икс», мутанта, обладающего способностью телепортации. Его перемещения не ограничены привычными нам тремя измерениями, поэтому его невозможно посадить под замок.

Из-за этой уникальной способности данных к телепортации мы придумали специальное слово для обозначения способа их транспортировки. Мы называем это телекоммуникацией.

Данные склонны распространяться как лесной пожар. Как сказал адвокат Дэвид Собел, специализирующийся на защите неприкосновенности частной жизни: «Когда информация существует, практически невозможно ограничить ее использование. Когда вокруг вас находятся все эти легкодоступные горы данных, рано или поздно кто-нибудь обязательно задаст вопрос: “Что еще можно с ними сделать?”»

Обращение этой новой, ценной валюты трудно контролировать. Чтобы провернуть сомнительную операцию с данными о потребителях, достаточно нажать одну кнопку – никакой физической транспортировки, никаких реальных товаров, никаких материальных улик.

Закон и порядок: политика, политики и контроль

Право на неприкосновенность частной жизни является наиболее универсальным из всех прав и тем, которым наиболее всего дорожат свободные люди.

Судья Верховного суда Луис Брандейс, 1928 год

Тем не менее мы должны сделать все возможное, чтобы приручить это дикое существо. Полная свобода – не вариант. Люди будут продолжать бороться за то, чтобы навести порядок с распространением медицинских фактов, финансовых тайн и компрометирующих фотографий. Страх настолько силен, что каждый четвертый пользователь Facebook указывает о себе ложную информацию из-за опасений, связанных с сохранением конфиденциальности.

Каждая организация должна ответить на следующие вопросы в отношении данных – кто, что, где, когда, как долго и зачем:

Хранение – что хранится и как долго.

Доступ – какие сотрудники, категории персонала или члены группы имеют доступ к конкретным элементам данных.

Распространение – какие данные могут быть предоставлены конкретным сторонам внутри организации и за ее пределами.

Объединение – какие элементы данных могут быть объединены, агрегированы или скомбинированы.

Реакция – какие действия можно предпринять на основе каждого элемента данных, определив ответную реакцию организации, аудиторию, которой дается ответ, и прочее поведение.

Чтобы еще больше усложнить дело, добавьте в каждый из этих пунктов уточнение «при каких обстоятельствах и для каких целей».

Здесь есть над чем поломать голову. Какие правила управления данными должны быть установлены на законодательном уровне, а какие – на уровне отраслевого саморегулирования или норм профессиональной этики? Какие связанные с данными действия организации могут осуществлять без информирования потребителя, а в каких случаях ему должно предоставляться право выбора? Как обеспечивать соблюдение этих правил? Какие стандарты безопасности – шифрование, защита паролей, брандмауэры и т. п. – позволят вам заслужить репутацию неприступной крепости в электронном королевстве?

Да уж, работы у нас по горло.

Война вокруг данных

Весь бесплатный Интернет – бесплатные платформы, сервисы и контент – полностью финансируется за счет целевой рекламы, эффективность (и, следовательно, доходность) которой зависит от сбора и анализа пользовательских данных.

Александр Фурнас, журналист The Atlantic

Ставки растут, страсти накаляются.

В одном углу ринга – ярые защитники неприкосновенности частной жизни. Не доверяя организациям, они стремятся в зародыше задушить любые возможные проблемы с данными: ограничить, удалить всё и в первую очередь запретить сбор.

В другом углу – охотники за данными, одержимые ими скопидомы и беспринципные манипуляторы. Эта колоритная группа включает бизнесменов, менеджеров, членов советов

Страница 20 из 20

директоров и, собственно говоря, специалистов по ПА.

Представители второй группы видят всю ценность и возможности данных, и это их вдохновляет – причем не только и не столько из своекорыстных или экономических соображений. Мы хотим строить дивный новый мир: повышать производительность и эффективность, сокращать ненужные почтовые рассылки и спасать деревья, улучшать здравоохранение, рекомендовать фильмы и музыку, которые доставляют вам удовольствие. И мы любим браться за сложные научные проблемы, которые позволят нам это сделать.

Несмотря на всю нашу любовь к данным, мы тоже иногда становимся их жертвами. Однажды я зашел в аптеку Walgreens. После того как заплатил за покупки, кассовый аппарат выдал мне красочный скидочный купон. На нем была крупно изображена упаковка предлагаемого мне препарата, которую могли прекрасно видеть стоящие рядом со мной покупатели. Мне хотелось умереть от стыда. Это было средство от метеоризма Beano. Дело в том, что у меня развилась легкая форма лактазной недостаточности, и я, тогда еще не зная об этом, искал способ избавиться от неприятных симптомов. Слепо действуя на основе этих данных, система рекомендаций Walgreens, видимо, не учитывала возможность того, что рядом с обслуживаемым ею покупателем могут стоять другие люди.

Другие медицинские данные носят гораздо более серьезный и чувствительный характер, нежели информация о пищеварительных проблемах. Однажды, преподавая на летних курсах для одаренных подростков, я получил информацию, которую, как считал, мне не следовало сообщать. Администратор отвел меня в сторону и предупредил, что один из учеников страдает биполярным расстройством. Я не разбираюсь в психиатрии и не хотел предвзято относиться к этому ученику, но в банке памяти мозга нет кнопки «Стереть информацию». В конце концов, этот подросток был одним из моих лучших учеников, и его психическое расстройство не проявлялось сколь-либо заметным для окружающих образом.

Сейчас мы наблюдаем растущее использование данных о местоположении, источником которых являются сотовые телефоны и автомобильные навигаторы. В результате у некоторых людей возникают серьезные проблемы с начальством, супругами и правоохранительными органами. Вот что написал по этому поводу Том Митчелл, профессор Университета Карнеги – Меллон и мировой авторитет в области исследований и разработки методов машинного обучения, в статье в журнале Science: «Потенциальные выгоды от сбора и использования таких данных [данных о местоположении, получаемых с помощью системы GPS] многочисленны: это и сокращение дорожных пробок и загрязнения воздуха, и ограничение распространения инфекционных заболеваний, и более рациональное использование государственных ресурсов, таких как парки, общественный транспорт и службы скорой помощи. Однако сбор этих данных несет с собой риски для неприкосновенности частной жизни таких масштабов, с которыми люди никогда еще прежде не сталкивались».

Конец ознакомительного фрагмента.

Текст предоставлен ООО «ЛитРес».

Прочитайте эту книгу целиком, купив полную легальную версию (http://www.litres.ru/erik-sigel/proschitat-buduschee-kto-kliknet-kupit-sovret-ili-umret/) на ЛитРес.

Безопасно оплатить книгу можно банковской картой Visa, MasterCard, Maestro, со счета мобильного телефона, с платежного терминала, в салоне МТС или Связной, через PayPal, WebMoney, Яндекс.Деньги, QIWI Кошелек, бонусными картами или другим удобным Вам способом.

notes

Сноски

Более подробно об этих примерах читайте в главе 3.

Больше примеров и дополнительных деталей вы найдете в таблицах в приложении D.

Полная тишина характерна для твердотельных электронных приборов, но компьютеры необязательно должны иметь такую конструкцию. Концепция универсальной машины, выполняющей инструкции, является абстрактной и не привязана к феномену электричества. Вполне возможно создать компьютер, который состоит из шестерней, колес и рычагов и приводится в движение паром или бензином. Конечно, я бы не советовал это делать, но вы можете попытаться. Такой компьютер будет очень медленным, громоздким и громким, так что никто не станет его покупать.

Silver N. The Signal and the Noise: Why So Many Predictions Fails – but Some Don’t. – NY: The Pinguin Press, 2012.

Рок-группа, в которой играет сестра автора Рэйчел.

Дэвенпорт Т., Харрис Дж. Аналитика как конкурентное преимущество: Новая наука побеждать. – М.: BestBusinessBooks, 2010.

Среднее, или среднеквадратическое, отклонение можно считать мерой неопределенности. В биржевом анализе используется для оценки волатильности. Мера риска для инвестиций: чем больше величина среднего отклонения, тем выше риск. – Прим. пер.

Дахигга Ч. Сила привычки: Почему мы живем и работаем именно так, а не иначе. – М.: Карьера Пресс, 2014.

Конец ознакомительного фрагмента.

Текст предоставлен ООО «ЛитРес».

Прочитайте эту книгу целиком, купив полную легальную версию на ЛитРес.

Здесь представлен ознакомительный фрагмент книги.

Для бесплатного чтения открыта только часть текста (ограничение правообладателя). Если книга вам понравилась, полный текст можно получить на сайте нашего партнера.

Купить и скачать книгу в rtf, mobi, fb2, epub, txt всего 14 форматов