Ручная работа: человек как компонент вычислительной системы

- Кирилл Тихонов, "Компьютерра" 10 марта 2009 года

За восемь лет роботизированный оптический телескоп в обсерватории Апач-Пойнт (США) сделал с помощью 120-мегапиксельной камеры миллионы снимков. Большинство из них не видел ни один человек. Автоматизировать съёмку оказалось гораздо легче, чем переработать выдаваемые телескопом потоки данных.

В конце февраля открылась новая версия проекта Galaxy Zoo, созданного для того, чтобы переложить эту титаническую задачу на плечи энтузиастов. Заняться определением космических объектов на снимках может любой посетитель сайта galaxyzoo.org. Результаты - более чем серьёзны. За несколько месяцев работы первой версии проекта были получены данные, опровергающие некоторые общепринятые представления о галактиках. Кроме того, любители отыскали необычный объект не совсем понятной пока природы (сейчас его изучают дополнительно).

Чтобы участвовать в деятельности Galaxy Zoo не нужно быть астрономом. Сайт задаёт наводящие вопросы о форме сфотографированных объектов, на которые может ответить и ребёнок. Но несмотря на кажущуюся простоту задачи, компьютеру она не под силу.

Простые операции, с которыми не справляется автоматика, всё чаще поручают любителям. Они исправляют ошибки OCR в Distributed Proofreaders, перерабатывают данные NASA в Stardust@Home и ищут ответы в Askville. Джефф Безос, основатель Amazon и создатель Mechanical Turk, в котором такая работа поставлена на широкую ногу, называет такой подход "искусственным искусственным интеллектом".

Роботы

По легенде, один из основоположников исследований в области искусственного интеллекта (как правило, в рассказах фигурирует Марвин Минский) был поначалу настолько уверен в тривиальности проблемы машинного зрения, что даже не стал заниматься ей сам. Он поручил одному из своих аспирантов решить её за лето. Сложным считались иное: доказательство теорем, решение силлогизмов или игра в шахматы.

Тест Тьюринга отражает подобные взгляды на простое и сложное. В 1950 году Алан Тьюринг предложил испытывать разумность машины с помощью беседы вслепую. Тест пройден, если за весь разговор она ничем не выдаст того, что не является человеком. В то время это была чистая теория. Практическая потребность в тесте, позволяющем отличить человека от компьютерной программы, появилась лишь полвека спустя.

Поведение пользователя в Интернете легко автоматизировать. В сущности, именно так устроены боты поисковых систем: они находят новые страницы для индексации, путешествуя по ссылкам подобно людям. Впрочем, куда чаще автоматизацию используют в менее благовидных целях: для спама, накруток и атак. Как отсеять зловредных ботов?

С игрой в шахматы и решением теорем удалось разобраться несколько десятилетий назад. Первые программы, способные поддерживать разговор, появились в шестидесятые годы. А вот с распознаванием образов дело застопорилось. Аспирант Минского (если он вообще существовал) вернулся, конечно, ни с чем, и до сих пор компьютеры различают изображения значительно хуже, чем люди.

Этим недостатком машин и решили воспользоваться разработчики Altavista. В 1997 году они запретили автоматическое добавление адресов для индексации (это был один из методов, которым тогдашние "оптимизаторы" влияли на позицию страниц в выдаче). Чтобы отсечь скрипты, форму усложнили: к ней добавили картинку с текстом, который нужно прочесть и ввести в проверочное поле. Человека она не затруднит, но поставит в тупик простые скрипты, которые осаждали страницу в то время.

Сейчас такие тесты обозначают неудобопроизносимым словом "каптча", но этот термин придумали лишь три года спустя, когда за дело взялась группа исследователей из университета Карнеги-Меллона. Они искали способ защиты чатов Yahoo от спамоботов, причём желательно универсальный и стойкий.

Тогда-то каптчи и приобрели нынешний трудночитаемый вид. Тест Altavista оказалось легко обойти с помощью OCR. С проверкой Yahoo автоматика уже не справлялась. Сильно искажённый и зашумлённый текст не всегда способны разобрать даже люди, что уж говорить о машинах.

Однако и усовершенствованную каптчу вскоре взломали, причём для этого не потребовалось совершать прорыв в области распознавания образов.

Каптчеломы

В начале двухтысячных одна из платёжных систем столкнулась с казалось бы непреодолимой технической проблемой. Уличные терминалы, которые она использовала, не требовали электронных платёжных карточек. Как установить личность пользователя? Точность алгоритмов распознавания лиц не настолько велика, чтобы доверять им деньги. К тому же без присмотра человека технику становится слишком просто обмануть.

В итоге был найден остроумный выход. Картинку, которую передаёт камера, встроенная в терминал, стал сличать с образцом не компьютер, а человек - сотрудник платёжной системы, сидящий в удалённом офисе компании и обслуживающий множество терминалов одновременно. Это гораздо проще, надёжнее и, что самое удивительное, дешевле, чем полная автоматизация.

Мысль, что человек может быть не только пользователем, но и заурядным компонентом вычислительной системы, кажется дикой, но она вовсе не нова. Знаменитый физик Ричард Фейнман вспоминал в мемуарах, как во время разработки атомной бомбы для сложных вычислений организовали конвейер, состоящий из людей-вычислителей. Каждый из них выполнял порученную операцию с помощью механического табулятора или мультипликатора и передавал результат следующему в цепочке.

В США программируемых компьютеров тогда ещё не было, но этот конвейер представлял собой именно программу. Почему бы не приспособить этот метод для решения задач, с которыми машины по-прежнему справляются не лучше, чем с автоматическими вычислениями во времена Манхэттенского проекта? Так и поступили злоумышленники для взлома каптч.

Первые слухи об этом появились лет пять назад. Утверждалось, будто спамеры создают порносайты, для доступа к которым посетителям приходится решать каптчи, заимствуемые с других сайтов - например, с веб-почты Yahoo или Hotmail. Как только каптча пройдена, спамерская программа немедленно использует полученную обманным путём информацию на исходном веб-сервисе и принимается спамить.

Подтверждений правдивости этой байки не существует (впрочем, и опровержений - тоже нет). Зато точно известно о существовании компаний, которые специализируются на решении каптч. Сервис не бесплатен, но цена невелика. "Каптчеломы" базируются в странах с дешёвой рабочей силой, главным образом - в Индии. За два часа один работник способен обработать полторы тысячи изображений, а заплатить ему придётся не более пяти долларов.

Возможно, это и подсказало одному из изобретателей каптчи новое направление для исследований. Теперь Луис фон Ан из университета Карнеги-Меллона считается одним из главных специалистов в области human computation - "человеческих вычислений".

Игроки

Ан любит рассказывать, сколько миллиардов человеко-часов люди расходуют на бессмысленные занятия вроде раскладывания пасьянсов. Даже малой доли этих усилий хватит, чтобы свернуть горы. Но как ими воспользоваться? Ресурсы простаивающих компьютеров научились утилизировать с помощью распределённых вычислительных сетей наподобие Folding@Home или SETI@Home. Теперь нужно придумать аналог SETI@Home для простаивающих мозгов.

Первый и самый известный проект Ана - это онлайновая игра ESP, игроки которой придумывают описания для показанных им картинок. В архивах фотоматериалов и банках изображений вроде Corbis эту роль исполняют профессионалы, составляющие и поддерживающие иерарархии ключевых слов, по которым при необходимости легко отыскать нужный документ. Участники ESP делают это быстрее и эффективнее.

Суть игры проста. За ограниченное время пара игроков должна пометить как можно больше картинок. К следующей картинке перейти нельзя, пока выдуманные игроками определения не совпадут, а общаться между собой им нельзя.

Несмотря на простоту, забава удивительно аддиктивна. Летом 2006 года, выступая в Google, Луис фон Ан сообщил, что завсегдатаи ESP проводят за игрой дольше 20 часов в неделю. Тестовая база картинок быстро обросла ключевыми словами, причём по накопленным данным легко различить важность характеристик. Те из них, на которых мнения игроков сходятся чаще всего, очевидно, обладают большей ценностью.

Хотя полученную информацию можно использовать, чтобы натаскивать системы автоматического распознавания образов, у неё есть и более практические применения. Ан утверждает, что пять тысяч игроков способны обработать всю базу поисковика по картинкам Google Images всего за пару месяцев. Google вскоре лицензировал у него технологию и открыл аналогичную игру под названием Google Image Labeler.

Трудность в том, что далеко не всякая задача распараллеливается с той же лёгкостью. Та же проблема ограничивает полезность распределённых вычислительных сетей. Дело в том, что каждый узел такой сети должен быть совершенно независим от прочих. Полагаться на результаты деятельности других нельзя, иначе любой узел сможет застопорить всю сеть.

Кроме того, если сбор данных ведётся с помощью игр, то для каждого вида данных необходимо сочинить новую игру. Между тем, общего шаблона и даже готовых принципов, следуя которым можно гарантированно получить привлекательную игру, до сих пор не существует. Луис фон Ан придумал несколько игр для сбора данных (см. врезку), но не все из них оказались столь же успешны, как первая.

Можно, разумеется, подойти к вопросу и с другой стороны. Забавы - это не единственное, что притягивает людей. Остаются ещё деньги (как в случае индийских взломщиков каптч) и интерес (этим пользуется Galaxy Zoo). "Человеческие вычисления" Ана вплотную граничат (а кое-где и пересекаются) с так называемым "краудсорсингом". Этим неологизмом, составленным из слов "аутсорсинг" и "crowd" ("толпа"), обозначают передачу неорганизованным добровольцам работы, которую прежде выполняли оплачиваемые специалисты.

Правда, "краудсорсингом" можно назвать и разработку программного обеспечения с открытыми исходниками, и участие в написании или редактировании "Википедии". Хотя и тем и другим занимаются, главным образом, добровольцы, сама их деятельность не так уж сильно отличается от того, что делают профессионалы. Проекты "человеческих вычислений" отводят работникам куда более скромную роль - не полноценного участника проекта, а винтика, выполняющего элементарную операцию. Разница ничуть не меньше, чем между трудом ремесленника и конвейерного рабочего.

Игры со смыслом

В 2008 году Луис фон Ан открыл сайт Games with a Purpose, на котором собраны все многопользовательские игры, которые были изобретены в процессе исследований.

Peekaboom Verbosity Squigl Tag a Tune
Один игрок выделяет фрагменты фотографии, а другой угадывает, какое слово тот загадал. Если собрать все фрагменты, связанные со словом, можно получить точный контур объекта. Играют два человека. Первый загадывает слово и сообщает факты о нём. Второй должен по этим подсказкам угадать, что тот задумал. Потом игроки меняются ролями. Компьютер даёт игрокам и картинку, и слово (которое, скорее всего, кто-то ввёл в одной из других игр). Задача состоит в том, чтобы как можно точнее обвести соответствующий заданному слову объект. Аудиовариация на тему ESP, в которой игроки описывают не изображения, а звуки. Игроки должны установить, совпадала ли услышанная запись.
Цель: обучение систем машинного зрения. Цель: сбор знаний для систем искусственного интеллекта. Цель: обучение систем машинного зрения. Цель: накопление метаинформации для аудиопоиска.

Туркеры

Статьи про сервис Mechanical Turk обычно начинаются либо с истории про викторианский шахматный автомат с живым игроком внутри, которая дала ему название, либо с рассказа о том, как репортёр влезает в шкуру работника "Турка" и собственоручно выполняет несколько заданий. Ни то, ни другое клише не годится: про автомат все уже слышали, а в работе на "Турке" нет никакой экзотики. Стать "туркером" (так называют себя его пользователи) не труднее, чем зарегистрироваться на любом веб-два-нольном сайте.

Когда крупнейший интернет-магазин Amazon открыл новый сервис в конце 2005 года, он всего лишь дал публике средства, которые были созданы для внутреннего использования. Изначально их разрабатывали, чтобы искать дублирующиеся описания продуктов на сайте amazon.com, но потом решили сделать более универсальными. В итоге сервис даёт всё, что необходимо для построения "конвейера", не исключая и готовых работников (нехватка людей - первейшая проблема многих краудорсинговых проектов).

Пользователи Mechanical Turk делятся на два вида: работодатели и работники. Первые размещают на сайте простые задания, предоставляют инструменты для их выполнения и указывают величину оплаты. Вторые - выбирают задания, делают их и зарабатывают. Amazon служит посредником и оставляет себе 10 центов с каждого проходящего через сайт доллара. Сходство с сайтами для поиска работы поверхностно. У "Турка" больше общего с баг-трекерами, которые используют программисты.

На любое задание с Mechanical Turk хватает минут, если не секунд. "Туркеры" подбирают картинки, сортируют информацию, сочиняют описания продуктов, заполняют таблицы, размечают фрагменты географических карт, расшифровывают аудиозаписи, отвечают на несложные вопросы и так далее, и тому подобное. Иногда чтобы исключить ошибки, работодатели создают дополнительные проверочные задания, но это уже тонкости.

Полтора года назад история "Турка" попала в газеты, когда с его помощью пытались найти на спутниковых картах самолёт пропавшего путешественника Стива Фоссета, но такие задания, скорее, исключение, чем правило (к тому же самолёт в тот раз так и не нашли). Зато нередко встречаются сомнительные поручения, по этичности сравнимые всё с тем же взломом каптч. Несколько недель назад на этом попался производитель гаджетов Belkin. Компания поручала работникам Mechanical Turk писать в Интернете многочисленные хвалебные отзывы о своей продукции.

За каждый обманный отзыв Belkin выплачивал жалкие 65 центов. Впрочем, по меркам "Турка" и это немало. Большинство заданий приносит считанные центы, и даже если трудиться от рассвета до заката, заработать в Mechanical Turk больше нескольких сотен американских долларов в месяц невозможно.

Низкая оплата труда создала сервису незаслуженную репутацию виртуальной потогонной фабрики, в которой жителей третьего мира нещадно эксплуатируют. Критики Mechanical Turk не учитывают, что для того, чтобы зарабатывать таким образом, нужен персональный компьютер и доступ в Интернет. Ни того, ни другого у бедняков, готовых работать за копейки, как правило, нет.

Кенийцы

Компания Txteagle, открывшаяся в начале 2009 года - это "Механический турк" для тех, у кого заведомо нет компьютера. На главной странице txteagle.com красуется фотография: довольный африканец в экзотическом наряде сжимает в руке дешёвую "нокию". Вряд ли работники фирмы действительно выглядят настолько фотогенично, но обстоятельства жизни и средства производства снимок передаёт достаточно точно.

Txteagle вербует жителей кенийских деревень, которые, вполне вероятно, никогда не имели дела с компьютерами и, скорее всего, лишены даже стабильного электроснабжения. Однако сотовые телефоны распространены и в Африке. Задания Txteagle и результаты работы пересылают короткими сообщениями, а оплата переводится на телефон посредством популярной в Африке мобильной платёжной системы M-Pesa.

Основатель Txteagle - не предприниматель, а учёный. До поездки в Кению Натан Игл работал в лаборатории медиа Массачусетского технологического института. О его самом известном проекте - так называемом reality mining или "добыче информации о реальности" - много писали в прессе года три назад. Он изучал, какие данные можно выудить из массива информации о передвижениях мобильных телефонов по городу.

В Африку Игла привело убеждение, что именно на этом материке определяется будущее мобильных телефонов и сервисов. "Это потрясающе, что кенийцы делают со своими телефонами, - писал он в 2006 году. - В городке Килифи, где я нахожусь, с помощью мобильника можно купить молоко, заплатить за такси и даже узнать, сколько стоят овощи у местных продавцов." С 2006 года Игл преподавал в кенийских и эфиопских университетах, а затем создал организацию EPROM, которая занимается поиском способов применения телефонов для образования, исследований и предпринимательства. Txteagle появилась как один из проектов EPROM.

Тестовым проектом была локализация программного обеспечения Nokia (финский производитель телефонов давно сотрудничает с Иглом). Работники получали по SMS словосочетания для перевода и отправляли результат обратно тем же способом. Для верности каждое словосочетание рассылалось не одному, а нескольким переводчикам. Заказчик получал самый популярный вариант перевода.

Хотя в Африке десятки языков и диалектов, вряд ли локализация способна обеспечить Txteagle безбедное существование. Nokia - исключение, большинство же западных компаний не настолько заинтересованы в африканских пользователях, которые не знают европейских языков. В Txteagle это понимают и делают ставку на иной рынок.

В США врачи ведут рабочие заметки с помощью диктофона, поэтому расшифровщик медицинских аудиозаписей - признанная и неплохо оплачиваемая профессий. Четыре года назад рынок медрасшифровки оценивался в 12 млрд. долларов. В Txteagle считают, что жители кенийских деревень прекрасно справятся с этим делом.

Записи для расшифровки в Txteagle делятся на короткие фрагменты, которые можно прослушать с помощью мобильного телефона. Содержание прослушанного фрагмента отправляется на сервер в виде всё тех же сообщений SMS. Даже с учётом необходимого для автоматической проверки дублирования работы результат обходится более чем вдвое дешевле стандартного тарифа.

Любители

На Mechanical Turk зарегистрировались более 100 тысяч работников со всего мира, рапортовал Amazon менее чем через два года после открытия сервиса. Правда, число пользователей, ежедневно выполняющих на сайте задания, на пару порядков ниже: скорее всего, оно не превышает тысячи. И подавляющее большинство из них - вовсе не бедные кенийцы.

Судя по данным Google Trends, подавляющее большинство посетителей mturk.com живёт в Соединённых Штатах. На втором месте - Индия, а доля прочих стран так мала, что её можно не принимать во внимание.

На первый взгляд эта статистика кажется нелепой и необъяснимой. Однако если побродить по форумам активных "туркеров" и пообщаться с работниками сервиса, ответ начинает проясняться. Похоже, для многих из них Mechanical Turk не столько источник заработка, сколько необычный способ убить время, хобби, которое по стечению обстоятельств ещё и деньги приносит.

Amazon пытался эксплуатировать такое отношение к работе, хотя и без особого успеха. Год назад компания запустила экспертную службу Askville, тесно связанную с "Механическим турком", но организованную по образу и подобию многопользовательских игр. Askville немного похож на Google Answers: посетители задают вопросы, на которые участники пытаются дать ответ. Каждый удачный ответ приносит эксперту очки "опыта", которые можно перевести в игровое золото, которую, в свою очередь, время от времени обменивают на купоны интернет-магазина.

Такие усилия вряд ли необходимы - людей привлекает вовсе не внешняя забавность, а что-то иное. Форма игры бывает полезна, чтобы привлечь внимание, но если подождать, находятся желающие покопаться даже в самых скучных данных - иначе проекты вроде Distributed Proofreaders или Stardust@Home никогда не сдвинулись бы с мёртвой точки.

Проекты Human computation

Distributed Proofreaders
Это один из старейших действующих проектов, которые можно отнести к категории human computation. Его участники с 2000 года вычитывают тексты, полученные с помощью автоматического распознавания старых книг, которые отсканировали для Project Gutenberg. Системы распознавания текстов неидеальны, и чтобы найти оставленные им ошибки и опечатки, требуется помощь добровольцев.
Clickworkers
Экспериментальный проект NASA по обработке снимков, полученных межпланетными станциями на орбите Марса. Добровольцам предъявляют фрагменты фотографий, чтобы они выделили на них кратеры и различные виды ландшафта. Любопытные объекты помечаются для дополнительной съёмки с помощью спутника Mars Global Surveyor.
ReCaptcha
Ещё один проект Луиса фон Ана использует каптчи для оцифровки сканов из Internet Archive и архива газеты New York Times, которые не удаётся расшифровать с помощью систем распознавания теста. Пользователю предъявляется два слова. Значение одного из них известно программе, а другое - не поддаётся автоматическому распознаванию. Чтобы преодолеть каптчу, человек должен ввести оба слова.
Galaxy Zoo
Астрономы-любители нередко стояли за открытиями новых комет или астероидов, хотя и не имели доступа к самым мощным телескопам. А если дать энтузиастам доступ к изображениям космических объектов, полученным с помощью наилучшего оборудования? Участники проекта Galaxy Zoo классифицируют космические объекты на снимках, сделанных автоматическим телескопом.