99% команд исследователей в области компьютерного зрения приходилось отменять как минимум один проект из-за нехватки исходных данных для обучения моделей. И 100% из 300 опрошенных групп сталкивались с существенными задержками в осуществлении своих планов из-за нехватки данных.
По данным опроса компании Datagen, самыми распространенными проблемами в наборах обучающих данных были: некачественная разметка и аннотация, недостаточная широта представленных объектов и малый объем. Дополнительным источником проблем является отсутствие общепринятых стандартов в области компьютерного зрения. Респонденты сообщили, что используют все доступные им источники изображений и методы их сбора, поэтому получающиеся в итоге наборы оказываются очень неоднородными. А это сильно затрудняет их обработку компьютерными методами.
Всё больше исследователей начинают использовать синтетические данные, чтобы компенсировать нехватку реальных данных. 97% респондентов уже прибегли к такому подходу, чтобы быстрее обучать свои модели. Однако качество и объем используемых синтетических данных очень сильно колеблется от проекта к проекту. И только 6% исследователей пользуются исключительно этим методом, чтобы увеличить объем обучающих данных. Исследователи Datagen полагают, что в 2022 году ситуация изменится: алгоритмы создания синтетических изображений станут зрелой технологией, которая поможет решить накопившиеся в этой области проблемы.
Сложности в поиске исходных данных для машинного обучения касаются не только сферы компьютерного зрения. Эта проблема распространена и в других областях обработки данных.
Исследователи из Калифорнийского университета в Лос-Анджелесе и компании Google изучили эту проблему в недавно опубликованном исследовании под названием «Сокращение, повторное использование и переработка: жизнь набора данных при машинном обучении». Они обнаружили, что этой сфере идёт интенсивное заимствование баз данных при проведении исследований. Например, группа исследователей, работающих над одной задачей, может заимствовать набор данных, созданный для решения другой задачи. А это вызывает опасения в адекватности полученных конечных результатов. Авторы работы также выявили, что лишь десяток университетов и корпораций отвечают за создание наборов данных, используемых в 50% работ в сфере машинного обучения. По сути эти корпорации и крупные университеты задают направление развития всей области машинного обучения. Они же случайно или преднамеренно искажают выборку изображений, которые попадают в набор. К примеру, два самых популярных набора данных изображений — ImageNet и Open Images — которые создали Стэнфордский университет и Google, соответственно, имеют в своем составе изображения, преимущественно, из США и стран Европы. В результате чего компьютерные модели, созданные на их основе, плохо классифицируют изображения, полученные в странах Африки и Азии. Свою роль могут играть даже различия в движении солнца в северном и южном полушариях, а также отличия в самых распространенных фонах. Все эти нюансы сказываются на точности моделей. Еще одним фактором являются погодные условия — система беспилотного вождения, обученная исключительно на наборе данных, полученных в условиях солнечных субтропиков Калифорнии, будет работать плохо, если столкнется с обильным снегом.
Эксперты связывают многие ошибки в системах распознавания лиц, текстов и речи с недостатками наборов данных, используемых для обучения моделей. Например, исследование ученых из Университета Мэриленда показало, что сервисы распознавания лиц от Amazon, Microsoft и Google чаще всего не справляются с определением лиц пожилых, темнокожих людей, так как они меньше других групп представлены в обучающей выборке. Исследователи проекта Algorithmic Justice League's Voice Erasure подсчитали, что системы распознавания речи от Apple, Amazon, Google, IBM и Microsoft в совокупности неправильно распознают 35% речи черных против 19% в речи белых. А языковые модели впитывают в себя предрассудки по расовым, этническим, религиозным и гендерным признакам, например, ассоциируя речь чернокожих людей с более негативными эмоциями.
Однобокость наборов обучающих данных — не единственная проблема. Другой важный аспект — правильность описания тренировочных наборов. Метки или аннотации, на основе которых многие модели изучают взаимосвязи в данных, также могут таить в себе проблемы. Люди вручную проставляют примеры в эталонных наборах данных, добавляя метки типа «собака» к фотографиям собак или описывая характеристики изображенного ландшафта.
Аннотаторы, будучи людьми, также допускают ошибки. В ходе проведенного Массачусетским технологическим институтом анализа популярных эталонных наборов данных, включая ImageNet, исследователи обнаружили сотни ошибок. В некоторых случаях одна порода собак была перепутана с другой, в других — была неправильно определен посыл текста: отзывы о товарах Amazon были названы негативными, хотя на самом деле они были положительными. В некоторых расшифровках аудио к роликам на YouTube тоже встречались ляпы: например, высокая нота Арианы Гранде была классифицирована как свист.
Одной из причин, по которой создание качественного набора обучающих данных обходится так дорого, является наличие специальных знаний, необходимых для качественного аннотирования. Как отметили исследователи из компании Synced, большинство аннотаторов, которые соглашаются работать на низкую плату, могут правильно описать только простые данные и не могут работать с изображениями или текстами, корректное описание которых требует специальных знаний. Например, люди, которых набирают с помощью таких систем как «Механический турок», не справляются с такими задачами как классификация юридических договоров, сортировка медицинских изображений или описание тем научных публикаций. Также исследователи показали, что водители склонны аннотировать наборы данных для систем автономного вождения более эффективно, чем те, кто не имеет водительских прав, а врачи, патологоанатомы и радиологи гораздо точнее маркируют медицинские снимки.