СЕМЕЙНЫЙ ТУРНИР ЦИФРОВАЯ ГРАМОТНОСТЬ ЦИФРА В «НОРНИКЕЛЕ» ПУЛЬС ТЕХНОЛОГИЙ
Пульс технологий
Хочешь знать о технологиях и цифровизации больше?
Устанавливай приложение «Цифроникель». Проходи обучение в игровой форме. Копи знания, получай баллы, участвуй в конкурсах и получай ценные призы.
ПРОЙТИ ОБУЧЕНИЕ

Как повысить эффективность моделей ИИ в реальном мире?

Новое исследование показывает, что уход от «предвзятости» в моделях машинного обучения возможен с помощью новой методики, которая позволит точно определять сходства и различия в наборах данных.

Хочешь знать о технологиях и цифровизации больше?
Устанавливай приложение «Цифроникель». Проходи обучение в игровой форме. Копи знания, получай баллы, участвуй в конкурсах и получай ценные призы.
ПРОЙТИ ОБУЧЕНИЕ

Несбалансированные данные, то есть такие обучающие наборы данных, в которых частота различных признаков отличается от частоты, с которой они встречаются в реальном мире, могут принести серьезный вред при создании моделей машинного обучения. Например, если модель машинного обучения тренировалась на несбалансированном наборе данных, допустим, содержащем гораздо больше изображений людей со светлой кожей, чем людей с темной кожей, существует серьезный риск того, что прогнозы модели окажутся неверными, когда она будет применена в реальном мире. Но это только часть проблемы. Специалисты по машинному обучению обнаружили, что модели, широко применяющиеся для задач по распознаванию образов, на самом деле интегрируют в себя ошибки при обучении на несбалансированных данных. Дисбаланс в таких моделях невозможно исправить в дальнейшем, даже при повторном обучении модели на сбалансированном наборе данных. Новое исследование от ученых Массачусетского технологического института (MIT) описывает способ повысить справедливость моделей ИИ с помощью новой методики, названной «Частичная декорреляция свойств» (Partial Attribute Decorrelation или PARADE). Эта методика позволяет напрямую встраивать справедливое распределение данных непосредственно в саму внутреннюю структуру модели. Это позволяет модели получать правильные результаты, даже если она обучена на несбалансированных данных, что особенно важно, поскольку существует очень мало сбалансированных наборов данных для машинного обучения.

Разработанное ими решение не только приводит к созданию моделей, которые делают более сбалансированные прогнозы, но и повышает их эффективность при решении конечных задач, таких как распознавание лиц и классификация видов животных.

«В сфере машинного обучения принято считать, что именно данные виноваты в неточности моделей. Но у нас не всегда есть сбалансированные данные. Поэтому нам нужно создавать методы, которые действительно именно эту проблему» , — утверждает ведущий автор исследования Натали Дуллеруд, аспирантка группы Healthy ML из Лаборатории компьютерных наук и искусственного интеллекта (CSAIL) Массачусетского технологического института.

Метод машинного обучения, который попытались улучшить исследователи, известен как глубокое метрическое обучение. Оно является общей формой создания представлений о явлениях или объектах в моделях ИИ. При глубоком метрическом обучении нейронная сеть изучает сходство между объектами путем расположения похожих фотографий близко друг к другу и непохожих фотографий далеко друг от друга. Во время обучения эта нейронная сеть отображает изображения в «пространстве вложений», где метрика сходства между фотографиями равна расстоянию между ними.

Например, если модель глубокого метрического обучения используется для классификации видов птиц, она будет располагать фотографии золотистых вьюрков в одной части пространства вложений, а кардиналов — в другой части этого пространства. Так происходит потому, что у двух видов птиц разные характеристики: форма и размер ключа, размах крыльев и т.д. После обучения модель может эффективно измерять сходство новых изображений, которые ей раньше не попадались. Она научится группировать изображения неизвестного вида птиц близко друг к другу, но дальше от кардиналов или золотистых вьюрков в пространстве вложений.

Метрики сходства, которые выучивает модель, очень надежны, поэтому глубокое метрическое обучение так часто используется для распознавания лиц. Однако авторы исследования задались вопросом, как определить, является ли метрика сходства сбалансированной и насколько хорошо она соответствует реальности.

Исследователи выделили два пути, через которые метрика сходства может приводить к несбалансированным результатам. Например, при распознавании лиц метрика будет несбалансированной, если она с большей вероятностью будет помещать людей с более темными лицами ближе друг к другу, даже если это разные люди, чем если бы это были люди со светлыми лицами. Второй показатель несбалансированности — количество характеристик, которые выделяет модель для определения сходства, будет больше для группы большинства, чем для группы меньшинства.

Исследователи провели ряд экспериментов с моделями с несбалансированными метриками сходства и не смогли преодолеть недостатки, которые оказались закреплены в пространстве вложений модели.

«Это пугает, — уверена Дуллеруд: компании продают эти модели вложений, а затем уже другие люди настраивают их для какой-либо последующей задачи классификации. Но что бы вы ни делали в дальнейшем, вы просто не можете исправить проблемы несбалансированных данных, которые были закреплены в пространстве вложений.»

Даже если пользователь переобучит модель на сбалансированном наборе данных для конечной задачи, все равно эффективность модели останется сниженной на 20% или даже больше, оценили исследователи.

Единственный способ решить эту проблему — обеспечить баланс в пространстве вложений с самого начала.

Исследователи предлагают сначала проводить обучение модели только для свойств, которые встречаются в наборе данных не с той же частотой, что и в реальном мире. И создавать отдельные метрики сходства для таких свойств, например, для цвета кожи. А затем нужно провести декорреляцию метрики сходства цвета кожи от общей метрики сходства, то есть исключить влияние этого свойства на основную модель. В таком случае, если модель, например, строит метрики сходства для различных человеческих лиц, то она научится располагать похожие лица близко друг к другу и непохожие лица далеко друг от друга в пространстве вложения, используя признаки, отличные от цвета кожи.

Таким образом можно отделить любое количество несбалансированных свойств от целевой метрики сходства. А поскольку метрика сходства для несбалансированной характеристики находится в отдельном пространстве вложений, то после обучения от неё можно избавиться, и тогда в конечной модели останется только целевая метрика сходства, на которую никак не влияют проблемные характеристики.

Предложенный метод можно применять во многих ситуациях, поскольку создатели модели могут указывать, какие свойства являются ключевыми для метрики свойства, а от каких можно безболезненно избавиться. Например, если модель будет диагностировать рак груди по изображениям маммограмм, то врач, скорее всего, захочет, чтобы в конечном пространстве вложений осталась информация о биологическом поле, поскольку вероятность того, что рак груди будет у женщин, гораздо выше, чем у мужчин, объясняет Дуллеруд.

Хочешь знать о технологиях и цифровизации больше?
Устанавливай приложение «Цифроникель». Проходи обучение в игровой форме. Копи знания, получай баллы, участвуй в конкурсах и получай ценные призы.
ПРОЙТИ ОБУЧЕНИЕ
Google Play
App Store
Читайте также
СЕМЕЙНЫЙ ТУРНИР ЦИФРОВАЯ ГРАМОТНОСТЬ ЦИФРА В «НОРНИКЕЛЕ» ПУЛЬС ТЕХНОЛОГИЙ