MIT удалил коллекцию Tiny Images из-за выявления расистских и женоненавистнических терминов

Массачусетский технологический институт удалил набор данных Tiny Images, включающий аннотированную коллекцию из 80 миллионов небольших изображений с разрешением 32×32. Набор поддерживался группой, развивающей технологии компьютерного зрения, и использовался c 2008 года различными исследователями для тренировки и проверки распознавания объектов в системах машинного обучения.

Причиной удаления стало выявление использования расистских и женоненавистнических терминов в метках, характеризующих изображённые на картинках объекты, а также образов, которые воспринимались как оскорбительные. Например, присутствовали изображения половых органов с жаргонными терминами, изображения некоторых женщин характеризовались как «шлюхи», применялись недопустимые в современном обществе термины для чернокожих и азиатов.

Причиной появления недопустимых слов было использование автоматизированного процесса, использующего при классификации семантические связи из лексической базы данных английского языка WordNet, созданной в 1980-годы в Принстонском университете. Так как вручную проверить наличие оскорбительной лексики в 80 млн мелких картинок не представляется возможным, было принято решение полностью закрыть доступ к БД. MIT также призвал других исследователей прекратить использование данной коллекции и удалить её копии. Аналогичные проблемы наблюдаются и в крупнейшей аннотированной базе изображений ImageNet, в которой также используются привязки из WordNet.

Источник: http://www.opennet.ru/opennews/art.shtml?num=53277