Обучение с частичным привлечением учителя

Обучение с частичным привлечением учителя или полуавтоматическое обучение или частичное обучение (англ. Semi-supervised learning) — способ машинного обучения, разновидность обучения с учителем, которое также использует неразмеченные данные для тренировки — обычно небольшое количество размеченных данных и большое количество неразмеченных данных.

Полуавтоматическое обучение занимает промежуточную позицию между обучением без учителя (без привлечения каких-либо размеченных данных для тренировки) и обучением с учителем (с привлечением лишь размеченных данных).

Многие исследователи машинного обучения обнаружили, что неразмеченные данные, при использовании в сочетании с небольшим количеством размеченных данных, могут значительно улучшить точность обучения.

Задание размеченных данных для задачи обучения часто требует квалифицированного человека (например, для транскрибирования аудио файла) или физического эксперимента (например, для определения 3D структуры белка или выявления наличия нефти в определенном регионе). Поэтому затраты на разметку данных могут сделать процесс обучения с использованием лишь размеченных данных невыполнимым, в то время как процесс задания неразмеченных данных не является очень затратным. В таких ситуациях, полуавтоматическое обучения может иметь большое практическое значение. Такое обучение также представляет интерес в сфере машинного обучения и как модель для человеческого обучения.

Задача обучения

Как и в рамках обучения с учителем, нам дается множество   независимых одинаково распределенных примеров   с соответствующими пометками  . Кроме того, нам дано   неразмеченных примеров  . Цель полуавтоматической обучения заключается в том, чтобы использовать эту комбинированную информацию для достижения лучших результатов производительности классификации, которую можно получить или путем отбрасывания неразмеченных данных и использование обучения с учителем, или путем отбрасывания меток и использование обучения без учителя.

Полуавтоматическое обучения может принадлежать к трансдуктивного обучения[en] или индуктивного обучения. Целью трансдуктивного обучения является выведение правильных меток только для неразмеченных данных  . Целью индукции является выведение правильного отображения из   в  .

Мы можем представлять задачу обучения как экзамен, а размеченные данные — как несколько примеров, которые учитель решил в классе. Учитель также предоставляет набор нерешенных задач. В постановке трансдуктивного обучения, эти нерешенные задачи является экзаменом, который забирают домой, и вы хотите хорошо его составить в целом. В постановке индуктивного обучения, эти практические задачи являются подобными тем, с которыми вы столкнетесь на экзамене в классе. Необязательно (и, согласно принципу Вапника[en], неблагоразумно) проводить трансдуктивне обучения путем логического вывода правила классификации для всех входных данных. Однако, на практике, алгоритмы, формально предназначенные для трансдукции или индукции, часто используются как взаимозаменяемые.

Предположения, которые используются в полуавтоматическом обучении

Для того, чтобы использовать неразмеченные данные, нужно присвоить некоторую структуру для основного распределения данных. Алгоритмы полуавтоматического обучения используют по крайней мере одно из таких предположений.[1]

Предположение плавности

Точки, которые лежат близко друг от друга, размечены одинаково с большей вероятностью. Такое же предположение в основном используется и в обучении с учителем и дает преимущество в использовании геометрически простых решений. В случае полуавтоматического обучения, предположение плавности дополнительно дает преимущество для разграничения в регионах с низкой плотностью, где меньше точек, которые расположены близко друг от друга, но разных классов.

Предположение кластеризованности

Данные, как правило, образуют дискретные кластеры, и точки из одного кластера размечены одинаково с большей вероятностью (хотя данные, которые используют одинаковые метки, могут быть расположены в нескольких различных кластерах). Это особый случай предположения плавности, который приводит к обучение признаков используя алгоритмы кластеризации.

Предположение избыточности данных

Это предположение применимо, когда измерения данных избыточны, то есть генерируются определенным процессом, имеющим только несколько степеней свободы. В этом случае неразмеченные данные позволяют изучить генерирующий процесс и за счёт этого снизить размерность.

Например, человеческий голос контролируется несколькими голосовыми связками,[2] а изображение различных выражений лица контролируются несколькими мышцами. В этих случаях удобнее использовать генерирующее пространство, чем пространство всех возможных акустических волн или изображений, соответственно.

История

Эвристический подход к самообучению является наиболее ранним.[1] Он начал применяться с 1960-х годов (см., например, Scudder 1965)[3]).

Основы трансдуктивного обучения были изложены Владимиром Вапником в 1970-х годах.[4] В 1970-е годы также появился интерес к индуктивному обучению с использованием генеративных моделей. Применение приближенного правильного обучения [en] для полуавтоматического обучения на основе модели гауссовой смеси было продемонстрировано Ратсаби и Венкатешем в 1995 году.[5]

Полуавтоматическое обучения в последнее время становится все более популярным и растет его актуальность в связи с целым рядом задач, для которых доступно огромное количество неразмеченных данных (например, текст веб страниц, последовательности белков или изображения. Обзор последних работ в этой области см. Чжу (2008).[6]

Подходы к полуавтоматическому обучению

Генеративные модели

Генеративные подходы к статистическому изучению в первую очередь стремятся оценить  , распределение точек данных для каждого класса. Вероятность   такая, что данная точка   имеет метку  , будет пропорциональной   по теореме Байеса. Полуавтоматическое обучения с использованием генеративных подходов можно рассматривать либо как расширение обучения с учителем (классификация и информация о  ), или как расширение обучения без учителя (кластеризация и некоторые метки).

Генеративные модели предполагают, что распределения принимают определенную форму   , параметризованную вектором   . Если эти предположения являются неправильными, то неразмеченные данные могут фактически снизить точность решения по сравнению с тем, которое было бы получено только с размеченных данных.[7] Однако, если эти предположения верны, то неразмеченные данные обязательно повысят результативность.[5]

Неразмеченные данные распределены согласно смеси индивидуально-классовых разделений. Для того, чтобы распределение смеси из неразмеченных данных подлежал изучению, эти данные должны быть узнаваемыми, то есть различные параметры должны приводить к различным итоговых распределений. Распредели гауссовой смеси являются узнаваемыми и обычно используются в генеративных моделях.

Параметризованный совместное распределение можно записать в виде   с помощью цепного правила. Каждый вектор   связан с функцией  . Затем параметр выбирается на основе подгонки как к размеченных там и до неразмеченных данных, уравновешенных с помощью  :

 

[6]

Разделение низкой плотности

Это ещё один важный класс методов, который пытается разграничить регионы, в которых есть несколько точек с данными (размеченными или неразмеченными). Одним из наиболее часто используемых алгоритмов является трансдуктивный метод опорных векторов, или ТМОВ (который, несмотря на название, может также быть использованным для индуктивного обучения). В то время как метод опорных векторов для обучения с учителем ищет решение краевой с максимальной маржой в размеченных данных, целью ТМОВ является обозначение неразмеченных данных таким образом, что решение краевой имеет максимальную маржу в сравнении со всеми данными. В дополнение к стандартной петле потери   для размеченных данных, функция потерь   вводится и для неразмеченных данных, обозначив  . ТМОВ потом выбирает   с гильбертова пространства воспроизводимого ядра   путем минимизации регуляризованого эмпирического риска[en]:

 

Точное решение является неразрешимым через неопуклий член  , поэтому исследования сосредоточены на поиске полезных приближений.[6]

Другие подходы, которые осуществляют распределение низкой плотности, включают в себя модели гауссова процесса, упорядочение информации, и минимизацию энтропии (из которых ТМОВ является частным случаем).

Методы на основе графов

Методы на основе графов для полуавтоматической обучения используют данные, представленные при помощи графа, с узлом для каждого размеченного или неразмеченного примера. Граф может быть построен с использованием знаний в предметной области или на основе сходства примеров. Два общих подхода включают соединение каждой точки данных с её   ближайшими соседями или с примерами на расстоянии в пределах  . Вес   ребра между  и   устанавливается равным  .

В рамках регуляризации многообразия[8][9] граф служит как представитель многовидності. Выражение добавляется к стандартной задаче регуляризации Тихонова для обеспечения гладкости решения относительно многовидності (в собственном пространстве задачи), а также окружающей входного пространства. Задачей минимизации становится:

 [6]

где   — это гильбертово пространство воспроизводимого ядра, а   — многовид данным. Параметры регуляризации   и   контролируют гладкость в близлежащих и внутренних пространствах соответственно. Граф используется для аппроксимации внутреннего регуляризующего члена. Определив матрицу Кирхгофа[en] , где и вектор, получаем:

 

Эвристические подходы

Некоторые из методов полуавтоматического обучения не приспособлены для использования одновременно как размеченных так и неразмеченных данных, но зато могут привлекать неразмеченные данные для обучения с учителем. Например, размеченные и неразмеченные примеры могут информировать о способе представления, метрику, или ядра данных на первом шаге без учителя. Тогда обучение с учителем обрабатывает только размеченные примеры.

Самообучение — метод-обертка полуавтоматического обучения.[10] Первоначально обучение с учителем обрабатывает только размеченные данные. Этот классификатор затем применяется к неразмеченным данным, чтобы сгенерировать больше размеченных примеров для обучения с учителем. В общем, можно быть уверенным, что только метки классификатора добавляются на каждом шагу.[11]

Совместное обучение является расширением самообучения, при котором несколько классификаторов прорабатывают разные (в идеале, непересекающиеся) множества признаков и генерируют размеченные примеры друг для друга.[12]

Полуавтоматическое обучение в человеческом восприятии

Человеческие ответы на формальные задачи полуавтоматического обучения принесли различные выводы относительно степени влияния неразмеченных данных (краткое изложение см.[13]). Много задач естественного обучения также можно рассматривать как примеры полуавтоматического обучения. Большинство принципов человеческого обучения предусматривает небольшое количество прямых инструкций (например, разметка объектов родителями в детстве) в совокупности с огромным количеством неразмеченных примеров (например, наблюдения за объектами не называя или не считая их, или по крайней мере не описывая их).

Младенцы чувствительны к структуре неразмеченных данных, таких как изображения собак и кошек, или мужских и женских лиц.[14] Недавние исследования обнаружили, что младенцы и дети учитывают не только доступные неразмеченные примеры, но и процесс отбора из них, в результате которого возникают размеченные примеры.[15][16]

См. также

Источники

  1. 1 2 Semi-supervised learning. — Cambridge, Mass. : MIT Press, 2006. — ISBN 978-0-262-03358-9.
  2. Stevens, K.N.(2000), Acoustic Phonetics, MIT Press, ISBN 0-262-69250-3, 978-0-262-69250-2
  3. Scudder, H.J. Probability of Error of Some Adaptive Pattern-Recognition Machines.
  4. Вапник, В. Н., Червоненкис, А. Я. Теория распознавания образов. — М.: Наука, 1974. — 416 с.
  5. 1 2 Ratsaby, J. and Venkatesh, S. Learning from a mixture of labeled and unlabeled examples with parametric side information.
  6. 1 2 3 4 Zhu, Xiaojin.
  7. Cozman, F. and Cohen, I. Risks of semi-supervised learning: how unlabeled data can degrade performance of generative classifiers.
  8. M. Belkin, P. Niyogi. Semi-supervised Learning on Riemannian Manifolds (неопр.) // Machine Learning. — 2004. — Т. 56, № Special Issue on Clustering. — С. 209—239. — DOI:10.1023/b:mach.0000033120.25363.1e.
  9. M. Belkin, P. Niyogi, V. Sindhwani.
  10. Triguero, Isaac. Self-labeled techniques for semi-supervised learning: taxonomy, software and empirical study (англ.) // Knowledge and Information Systems : journal. — 2013. — 26 November (vol. 42, no. 2). — P. 245—284. — ISSN 0219-1377. — DOI:10.1007/s10115-013-0706-y.
  11. Fazakis, Nikos. Self-Trained LMT for Semisupervised Learning (англ.) // Computational Intelligence and Neuroscience : journal. — 2015. — 29 December (vol. 2016). — P. 1—13. — DOI:10.1155/2016/3057481.
  12. Didaci, Luca. Analysis of Co-training Algorithm with Very Small Training Sets. — Springer Berlin Heidelberg. — P. 719–726. — ISBN 9783642341656.
  13. Introduction to semi-supervised learning.. — Morgan & Claypool, 2009. — ISBN 9781598295481.
  14. Younger B. A., Fearing D. D. Parsing Items into Separate Categories: Developmental Change in Infant Categorization (англ.) // Child Development : journal. — 1999. — Vol. 70. — P. 291—303. — DOI:10.1111/1467-8624.00022.
  15. Xu, F. and Tenenbaum, J. B. Sensitivity to sampling in Bayesian word learning. Developmental Science (англ.) // Developmental Science (англ.) : journal. — 2007. — Vol. 10. — P. 288—297. — DOI:10.1111/j.1467-7687.2007.00590.x.
  16. Gweon, H., Tenenbaum J.B., and Schulz L.E. Infants consider both the sample and the sampling process in inductive generalization (англ.) // Proceedings of the National Academy of Sciences of the United States of America : journal. — 2010. — Vol. 107, no. 20. — P. 9066—9071. — DOI:10.1073/pnas.1003095107.

Ссылки