Разработанная сеть Колмогорова-Арнольда (KAN) превосходит сегодняшние нейронные сети с применением многослойного перцептрона (MLP) в точности и интерпретируемости благодаря тому, что ученые заменили фиксированные весовые коэффициенты самих нейронов на обучаемые функции активации на ребрах.
Сегодня в статье будут непонятные слова. Постарался снизить их до минимума.
Андрей Николаевич Колмогоров – великий советский ученый, родился 25 апреля 1903 г. в Тамбове. Андрей Николаевич – один из крупнейших мировых математиков, один из основоположников современной теории вероятностей, им получены основополагающие результаты в топологии, геометрии, математической логике, классической механике, теории турбулентности, теории сложности алгоритмов, теории информации, теории функций, теории тригонометрических рядов. В 1994 г. Российская академия наук утвердила премию имени самого А. Н. Колмогорова, вручаемую «за выдающиеся результаты в области математики».
Андрей Николаевич Колмогоров
Владимир Игоревич Арнольд – один из самых известных математиков в мире, родился 12 июня 1937 г. в Одессе. Ученик Андрея Николаевича Колмогорова. Уже в 28 лет он стал доктором наук, с 1984 г. – член-корреспондент Отделения математики АН СССР, с 1990 г. – академик. Много лет Владимир Игоревич являлся научным сотрудником Математического института им. В. А. Стеклова.
Владимир Игоревич Арнольд
Наибольшую известность ученые получили в качестве соавторов теоремы Колмогорова-Арнольда-Мозера. Теорема решает в более общем виде тринадцатую проблему Давида Гильберта (David Gilbert), которая была мотивирована в 1900 г.
Вернемся к теме KAN сетей. Исследователи Массачусетского технологического университета опубликовали статью, в которой отметили, что, вдохновившись теоремой о представлении Колмогорова-Арнольда, создали новую нейронную сеть Колмогорова-Арнольда (KAN) в качестве перспективной альтернативы многослойным перцептронам (MLP).
Многослойные перцептроны (MLP), также известные как полностью подключенные нейронные сети прямого действия, являются основополагающими строительными блоками современных моделей глубокого обучения. Несмотря на широкое использование MLP, они имеют существенные недостатки.
Небольшие KAN сети могут достигать такой же или даже более высокой точности, чем гораздо более крупные MLP, при обработке данных и решении дифференциальных уравнений. Кроме того, как теоретически, так и эмпирически KAN сети проявляют более эффективные принципы масштабирования нейронов по сравнению с MLP.
Заявляется, что KAN сети имеют «собственную память» и способны обрабатывать новую входную информацию без катастрофического забывания, что помогает поддерживать модель в актуальном состоянии, не полагаясь на какую-либо базу данных или переобучение.
В настоящее время самым большим недостатком KAN является медленное обучение. Эти сети работают в 10 раз медленнее, чем MLP, при том же количестве параметров. Однако специалисты отмечают, что не прилагали усилий для оптимизации эффективности KAN, поэтому считают медленное обучение технической проблемой, которую необходимо решить в будущем.
Мы в своей команде так же оценили перспективность предложенного подхода при создании «цифровых» моделей сложных технических объектов. Такие задачи мы обсуждаем с некоторыми крупными предприятиями и Академией наук Республики Татарстан. Новые сети должны решить часть проблем, например проблему переобучения, при которой происходит «наложение новых знаний», при непрерывном обучении, поверх «исходных знаний» с их деформацией. Простыми словами с течением времени часть входной информации, правил попросту забывается. Практика покажет. Будем держать вас в курсе!