Новое: alphago займется решением реальных мировых проблем

Опубликовано: 7.11.2018
игры кончились: alphago займется решением реальных мировых проблем

В прошлом месяце человечество проиграло важную битву с искусственным интеллектом — тогда AlphaGo обыграл чемпиона по го Ки Дже со счетом 3:0. AlphaGo — это программа с искусственным интеллектом, разработанная DeepMind, частью родительской компании Google Alphabet. В прошлом году она обыграла другого чемпиона, Ли Седоля, со счетом 4:1, но с тех пор существенно набрала по очкам.

«Если система ИИ доказывает, что способна обретать новое знание и стратегии в этих сферах, прорывы будут просто неописуемы. Не могу дождаться, чтобы увидеть, что будет дальше», говорит один из ученых проекта.

Го — это древняя игра на двоих, где один играет белыми фигурами, другой черными. Задача — захватить доминацию на доске, разделенной на 19 горизонтальных и 19 вертикальных линий. Компьютерам играть в го сложнее, чем в шахматы, потому что число возможных ходов в каждой позиции намного больше. Это делает просчет возможных ходов наперед — вполне возможный для компьютеров в шахматах — очень сложным в го.

До тех пор, пока условия можно будет точно смоделировать, эти алгоритмы будут учиться и набираться опыта быстрее и эффективнее, чем люди. Можно лишь повторить слова компании DeepMind: очень хочется посмотреть, что же будет дальше.

Эквивалент в ИИ называется глубоким обучением: глубокое, потому что включает множество слоев обработки в простых нейроноподобных вычислительных единицах.

За счет сочетания глубокого обучения и обучения с подкреплением в серии искусственных нейронных сетей, AlphaGo сперва научился играть на уровне профессионального игрока в го на основе 30 миллионов ходов из игр между людьми.

В будущем это грозит множеством захватывающих возможностей, но проблемы пока никуда не делись.

Прорывом DeepMind стала разработка общего алгоритма обучения, который, в принципе, можно направить в более социально ориентированном направлении, чем го. DeepMind говорит, что группа исследователей AlphaGo пытается решить сложные проблемы вроде поиска новых лечений для заболеваний, радикального снижения энергопотребления или разработки новых революционных материалов.

Теперь AlphaGo заканчивает играть в игры, предоставляя возможность игрокам, как и прежде, сражаться между собой. Искусственный интеллект приобрел статус «игрока из далекого будущего», до уровня которого людям придется расти очень долго.

Но затем он начал играть против себя, используя исход каждой игры, чтобы неумолимо оттачивать собственные решения о лучшем ходе в каждой позиции на доске. Система ценностей сети научилась прогнозировать вероятный результат с учетом любой позиции, а система благоразумия сети научилась принимать лучшее решение в каждой конкретной ситуации.

Существуют ли проблемы, к которым мы можем применить имеющиеся алгоритмы?

К сожалению, пока еще нет известного способа выяснить у сети, что это за ключевые идеи. Мы просто можем изучать игры и надеяться, что что-то извлечем из них. Это одна из проблем использования нейронных алгоритмов: они не объясняют свои решения.

Ки Дже описал AlphaGo как «бога игры в го».

Все это привело к математическим теориям обучения с подкреплением, которое теперь можно имплементировать в системы ИИ. Самой важной из них является так называемое TD-обучение, которое улучшает действия за счет максимизации ожидания будущей награды.

Кроме того, большая часть мощности AlphaGo основана на технике метода обратного распространения ошибки, которая помогает ей исправлять ошибки. Но связь между ней и обучением в реальном мозге пока неясна.

В итоге появляется иерархия представений, где сперва идут простые и локализованные детали, а затем более сложные и комплексные особенности.

AlphaGo сочетает две мощных идеи на тему обучения, которые получили развитие за последние несколько десятилетий: глубокое обучение и обучение с подкреплением. Что примечательно, оба направления вышли из биологической концепции работы и обучения мозга в процессе получения опыта.

Мы по-прежнему мало понимаем о том, как обучаются биологические мозги, а нейробиология продолжает предоставлять новые источники вдохновения для ИИ. Люди могут стать экспертами в игре го, руководствуясь гораздо меньшим опытом, чем нужен AlphaGo для достижения такого уровня, поэтому пространство для улучшения алгоритмов еще есть.

Хотя AlphaGo не мог опробовать все возможные позиции на доске, нейронные сети извлекли ключевые идеи о стратегиях, которые хорошо работают в любой позиции. Именно эти бесчисленные часы самостоятельной игры привели к улучшению AlphaGo за последний год.

Одним из примеров может быть оптимизация контролируемых промышленных условий. Здесь задача часто состоит в том, чтобы выполнить сложную серию заданий, удовлетворить множество критериев и минимизировать затраты.

Но чтобы выжить в этом мире, животным необходимо не только распознавать сенсорную информацию, но и действовать в соответствии с ней. Поколения ученых и психологов изучали, как животные учатся предпринимать действия, чтобы максимизировать извлекаемую выгоду и получаемую награду.

Игра го стала удобной платформой разработки для оптимизации этих алгоритмов обучения. Но многие проблемы реального мира куда беспорядочнее и имеют меньше возможностей для самообучения (например, самоуправляемые автомобили).

В мозге человека сенсорная информация обрабатывается в серии слоев. Например, визуальная информация сперва трансформируется в сетчатке, затем в среднем мозге, а затем проходит через различные области коры головного мозга.

Источник: http://busregion78.ru

Опубликовано в рубрике Новости Метки:

Оставить комментарий:

 

Для того чтобы оставлять комментарии, необходимо Зарегистрироваться