Новая нейронная сеть может ускорить классификацию галактик.

Фото: CC0

Кибернетика
Шрифты

Классификацию галактик в настоящее время необходимо проводить вручную, что требует много времени от астрономов и гражданских ученых. Но группа австралийских астрофизиков разработала алгоритм машинного обучения, который должен значительно ускорить этот процесс.

«Галактики бывают разных форм и размеров», - говорит Митчелл Кавана, кандидат наук в отделении Международного центра радиоастрономических исследований (ICRAR) Университета Западной Австралии и ведущий автор статьи с описанием исследования, опубликованной в Monthly Notices of the Royal Astronomical Society.

«Классификация форм галактик - важный шаг в понимании их образования и эволюции, и она может даже пролить свет на природу самой Вселенной».

Различные формы галактик слева направо: эллиптические, линзовидные, спиральные и неправильные/иррегулярные галактики. Фото: NASA/Hubble (elliptical galaxy M87), ESA/Hubble & NASA (lenticular galaxy NGC 6861 and the colliding Antennae galaxies), and David Dayag (the Andromeda spiral galaxy).

По мере совершенствования телескопов объем данных о новых галактиках становится слишком большим, чтобы астрономы могли с ними справиться.

«Мы говорим о нескольких миллионах галактик в ближайшие несколько лет. Иногда привлекаются гражданские ученые для помощи в классификации форм галактик в таких проектах, как Galaxy Zoo, но это все равно требует времени», - говорит Кавана.

Кавана и его коллеги решили эту проблему, разработав программу, основанную на сверточной нейронной сети или CNN(англ.convolutional neural network. Эти нейронные сети особенно полезны для обработки визуальных данных из-за того, как они чередуют слои информацию.

Сила CNN заключается в их способности извлекать особенности из изображений. В компьютерной программе сверточные слои могут очерчивать, отслеживать и обнаруживать наличие спиральных рукавов или других особенностей. Фото: Mitchell Cavanagh/ICRAR.

«Каждый сверточный слой применяет к изображению различные фильтры для создания карт функций», - говорит Кавана. «Подумайте об Adobe Photoshop, где вы, возможно, захотите сделать края более резкими или применить плавное размытие».

«Что делает CNN настолько универсальными, так это то, что фильтры, используемые для извлечения этих характеристик, вообще не запрограммированы жестко; фактически, они начинаются совершенно случайно!»

CNN ранее использовались астрономами для классификации галактик, но только в бинарных случаях - например, является ли галактика спиральной галактикой или нет. Эта нейронная сеть будет использовать мультиклассовую классификацию, что сделает ее более точной, чем существующие сети.

«Огромное преимущество нейронных сетей - скорость», - говорит Кавана. «Используя стандартную видеокарту, мы можем классифицировать 14 000 галактик менее чем за три секунды».

Сеть была обучена на данных о галактиках, созданных людьми. Это означает, что она не обязательно будет более точной, чем у людей (ее общая точность составляет 80%), но она будет намного быстрее.

«Эта неотъемлемая неопределенность является ограничивающим фактором в любой модели искусственного интеллекта, обученной на помеченных данных».

Кавана добавляет, что еще одним ограничивающим фактором точности сети является то, что некоторые галактики не вписываются в эти категории. «Существует много различных типов (и подтипов!) Галактик, о чем свидетельствует «камертон Хаббла». Даже если бы мы сгруппировали их в общие категории, такие как «эллиптические», «линзовидные» или «спиральные», почти всегда будет некоторое совпадение и некоторые разногласия».

«Самый большой барьер для CNN - это точная классификация неправильных/иррегулярных галактик. Как следует из названия, эта категория обязательно широкая и охватывает все, от сгустков необычной формы до галактик, подвергающихся массивным приливным разрушениям. Поэтому неудивительно, что CNN неверно классифицирует многие иррегулярные галактики».

Он обращает внимание на то, что данные, на которых сеть обучена, недооценивают эти неправильные галактики, что также может повлиять на точность сети.

Человеческому глазу может быть сложно отличить линзовидные галактики от других типов, но сверточные слои ищут особенности, которые мы не видим. Кроме того, CNN никогда не утомляется, и если изображение перевернуть или повернуть, это не приведет к ошибке CNN. Фото: Mitchell Cavanagh/ICRAR.

Хотя нейронная сеть может ускорить процесс, она полагается на данные из проектов гражданской науки в области астрономии.

«Инициативы в области гражданской науки чрезвычайно полезны для астрономов, как показал успех Galaxy Zoo и его продолжения Galaxy Zoo 2. Гражданский научный проект AstroQuest, возглавляемый ICRAR, также направлен на помощь в изучении многих десятков тысяч галактик», - говорит Кавана.

«Еще одним преимуществом гражданской науки, о котором часто забывают, это доступность статистических данных для больших популяций населения. Тогда легко увидеть, какие галактики участникам было легко классифицировать (почти единогласный выбор), а какие труднее классифицировать (широкий разброс выбора). Затем можно выбрать галактики, которые сложнее классифицировать, для более целенаправленного анализа. Весьма вероятно, что такие инициативы будут продолжаться по мере того, как онлайн в Интернете будут проводиться все больше крупномасштабных исследовательских обзоров».

CNN можно было бы использовать в других областях, если бы у них были достаточно большие наборы данных для обучения.

«CNN должны применяться не только к оптическим изображениям галактик, они могут так же легко работать с радиоизображениями, что будет полезно с неизбежным появлением SKA (сокр. от англ. Square Kilometre Array — «[антенная] решётка [площадью] в квадратный километр») - международного проекта по созданию крупнейшего в мире радиоинтерферометра», - говорит Кавана.

«CNN будут играть все более важную роль в будущем обработки данных, особенно в связи с тем, что такие области, как астрономия, сталкиваются с проблемами больших данных».

Источник: Cosmos