Фото: Pixabay/CC0 Public Domain

Шрифты

Существует огромное количество исследований, и их объем быстро растет с каждым днем. Но есть проблема. За платным доступом скрывается не только большая часть существующей литературы, но это также может быть трудным для всестороннего и логического анализа. Что действительно нужно, так это супер-умная версия Google только для научных статей.

Войдите в General Index, новую базу данных, содержащую около 107,2 миллионов журнальных статей, в общей сложности 38 терабайт данных в несжатом виде. Он охватывает более 355 миллиардов строк текста, каждая из которых содержит ключевое слово или фразу, взятые из опубликованной статьи.

«Это поисковый инструмент, словарь знаний, карта знаний», - говорит создатель Index, архивариус Карл Маламуд. «Инструмент, который, как мы считаем, является важным средством для практики научной деятельности в нашу современную эпоху».

Хотя мы уже упоминали Google, это не совсем поисковая система - ученым, использующим General Index, придется кодировать свои собственные поисковые системы для работы с ним. Скорее, это тщательно систематизированный и структурированный каталог, который можно использовать для изучения результатов научных исследований за десятилетия.

Его основная цель - помочь с интеллектуальным анализом текста: использование компьютеров для быстрого сканирования миллионов точек данных для поиска и перекрестных ссылок на что-то конкретное. Люди не могут прочитать и выделить ключевые данные из миллионов журнальных статей, но компьютерная программа, подключенная к General Index, может.

Реакция других ученых была положительной. Один эксперт, компьютерный биолог Гитанджали Ядав из Кембриджского университета в Великобритании, говорит, что новая база данных в некоторой степени решает проблему ограниченного доступа к ранее опубликованным материалам.

«У меня - или у кого-либо еще - нет возможности экспериментально проанализировать или измерить химический отпечаток каждого вида растений на Земле», - сказал Ядав изданию Nature. «Большая часть информации, которую мы ищем, уже существует в опубликованной литературе».

Идея состоит в том, что General Index можно использовать для поиска растений, химикатов, генов, белков, материалов, географических названий и многого другого - хотя команда, стоящая за ним, стремится подчеркнуть, что он все еще нуждается в некоторой чистке и расширении, и работа над ним в значительной степени продолжается (как, вероятно, всегда будет).

Вся эта информация доступна для загрузки и бесплатного использования с портала General Index без применения авторских прав и ограничений - Index - это просто отрывки статей, а не сами статьи. Однако, как мы уже упоминали, вам понадобятся некоторые навыки программирования, чтобы действительно разобраться в этом.

В отличие от вызывающего споры портала Sci-Hub, Index не содержит статей целиком, хотя были подняты вопросы относительно законности проекта. По мнению Маламуда, проект вполне укладывается в рамки закона.

«Я очень уверен, что то, что я делаю, является законным», - сказал Маламуд изданию Nature. «Мы делаем это не для того, чтобы спровоцировать судебный процесс, мы делаем это для развития науки».

Источники: Science Alert