GenBank — Википедия

GenBank
Содержимое
Описание Нуклеотидные последовательности для более чем 300000 организмов с поддерживающими библиографическими и биологическими аннотациями.
Тип данных
  • Нуклеотидные последовательности
  • Белковые последовательности
Организмы все
Контакты
Исследовательский центр Национальный центр биотехнологической информации США (NCBI)
Оригинальная публикация 21071399
Дата выпуска 1982; 42 года назад (1982)
Доступность
Формат данных
Сайт NCBI
URL для загрузки ncbi ftp
Веб-сервис
Инструменты
Веб BLAST
Автономная версия BLAST
Прочее
Лицензия Unclear[1]

GenBank — база данных, находящаяся в открытом доступе, содержащая все аннотированные последовательности ДНК и РНК, а также последовательности закодированных в них белков. GenBank поддерживается Национальным центром биотехнологической информации США (NCBI), входящего в состав Национальных Институтов Здоровья в США, и доступен на бесплатной основе исследователям всего мира. GenBank получает и объединяет данные, полученные в разных лабораториях, для более чем 100 000 различных организмов.

GenBank — архивная база данных, то есть ответственность за содержимое каждой записи несут создатели этой записи, которыми, как правило, являются экспериментаторы, определившие данную последовательность. GenBank вместе с банками EMBL и DDBJ входит в консорциум INSDC (http://insdc.org/), осуществляющий регулярный обмен данными между этими тремя архивами аннотированных нуклеотидных последовательностей.

Релиз GenBank происходит каждые два месяца и доступен с сайта по протоколу FTP. Заметки о выпуске для текущей версии GenBank предоставляют подробную информацию о выпуске и уведомлениях о предстоящих изменениях в GenBank. Также доступны примечания к выпуску предыдущих версий GenBank.

История создания

[править | править код]

В марте 1979 года в Университете Рокфеллера в Нью-Йорке состоялась встреча тридцати молекулярных биологов и специалистов по компьютерным наукам. На ней была согласована позиция о необходимости создания общенациональной компьютеризованной базы данных. Это было обусловлено стремительными темпами роста количества известных последовательностей ДНК, а также перспективами получения новых биологических знаний путём их анализа и сравнения. До того времени существовало несколько отдельных коллекций последовательностей, но ни одна из них не была полной[2].Три года понадобилось Национальному Институту Здоровья (NIH), чтобы разработать схему финансирования проекта. За это время EMBL сделала общедоступной свою собственную базу данных последовательностей. Такая досадная для NIH задержка явилась следствием не только медленной работы бюрократической системы, но и неопределённостью среди учёных в отношении роли биологических коллекций во времена преобладания экспериментальных методов познания живого. Под давлением нескольких учёных-экспериментаторов NIH всё же начал поиск исполнителей проекта. В конкурсе на создание базы данных участвовали две группы: команда из Национального Фонда Биомедицинских Исследований (NBRF), возглавляемая Маргарет Дайхофф, и группа исследователей под руководством Уолтера Гоада из Лос-Аламосской национальной лаборатории (LANL) в сотрудничестве с частной компанией «Bolt, Beranek and Newman[англ.]»[2].

Дайхофф создала одну из первых баз данных биологических последовательностей, собирая аминокислотные последовательности белков с 1960-х годов. В серии томов «Атласа белковых последовательностей и структур» опубликованных начиная с 1965 года, Дайхофф была представлена самая крупная в мире коллекция последовательностей белков и нуклеиновых кислот, новейших методов их анализа и вытекающих из них эволюционных соображений[3].Данный атлас стал чрезвычайно популярен как инструмент в работах молекулярных и эволюционных биологов. Дайхофф рассчитывала, что исследователи будут делиться с ней новыми последовательности напрямую, до того, как они будут опубликованы. Однако данная инициатива не нашла должного отклика среди экспериментальных биологов, так как при занесении в Атлас не устанавливались ни авторство, ни приоритет открытия. Дайхофф и её команда были вынуждены продолжить заниматься ручным анализом публикуемой литературы[2].

Другой претендент на заключение контракта с NIH – группа из Лос-Аламоса, где со времён Манхэттенского проекта велись ограниченные биомедицинские исследования. Узнав о решении, принятом в Университете Рокфеллера, Уолтер Гоад был убеждён, что Лос-Аламос является «естественным местом для центра по анализу последовательностей ДНК», главным образом, из-за «уникальных компьютерных мощностей», которыми обладала располагающаяся там национальная лаборатория[4]. Гоад также начал собирать последовательности нуклеиновых кислот, в основном, из других коллекций, принадлежащих Ричарду Грантому во Франции, Курту Стёберу в Германии, Дугласу Брутлагу и Элвину Кабату в США[2].

Выпуски с последовательностями в первые годы существования GenBank в бумажной форме.

Предложения NBRF (Дайхофф) и LANL-BBN (Гоад) по созданию централизованной базы данных были очень похожи, однако они содержали ключевые различия, касающиеся собственности, конфиденциальности и научного приоритета. NBRF предложила собирать последовательности, анализируя опубликованную литературу и приглашая экспериментаторов предоставлять их данные. Такой подход подразумевал такое же отношение к последовательностям, как отношение натуралистов к экземплярам – находящимся в окружающей природе объектам, которые могут быть собраны и использованы. LANL-BBN, напротив, предлагали просить издательства, чтобы включение последовательностей в базу данных было обязательным условием для публикации статьи в журнале. Такая система соответствовала системе мотивации в экспериментальных науках, в которой результаты исследований считаются личным знанием до того, как они будут опубликованы и им будет присвоено авторство. Публикация таким образом является стимулом к тому, чтобы сделать знания общедоступными[2].

В 1980 году Верховный суд США объявил, что «что-либо под солнцем, созданное человеком», включая генетически модифицированные организмы, может быть запатентовано[5]. Данное заявление поставило перед NIH вопрос о том, кто мог бы стать собственником информации в будущей базе данных. Гоад подчеркнул, что он «не собирается отстаивать какие-либо права собственности на какие бы то ни было данные», и отметил, что Дайхофф и её команда «искали доходы от продаж своей базы данных и препятствовали их перераспределению», не упомянув, что доходы шли только на покрытие расходов, а не для получения прибыли[6].

CD диск с сотым выпуском GenBank.

LANL-BBN имели возможность в дальнейшем повысить открытость своей базы данных, предложив распространять её через компьютерную сеть ARPANET, находящуюся под управлением Министерством обороны, в то время как NBRF мог предложить только ограниченный онлайн-доступ через телефонные модемы. 30 июня 1982 года NIH заключила контракт с LANL-BBN на создание общедоступной бесплатной базы данных последовательностей нуклеиновых кислот, которая вскоре стала называться GenBank.

Успех GenBank в сборе всех опубликованных последовательностей был обусловлен двумя ключевыми факторами. Во-первых, было организовано плотное сотрудничество с базой данных EMBL, созданной несколькими месяцами ранее в Гейдельберге, и с DDBJ в 1986 году. Каждая база данных была ответственна за отслеживание публикаций в определённых журналах[2].

Во-вторых, базы данных ДНК всё сильнее отставали от растущего взрывными темпами количества известных последовательностей. Решением проблемы стала договорённость с издательствами об электронном включении последовательностей в базу данных как обязательном условии для публикации в журнале.

С тех пор GenBank рос и расширялся, участвуя в таких проектах, как «Геном человека» и проектах по баркодированию ДНК. GenBank стала примером проекта, основанного на принципах «свободного контента», которые приобретают огромное конкурентное преимущество в современном мире[2].

В середине 1980-х биоинформатическая компания Intelligenetics в Стэнфордском Университете управляла проектом GenBank совместно с LANL. Будучи одним из первых общественных биоинформатических проектов в Интернете, в рамках проекта были открыты первые форумы и средства для обмена научными знаниями: BIOSCI/Bionet.

В период с 1989-1992 GenBank был перемещён в новообразованный Национальный Центр Биотехнологической Информации (NCBI)[7].

Статистика GenBank

[править | править код]
Рост количества нуклеотидов в GenBank с декабря 1982 года по февраль 2017
Рост количества последовательностей в GenBank с декабря 1982 года по февраль 2017

В третьем выпуске базы данных, вышедшем в декабре 1982 года содержалось 606 нуклеотидных последовательностей, в пересчёте на основания - 680338. Уже к ноябрю 1983 года количество последовательностей увеличилось более чем в 4 раза - до 2427. До 2000 года рост базы данных имел экспоненциальный характер. К 2007 году количество данных удваивалось каждые 18 месяцев.

С апреля 2002 года ведётся статистика по разделу WGS. Скорость его роста опережает основное отделение GenBank. После уменьшения темпов роста в 2010 году, WGS вновь демонстрирует ускоренный рост[8].

На февраль 2013 года GenBank содержал информацию о более чем 228 млрд пар оснований и почти 200 млн последовательностях (из более чем 100 000 живых организмов)[9].

В генном банке содержатся также дополнительные наборы данных, механически добавленных, на основе основной коллекции данных секвенирования.

По информации, содержащейся в таблице, можно определить масштаб данных, накопленных в GenBank и сравнить скорости, с которыми в базе данных появлялись новые записи в первые годы после основания базы и в настоящее время[8].

Выпуск Дата Оснований Последовательностей
3 декабрь 1982
680 338
606
66 декабрь 1990
51 306 092
41 057
121 декабрь 2000
11 101 066 288
10 106 023
181 декабрь 2010
122 082 812 719
129 902 276
218 февраль 2017
228 719 437 638
199 341 377

Аннотация записи GenBank

[править | править код]

Аннотированный образец GenBank в формате GenBank Flat File имеет следующие разделы[10]:

Название поля Аннотация поля
Поле LOCUS содержит следующие элементы данных:

Имя локуса (Locus Name)

Единственное правило при назначении имени локуса - уникальность.

Длина последовательности (Sequence Length)

Количество нуклеотидных пар оснований (или аминокислотных остатков, в случае белковой последовательности) в записи последовательности.

Поле поиска Entrez: длина последовательности [SLEN]

Тип молекулы (Molecule Type)

Каждая запись GenBank должна содержать данные о последовательности одного типа молекулы: геномная ДНК, геномная РНК, незрелая (несплайсированная) РНК, матричная РНК (кДНК), рибосомная РНК, транспортная РНК, малая ядерная РНК и другие.

Поле поиска Entrez: тип молекулы [PROP]. Пример biomol_genomic, biomol_mRNA и т. д.

Раздел GenBank (GenBank Division)

Записи GenBank относятся к одному из следующих разделов[11]:

Таксономические разделы:

  • PRI (primate) - последовательности приматов
  • ROD (rodent) - последовательности грызунов
  • MAM (mammalian) - другие последовательности млекопитающих
  • VRT (vertebrate) - другие последовательности позвоночных животных
  • INV (invertebrate) - последовательности беспозвоночных животных
  • PLN (plant) - последовательности растений, грибов и водорослей
  • BCT (bacterial) - бактериальные последовательности
  • VRL (viral) - вирусные последовательности
  • PHG (bacteriophage) - последовательности бактериофагов
  • SYN (synthetic) - синтетические последовательности
  • ENV (environmental) - последовательности образца окружающей среды
  • UNA (unannotated) - неаннотированные последовательности

Высокопроизводительное секвенирование:

  • EST (expressed sequence tags) - последовательности тегов
  • STS (sequence tagged sites) - тегированные последовательности сайтов
  • GSS (genome survey sequences) - исследование последовательностей генома
  • HTG (high-throughput genomic sequences) - данные высокопроизводительного секвенирования генома
  • HTC (high-throughput cDNA sequencing) - данные высокопроизводительного секвенирования кДНК

Проекты:

  • PAT (patent) - запатентованные последовательности
  • WGS (whole genome sequencing) - полногеномное секвенирование
  • TSA (transcriptome shotgun assembly) - сборка транскриптома методом дробовика

Поскольку разделы не отражают текущую таксономию NCBI (последовательность, реально относящаяся к конкретному организму, может входить в "техническую" группу из-за метода её получения), для получения всех последовательностей из конкретного организма следует использовать NCBI Taxonomy Browser.

Поле поиска Entrez: раздел [PROP]. Пример: gbdiv_pri, gbdiv_est и т. д.

Дата изменения (Modification Date)

Дата последней модификации записи.

Поле поиска Entrez: дата [MDAT]. Пример 1999/07/25, 1999/07/25:1999/07/31 (обязателен формат гггг/мм/дд)

Краткое описание последовательности: организм, имя гена/белка, описание функций последовательности (если последовательность является некодирующей).

Поле поиска Entrez: описание [TITL].

Уникальный и неизменный идентификатор записи последовательности (accession number англ.). Идентификатор представляет собой комбинацию букв и цифр. Обычно это одна буква, за которой следуют пять цифр (например, U12345) или две буквы, а затем шесть цифр (например, AF123456). Некоторые идентификаторы могут быть длиннее, в зависимости от типа записи последовательности.

Поле поиска Entrez: идентификатор [ACCN].

Идентификационный номер конкретной нуклеотидной последовательности в базе данных GenBank, использует формат "accession.version", реализованный GenBank / EMBL / DDBJ в феврале 1999 года. Увеличивается при любом изменении данных последовательности, например, с U12345.10 на U12345.11. Параллельно изменения получают новый номер в системе идентификаторов GI. Историю изменений последовательности можно найти в разделе GenBank Sequence Revision History и Sequence IDs.

Поле поиска Entrez: используйте значение по умолчанию «All Fields».

Идентификационный номер «GenInfo Identifier» для нуклеотидной или транслированной с него белковой последовательности. Если последовательность изменяется каким-либо образом, будет назначен новый номер GI.

Поле поиска Entrez: используйте значение по умолчанию «All Fields»

Ключевые слово или фраза, описывающие последовательность. В отсутствие ключевых слов содержит только точку.

Данное поле присутствует в записях последовательностей в основном по историческим причинам и не основано на контролируемой лексике. Используется в основном в старых записях или для особых типов последовательностей, таких как EST, STS, GSS, HTG и т. д., поэтому лучше не использовать для поиска.

Поле поиска Entrez: ключевое слово [KYWD]

Организм-источник последовательности. Формат записи свободный, может сопровождаться типом молекулы.

Подполе Organism представляет формальное научное название исходного организма (род и вид, где это уместно) и его таксономию, основанную на базе данных таксономии NCBI.

Поле поиска Entrez: организм [ORGN]. Пример: Saccharomyces cerevisiae

Ссылки на публикации (журнальную статью, главу книги, книгу, диссертацию / монографию, материалы собрания, патент и т.п.) авторов записи с обсуждением указанных в записи данных. Ссылки автоматически сортируются по дате публикации, начиная с самых старых. Статус "unpublished" или "in press" означает отсутствия публикаций. Последняя статья обычно содержит информацию о непосредственном подателе последовательности, поэтому она называется «submitter block» и вместо названия статьи присутствуют слова «Direct Submission».

Поле содержит несколько элементов:

Авторы (authors)

Список авторов в порядке их появления в цитируемой статье.

Поле поиска Entrez: автор [AUTH] (в формате Фамилия AB без точек после инициалов, инициалы можно опустить).

Заглавие (title)

Название опубликованной или предварительное название неопубликованной работы.

Поле поиска Entrez: название [WORD].

Журнал (jounal)

MEDLINE аббревиатура названия журнала. (Полное правописание может быть получено из базы данных Entrez Journals)

Поле поиска Entrez: имя журнала [JOUR] (можно вводить как полное правописание журнала, так и аббревиатуру MEDLINE).

PUBMED

Идентификатор PubMed (PMID).

Ссылки, включающие идентификаторы PubMed, на соответствующую запись PubMed. В свою очередь, записи PubMed, содержащие идентификаторы последовательностей в поле SI (вторичный идентификатор источника), ссылаются на записи последовательностей.

Поле поиска Entrez: Невозможно выполнить поиск по PubMed ID, однако можно выполнить поиск в базе данных PubMed.

Информация о местоположении и функции области, указанной в последовательности: ген, его продукт (белок), промотор, кодирующая последовательность (CDS), альтернативно сплайсированная мРНК и другие. Полный список функциональных последовательностей доступен в следующих местах:

Область может быть представлена единичным интервалом нуклеотидов, смежным интервалом нуклеотидов, объединением интервалов последовательности и другими представлениями. Область, как правило, задаётся двумя координатами n..m. Символ «<», перед координатами говорит о расположении на 5'-конце (например, CDS <1..206), символ «>» - на 3'-конце (например, CDS 435..915>), пометка "complement" - о расположении на комплементарной цепи.

Поле поиска Entrez: функциональный ключ [FKEY]. Пример, promoter

Элементы поля:

source

Обязательное поле, содержащее длину последовательности, научное название организма-источника и Taxon ID (идентификационный номер таксона в базе NCBI Taxonomy Database ). Может также включать дополнительную информацию, такую как локализация на карте генома (например, номер хромосомы), штамм, клон, тип ткани и т. д.

Поле поиска Entrez: используйте запрос длина последовательности [SLEN] для поиска по длине, организм [ORGN] для поиска по названию организма, дополнительная информация [ALL] для поиска других элементов, таких как штамм, клон, тип ткани.

CDS

Кодирующая белок последовательность нуклеотидов, включая старт- и стоп-кодоны. Содержит также транслированную с этой области аминокислотную последовательность. Спецификаторы "/evidence=experimental" и "/evidence=not_experimental" указывают на наличие или отсутствие экспериментального подтверждения существования белка. Для мРНК авторами записи могут быть описаны 5'-и 3'- нетранслируемые области (5'UTR и 3'UTR) и кодирующие последовательности (CDS, экзоны).

Поле поиска Entrez: функциональный ключ [FKEY]

protein_id, GI

Идентификационный номер белковой последовательности, соответствующий идентификатору нуклеотидной последовательности. Идентификаторы белков состоят из трёх букв, за которыми следуют пять цифр, точка и номер версии. Если произойдёт изменение данных последовательности (даже одной аминокислоты), номер версии будет увеличен (например, AAA98665.1 изменится на AAA98665.2).

Формат идентификации идентификационных номеров белковых последовательностей accession.version был реализован GenBank / EMBL / DDBJ в феврале 1999 года и работает параллельно с цифровой системой GI (см. выше).

Поле поиска Entrez: используйте значение по умолчанию «All Fields»

ген

Область биологического интереса, имеющая имя и идентифицированная как ген.

Поле поиска Entrez: функциональный ключ [FKEY]

Сама последовательность, доступна для скачивания в различных форматах. Поле может быть пустым, может отображаться как «Unreported», или давать локальный указатель на начало последовательности, как правило, с участием экспериментально определённого сайта рестрикции или генетического локуса (если имеется).

Правила внесения данных

[править | править код]

Заявки на внесение последовательности в одну из трёх баз (GenBank, ENA или DDBJ) отправляются либо отдельными авторами, либо центрами секвенирования в основном в электронной форме через программы BankIt или Sequin. Синхронизация данных между базами происходит ежедневно. Заявки тщательно проверяются на наличие фрагментов используемых векторов (используется система VecScreen), правильной трансляции кодирующей области, правильной таксономии и правильных библиографических ссылок. Черновик записи в GenBank отправляется обратно автору для проверки и последних правок перед публикацией в базе, которая может быть отложена до указанного момента по просьбе автора. После публикации (обычно в течение 2 дней после подачи заявки) запись получает идентификатор, по которому может быть извлечена посредством Entrez или по FTP. В среднем, за день идентификаторы получают приблизительно 3500 последовательностей. Наличие последовательности в публичном доступе GenBank является обязательным требованием к публикации во многих журналах[12].

GenBank предлагает специальные пакеты программ, облегчающие подачу заявок[12]:

  • BankIt веб-интерфейс NCBI, через который принимается около трети заявок. Предоставляет заявителю специальную форму, заполнение которой позволяет правильно описать последовательность без необходимости изучать правила форматирования и нормативную лексику.
  • Sequin автономный программный инструмент, разработанный NCBI для отправки и обновления записей в базе данных последовательности GenBank. Может обрабатывать записи различной степени сложности,однако один файл Sequin должен содержать менее 10000 последовательностей для максимальной производительности. Более крупные записи должны быть сделаны с помощью tbl2asn.
  • tbl2asn инструмент командной строки для преобразования таблицы с аннотацией, полученной при помощи аннотационного пайплайна, в запись, подходящую для предоставления в GenBank.
  • Submission Portal веб-сервис, предоставляющий интерфейс, который принимает данные WGS в формате FASTA с использованием набора онлайн-форм.
  • BarSTool онлайн-инструмент, позволяющий подавать заявки о включении в базу последовательностей для баркодинга.

Разделы GenBank

[править | править код]

В настоящий момент база GenBank, помимо последовательностей отдельных генов, содержит много данных, полученных с помощью современных методов секвенирования ДНК и автоматического аннотирования последовательностей. Существует несколько разделов GenBank, посвящённых данным высокопроизводительного секвенирования[11].

  • Genomes специальный раздел для хранения полных геномов. Созданы руководства по аннотации полных геномов прокариот и эукариот.
  • WGS (Whole genome shoutgun) – проекты по сборке неполных геномов, хромосом прокариот или эукариот, главным образом, секвенированных методом дробовика. В GenBank аннотация проектов WGS необязательна, однако NCBI располагает специальным пайплайном для аннотации прокариотических геномов. Существует список доступных WGS-проектов
  • TPA (Third Party Annotation) представляет собой базу данных экспериментальных или выведенных из уже имеющихся данных результатов, аннотация которых не произведена автором из первичных данных, а определена по косвенным. Записи TPA делятся, соответственно, на две категории:
    • experimental – аннотация последовательностей подтверждена экспериментальным доказательством в «мокрой» лаборатории.
    • inferential – аннотация последовательностей сделана путём умозаключения из доступной информации. При этом непосредственно молекула нуклеиновой кислоты или её продукт(ы) не являлись предметами прямых экспериментов.
  • TSA (Transcriptome Shotgun Assembly sequences) –  последовательности транскриптомов, полученные путём секвенирования методом дробовика. Данный раздел содержит данные, собранные из последовательностей, размещённых в NCBI Trace Archieve, Sequence Read Archive и разделе GenBank EST. Отдел TSA представляет собой один из самых быстрорастущих разделов GenBank.
  • ENV (Environmental sample sequences) – последовательности образцов из окружающей среды, конкретный источник которых неизвестен. Многие из них получены путём анализа метагеномов. Подаздел «Метагеномы» включает в себя группы последовательностей, полученных при секвенировании ДНК, взятой из какого-либо места окружающей среды с определёнными условиями. Такой подход позволяет найти организмы, лабораторная культура которых не получена. Также он исключительно важен для понимания генетического разнообразия, структуры популяций, экологической роли таких организмов. ENV последовательности, как правило, предоставлены данными секвенирования полного метагенома методом дробовика или исследований последовательностей на основе таргетных генов, таких как 16S рРНК. NCBI продолжает поддерживать поиск BLAST метагеномных последовательностей ENV, но последовательности в рамках WGS проектов теперь являются частью базы данных WGS BLAST.
  • EST (Expressed sequence tags) – основной источник данных для исследований, посвящённым изучению экспрессии генов и аннотированию последовательностей. Раздел содержит более 40 млрд пар оснований – является крупнейшим по этому параметру после WGS. 
  • HTG (High-throughput genomic) содержит масштабные геномные записи незавершённых, которые в перспективе будут окончены. Записям в данном разделе присваивается номер фазы, которой соответствует их текущее качество. При достижении третьей фазы – полного завершения – запись переносится в раздел соответствующего организма.
  • GSS содержит записи чернового качества, которые, могут включать в себя 5’ и 3’ нетранслируемые области (UTR), части кодирующих областей и интроны. По мере обретения высокого качества записи перемещаются в раздел соответствующего организма.
  • CON (Contig records for assemblies of smaller records) – содержит записи, представляющие собой очень длинные последовательности, такие как эукариотические хромосомы, чьи полные последовательности не известны, но которые включают несколько контигов с неохарактеризованными гэпами между ними. CON скорее содержит не список последовательностей сам по себе, а инструкцию по сборке, включающую несколько последовательностей-компонентов.

Примечания

[править | править код]
  1. The download page Архивная копия от 27 января 2020 на Wayback Machine at UCSC says "NCBI places no restrictions on the use or distribution of the GenBank data. However, some submitters may claim patent, copyright, or other intellectual property rights in all or a portion of the data they have submitted. NCBI is not in a position to assess the validity of such claims, and therefore cannot provide comment or unrestricted permission concerning the use, copying, or distribution of the information contained in GenBank."
  2. 1 2 3 4 5 6 7 Bruno J. Strasser. GenBank--Natural History in the 21st Century? (англ.) // Science. — 2008-10-24. — Vol. 322, iss. 5901. — P. 537–538. — ISSN 1095-9203. — doi:10.1126/science.1163399. Архивировано 26 марта 2017 года.
  3. "MARGARET OAKLEY DAYHOFF, 57; EXPERT ON PROTEIN STRUCTURES". The New York Times. 1983-02-09. Архивировано 28 августа 2017. Дата обращения: 25 марта 2017.
  4. Strasser, Bruno. The Experimenter's Museum: GenBank, Natural History, and the Moral Economies of Biomedicine // Isis. — 2011-01-01. — Т. 102, вып. 1. — ISSN 0021-1753. Архивировано 15 апреля 2017 года.
  5. "Diamond v. Chakrabarty 447 U.S. 303 (1980)". Justia Law (англ.). Архивировано 21 апреля 2017. Дата обращения: 25 марта 2017.
  6. Frederick Sanger. Sequences, Sequences, and Sequences // Annual Review of Biochemistry. — 1988-01-01. — Т. 57, вып. 1. — С. 1–29. — doi:10.1146/annurev.bi.57.070188.000245.
  7. Hallam Stevens. Life Out of Sequence: A Data-Driven History of Bioinformatics. — University of Chicago Press, 2013-11-04. — 303 с. — ISBN 9780226080345.
  8. 1 2 GenBank and WGS Statistics (англ.). www.ncbi.nlm.nih.gov. Дата обращения: 25 марта 2017. Архивировано 28 апреля 2019 года.
  9. GenBank release notes. NCBI. Дата обращения: 25 марта 2017. Архивировано 28 марта 2017 года.
  10. Sample GenBank Record (англ.). www.ncbi.nlm.nih.gov. Дата обращения: 14 апреля 2017. Архивировано 18 мая 2020 года.
  11. 1 2 Dennis A. Benson, Mark Cavanaugh, Karen Clark, Ilene Karsch-Mizrachi, David J. Lipman. GenBank // Nucleic Acids Research. — 2013-01-01. — Т. 41, вып. Database issue. — С. D36–42. — ISSN 1362-4962. — doi:10.1093/nar/gks1195. Архивировано 14 мая 2020 года.
  12. 1 2 Dennis A. Benson, Karen Clark, Ilene Karsch-Mizrachi, David J. Lipman, James Ostell. GenBank // Nucleic Acids Research. — 2015-01-01. — Т. 43, вып. Database issue. — С. D30–35. — ISSN 1362-4962. — doi:10.1093/nar/gku1216. Архивировано 25 сентября 2016 года.