Protein Data Bank

La banque de données sur les protéines ou BDP du Research Collaboratory for Structural Bioinformatics, plus communément appelée Protein Data Bank ou PDB est une collection mondiale de données sur la structure tridimensionnelle (ou structure 3D) de macromolécules biologiques : protéines, essentiellement, et acides nucléiques. Ces structures sont essentiellement déterminées par cristallographie aux rayons X ou par spectroscopie RMN. Ces données expérimentales sont déposées dans la PDB par des biologistes et des biochimistes du monde entier et appartiennent au domaine public. Leur consultation est gratuite et peut se faire directement depuis les sites internet de la banque :

Europe : PDBe ;
Japon : PDBj ;
États-Unis : RCSB PDB.

La PDB est la principale source de données de biologie structurale et permet en particulier d’accéder à des structures 3D de protéines d’intérêt pharmaceutique.

Historique

Fondée en 1971 par le Laboratoire national de Brookhaven, la Banque de données des protéines a été transférée en 2003 au projet Worlwide Protein Data Bank (wwPDB)^[1], qui se compose de PDBe, PDBj, RCSB PDB et BMRB pour la RMN.

Le financement est assuré par la National Science Foundation, le département de l'Énergie, la National Library of Medicine et le National Institute of General Medical Sciences (en). L’Institut européen de bio-informatique (European Bioinformatics Institute, EBI), au Royaume-Uni, et l'Institute for Protein Research, au Japon, collectent et traitent également les fichiers de données structurales.

La Worlwide Protein Data Bank (wwPDB)^[1] comprend trois organisations membres qui sont des centres de dépôt, de traitement et de distribution des données de la PDB : RCSB, aux États-Unis^[2], PDBe, Protein Databank in Europe - EBI, Europe^[3], et PDBj, Protein Data Bank Japan, au Japon^[4]. La mission de la wwPDB est de maintenir à jour une archive PDB unique de données structurales macromoléculaires, accessible gratuitement et publiquement pour l’ensemble de la communauté.

Croissance de la PDB et diversification des utilisateurs

À l’origine en 1971 la PDB contient sept structures. Le nombre de structures déposées augmente considérablement à partir des années 1980. En effet, à cette époque, les techniques cristallographiques s'améliorent, les structures déterminées par RMN sont ajoutées, et la communauté scientifique change de vue sur le partage des données.

Au début des années 1990, la majorité des journaux demandent un code PDB et une agence de financement, le NIST, exige le dépôt de toutes les données structurales. La PDB est également devenue accessible par le réseau Internet, plutôt que sur supports physiques. De fait, les premiers utilisateurs de la PDB qui étaient limités à des experts impliqués dans la recherche structurale, deviennent des déposants utilisant des techniques variées pour déterminer les structures : diffraction des rayons X, RMN, microscopie cryoélectronique et modélisation théorique. Les modèles théoriques (voir Prédiction de la structure des protéines) ne sont cependant plus acceptés et ont été supprimés en juillet 2002. Les usagers de la PDB sont aujourd’hui très divers, regroupant des chercheurs en biologie, chimie ou bio-informatique, des enseignants et des étudiants de tous niveaux.

De nombreuses sources de financement et de journaux scientifiques demandent à présent le dépôt des structures dans la PDB. Un afflux incroyable de données a également été généré par la génomique structurale. La croissance du nombre d’entrées de la PDB est aujourd’hui exponentielle.

La PDB est une ressource clé en biologie structurale et est essentielle aux travaux plus récents en génomique structurale. D'innombrables bases de données et projets dérivés ont été développés pour intégrer et classer la PDB en termes de structure des protéines, fonction des protéines et évolution des protéines^[5].

Contenu

Exemples de structures protéiques issues de la PDB.

La PDB contient, au 27 juillet 2021, plus de 180 000 structures. Les données sont depuis l’origine au format pdb, et sont depuis quelques années également au format mmCif, spécifiquement développé pour les données structurales de la PDB. 6 000 à 7 000 structures sont ajoutées chaque année.

La banque contient des fichiers pour chaque modèle moléculaire. Ces fichiers décrivent la localisation exacte de chaque atome de la macromolécule étudiée, c'est-à-dire les coordonnées cartésiennes de l’atome dans un repère à trois dimensions. Si l’on s’intéresse plutôt à la séquence de la macromolécule (la liste des acides aminés ou nucléiques), il vaut mieux utiliser d’autres banques bien plus grandes, comme Swiss-Prot. Les fichiers contiennent également des métadonnées.

Statistiques de la PDB (PDB Holdings List) au 2 février 2012 :

Méthode expérimentale	Protéines	Acides nucléiques	Complexes protéines / acides nucléiques	Autres	Total
Diffractométrie de rayons X	64 591	1 337	3 187	2	69 117
RMN	8 108	966	186	7	9 267
Microscopie électronique	277	22	101	0	400
Hybride	42	3	2	1	48
Autres	138	4	5	13	160
Total	73 156	2 332	3 481	23	78 992

Formats des fichiers

Chaque modèle est référencé dans la banque par un identifiant unique à 4 caractères, le premier étant toujours un caractère numérique, les trois suivants étant des caractères alphanumériques. Cet identifiant est appelé « code pdb ».

Plusieurs formats existent pour les fichiers de la PDB :

Le format PDB

Le format pdb est le format original de la banque. La guide de ce format a été révisé à plusieurs reprises ; la version actuelle (nov. 2012) est la version 3.30. Il est fortement conseillé de lire ce guide avant d’examiner les données brutes des fichiers pdb.

Les archives contiennent les coordonnées cartésiennes des atomes, la bibliographie, les informations structurales, les facteurs de la structure cristallographique et les données expérimentales de la RMN. À l’origine, le format pdb a été dicté par l’utilisation et la largeur de cartes perforées pour ordinateur. En conséquence, chaque ligne contient exactement 80 caractères.

Un fichier au format pdb est un fichier texte où chaque colonne possède sa signification : chaque paramètre est positionné de façon immuable. Ainsi, les 6 premières colonnes, c’est-à-dire les 6 premiers caractères pour une ligne donnée, déterminent le champ du fichier. On retrouve par exemple les champs « TITLE_ » (c'est-à-dire le titre de la macromolécule étudiée), « KEYWDS » (les mots-clé de l’entrée), « EXPDTA » qui donne des informations sur la méthode expérimentale employée, « SEQRES » (la séquence de la protéine étudiée), « ATOM__ » ou « HETATM », champs comprenant toutes les informations liées à un atome particulier. Dernier exemple, dans ces derniers champs, le nom de l’atome est décrit par les colonnes 13 à 16 (soit du treizième au seizième caractère de la ligne).

Les lignes « ATOM__ » concernent les acides aminés ou les acides nucléiques, et les lignes « HETATM » sont dédiées aux autres molécules (solvant, substrat, ion, détergent…). Il y a autant de lignes « ATOM__ » et « HETATM » que d’atomes observés par l’expérimentateur, pour une macromolécule ou un complexe donné.

La longue histoire du format pdb a abouti sur des données non uniformes. Ce format laisse également la place à de nombreuses erreurs, qui ne sont pas systématiquement éliminées lors des contrôles accompagnant le dépôt des structures. Il peut s’agir de désaccords entre la séquence et les résidus représentés, ou de problèmes liés à la nomenclature des atomes des acides aminés ou des ligands.

Limitations du format pdb

Le format en 80 colonnes des fichiers pdb est relativement restrictif. Le nombre maximum d’atomes d’un fichier pdb est de 99 999, vu qu’il n’y a que 5 colonnes allouées pour les numéros des atomes. De même le nombre de résidus par chaîne est au maximum de 9 999 : il n’y a que 4 colonnes autorisées pour ce chiffre. Le nombre de chaînes, lui, est limité à 62 : une seule colonne est disponible, et les valeurs possibles sont une des lettres des 26 lettres de l’alphabet, en minuscule ou en majuscule, ou un des chiffres de 0 à 9. Quand ce format a été défini, ces limitations ne semblaient pas restrictives, mais elles ont plusieurs fois été franchies lors du dépôt de structures extrêmement grandes, comme des virus, des ribosomes ou des complexes multienzymatiques.

Le format mmCIF

L’intérêt croissant pour le développement de bases de données et de publications électroniques, à la fin des années 1980, a fait naître le besoin d’une représentation plus structurée, uniformisée, non limitée et de haute qualité pour les données de la PDB. En 1990, l’Union internationale de la cristallographie (International Union of Crystallography, IUCr) a étendu aux macromolécules la représentation des données utilisée pour décrire les structures cristallographiques des molécules de faible poids moléculaire. Cette représentation est appelée CIF, pour Crystallographic Information File. À partir de celle-ci, le dictionnaire mmCIF (macromolecular Crystallographic Information File) a donc été développé. La première version du dictionnaire mmCIF a été publiée en 1996.

Quand le RCSB a pris la direction de la PDB en 1998, il a adopté le format mmCIF pour le traitement et la gestion des données. En 2001, tous les fichiers pdb ont été corrigés et convertis au format mmCIF4.

Dans le format mmCIF, chaque champ de chaque section d’un fichier pdb est représenté par une description d’une caractéristique d’un objet, qui comprend d’une part le nom de la caractéristique (par exemple _struct.entry_id), et d’autre part le contenu de la description (ici le code pdb : 1cbn). On parle de paire « nom-valeur ». Il est aisé de convertir, sans perte d’informations, un fichier mmCIF au format pdb, puisque toute l’information est directement analysable. Il n’est pas possible, en revanche, de complètement automatiser la conversion d’un fichier pdb au format mmCIF, puisque plusieurs descripteurs mmCIF sont soit absents du fichier PDB, soit présent dans un champ « REMARK » qui ne peut pas toujours être analysé. Le contenu des champs « REMARK » est en effet séparé suivant différentes entrées du dictionnaire mmCIF, afin de préserver l’intégralité des informations, contenues par exemple dans la section Matériel et Méthodes (caractéristiques du cristal, méthode de raffinement…) ou dans les descriptions de la molécule biologiquement active ou des autres molécules présentes (substrat, inhibiteur…).

Le dictionnaire mmCIF comprend plus de 1 700 entrées, qui ne sont, bien sûr, pas toutes utilisées dans un même fichier de la PDB. Tous les noms des champs sont précédés du caractère « underscore » ( _ ), afin de pouvoir les différencier des valeurs elles-mêmes. Chaque nom correspond à une entrée du dictionnaire mmCIF, où les caractéristiques de l’objet sont exactement définies.

Comparaison d’un fichier pdb et d’un fichier mmCIF

Chaque champ d’un fichier pdb est représenté par un nom spécifique en mmCIF. Par exemple, le champ « HEADER » du fichier pdb 1cbn :

HEADER PLANT SEED PROTEIN 11-OCT-91 1CBN

devient :

_struct.entry_id '1CBN'
_struct.title 'PLANT SEED PROTEIN'
_struct_keywords.entry_id '1CBN'
_struct_keywords.text 'plant seed protein'
_database_2.database_id 'PDB'
_database_2.database_code '1CBN'
_database_PDB_rev.rev_num 1
_database_PDB_rev.date_original '1991-10-11'

L’appariement nom-valeur est la différence majeure par rapport au format pdb. Il présente l’avantage de fournir une référence explicite pour chaque élément des données du fichier, plutôt que de librement laisser l’interprétation au programme qui lit le fichier.

Le format pdbml

Le format pdbml est l’adaptation au format XML des données au format pdb et contient les entrées décrites dans le dictionnaire PDB Exchange Dictionnary. Ce dictionnaire contient les mêmes entrées que le dictionnaire mmCIF ainsi que d’autres, pour pouvoir prendre en compte toutes les données gérées et distribuées par la PDB. Ce format permet de stocker beaucoup plus d'informations sur les modèles que le format pdb.

Texte à traduire

Portion de texte anglais à traduire en français

Texte anglais à traduire :
This legacy format has caused many problems with the format, and consequently the PDB has distinct 'clean-up' projects;

The Molecular Modeling DataBase (MMDB) from NCBI
The Data Uniformity Project from PDB

Each of these grant-funded projects has attempted to achieve the same goal via different routes. The Data Uniformity Project is hosted by the RCSB (the current home of the PDB). Each uses the original PDB data to derive a new format; The MMDB uses ASN.1 (and an XML conversion of this format); The MSD uses a Relational Database; The Data Uniformity Project uses mmCIF (and another XML conversion of this format).

Some people would say that this is a Good Thing; others would argue that, without a universal repository of information (i.e., a common dictionary), how can we talk about the same thing.

Each structure published in PDB receives a four-character alphanumeric identifier, its PDB ID. This should not be used as an identifier for biomolecules, since often several structures for the same molecule (in different environments or conformations) are contained in PDB with different PDB IDs.

If a biologist submits structure data for a protein or nucleic acid, PDB staff reviews and annotates it. The data are then automatically checked for plausibility. Le code source pour ce logiciel de validation has been released for free. The main data base accepts only experimentally derived structures.

Traduire ce texte • Outils • (+)

Consultation des données

Les fichiers décrivant les modèles moléculaires peuvent être téléchargés à partir du site de la PDBe^[3] ou RCSB^[2] ou PDBj^[4] et visualisés grâce à différents logiciels tels que rasmol, Jmol, Protein Segment Finder, chime, une extension VRML (plugin) d'un navigateur ou une bibliothèque mmLib pour le langage de programmation Python. Le site web de la PDB contient également des ressources pour l'enseignement, sur la génomique structurale et d'autres logiciels utiles.

Notes et références

1 2 Worlwide Protein Data Bank (wwPDB)
1 2 RCSB PDB
1 2 PDBe - EBI
1 2 PDBj
↑ (en) « How the Protein Data Bank changed biology: a thematic series », sur Journal of Biological Chemistry (consulté le 22 avril 2021)

Voir aussi

Bibliographie

(en) Bernstein FC, Koetzle TF, Williams GJ, Meyer Jr EF, Brice MD, Rodgers JR, Kennard O, Shimanouchi T, Tasumi M. « The Protein Data Bank: a computer-based archival file for macromolecular structures » J Mol Biol. 1977;112:535-542. PMID 875032.

Liens externes

(en) Protein Data Bank - Page d'accueil (home page)
(en) Protein Data Bank Europe
(en) Protein Data Bank Japan
(en) RCSB Protein Data Bank - US
(en) « The Protein Data Bank » - La publication de référence sur la PDB, par Berman et al. PMID 10592235
(en) RasMol Home Page - Un outil de visualisation moléculaire
(en) ExPASy - Swiss-Prot et TrEMBL
(en) DNA Sequence Collaborator's Page International Nucleotide Sequence Database Collaboration

Liens vers les données de la base de données des enzymes

La meilleure cartographie est fournie par le groupe de Kim Henrick à l'EBI.
La PDB elle-même fournit des liens vers d'autres bases de données.
Effectuer une recherche sur le portail BRENDA enzyme database.
PDBSProtEC: