Accueil / Information / Aller plus loin... / Comprendre les allergènes / Allergènes et allergénicité / Prédire l’allergénicité d’une protéine ?
Prédire l’allergénicité d’une protéine ?
dimanche 22 mars 2009, par
Peut-on prédire l’allergénicité d’une protéine ?
Parmi les milliers de sortes de protéines connues, seules certaines semblent douées d’IgE-réactivité.
Et si des protéines réputées comme n’étant jamais allergisantes peuvent s’avérer un jour contredire ce dogme , et que la diversité des familles de protéines IgE-réactives s’agrandit chaque année, il est raisonnable de penser qu’une vaste proportion des protéines restera sans pouvoir allergisant démontrable.
Pourquoi ? On ne sait pas : on n’a pas encore trouvé d’explication générale à la question « pourquoi certaines protéines sont des allergènes ? ».
Pourtant il serait bien utile de pouvoir comprendre les fondements de l’allergénicité. Et en dehors d’un simple intérêt théorique, pouvoir prédire si une protéine pose un risque d’allergénicité permettrait diverses actions pour limiter ou éviter le contact des patients, voire de la population générale.
Dans ce cadre, on pense bien sûr aux protéines introduites par génie génétique, c’est-à-dire au cas des OGM. Mais posséder de moyens de prédiction de l’allergénicité peut également rendre des services s’agissant d’aliments en passe d’être introduits sur le marché (ex. fruits ou graines « exotiques » ) ou de procédés techno-alimentaires nouveaux (ex. colle biologique comme la transglutaminase ).
C’est dans ce but que des protocoles d’évaluation de l’allergénicité ont été publiés par la FAO et l’OMS
Ils ont été relayés par des avis du Codex Alimentarius (ex. ) et repris par les agences de sécurité sanitaire
Quelques études mettant en pratique ces protocoles ont été publiées , avec plus ou moins d’impartialité . Et de multiples travaux ont cherché à valider ou améliorer ces tests de prédiction d’allergénicité, notamment chez l’animal .
A l’heure actuelle, il subsiste de nombreux points non résolus, ainsi que l’attestent les opinions nuancées de beaucoup d’experts et de groupes de travail .
C’est pourquoi le protocole FAO/OMS, qui était prévu au départ comme un arbre décisionnel, a été assoupli : il est admis à présent qu’aucun des tests prédictifs n’est suffisant en soi pour accepter ou rejeter une protéine candidate ; et il est recommandé de se fonder sur les résultats d’ensemble des tests.
On pourra relever qu’il est généralement difficile de récupérer une validité statistique en additionnant des éléments qui en manquent déjà eux-mêmes …
Ceci étant dit, quels sont ces tests ? :
- rechercher une homologie de séquence entre la protéine à tester et des allergènes connus
- soumettre la protéine à des expériences de digestion simulée
- tester son éventuelle réactivité croisée avec des protéines déjà allergisantes dans la population à l’aide de sérums de patients
- accessoirement tenter de montrer que la protéine peut être allergisante chez l’animal
Bien sûr, il serait plus pertinent de recourir à des tests in vivo chez l’homme, mais ceci n’est éthiquement pas possible.
Il ne sera abordé ici (pour l’instant) que le premier point, à savoir la prédiction basée sur une homologie structurale entre la protéine et des allergènes. Comme cette méthode de prédiction repose sur des outils informatiques (bases de données, algorithmique), elle est dénommée « in silico », en référence aux expressions in vitro ou in vivo. C’est une des applications de la branche des mathématiques appelée bio-informatique.
La prédiction in silico
Pour diverses applications, comme les études de phylogénèse, il a été constitué des bases de données (BDD) accessibles par l’internet et stockant des centaines de milliers de séquences d’acides nucléiques (ADN) et/ou d’acides aminés (protéines). Les méthodes permettant d’obtenir expérimentalement une séquence d’acides nucléiques sont à présent robotisées et, comme la séquence en acides aminés (AA) se déduit de la séquence en acides nucléiques, le nombre de séquences protéiques mémorisées dans les BDD a grandi rapidement.
S’agissant des BDD de séqueces protéiques, on peut citer, par exemple, la base Interpro, à partir de laquelle on accède également à un grand nombre d’autres BDD.
Il est plus difficile d’établir la structure dans l’espace d’une protéine. Si l’on peut calculer assez bien la structure secondaire (hélices, etc..) à partir de l’enchaînement des AA, le repliement d’une protéine sur elle-même met en jeu des facteurs (ex. la glycosylation) qui ne sont pas accessibles à partir de la simple séquence en AA.
On doit faire appel à des méthodes physiques souvent lourdes (RMN, cristallographie X), ce qui explique que le nombre de protéines pour lesquelles on possède une structure tertiaire bien établie soit très limité : environ une cinquantaine d’allergènes avaient une structure 3D disponible dans la base PDB au 01/03/09.
Ceci est regrettable dans le cadre d’une prédiction d’allergénicité car les épitopes sont souvent conformationnels et leur structure en 3D influe également .
Pour tenter de pallier ce déficit de données 3D pour de nombreux allergènes, il est fait souvent appel à un « décalquage » : on part d’une protéine de la même famille et dont on connaît la structure 3D ; et à partir de ce modèle on recalcule les changements 3D suscités par le remplacement de tel ou tel AA sur la protéine à tester comparativement au modèle.
Si des enseignements peuvent être tirés de ces comparaisons 3D (ex. ), cette approche ne peut s’appliquer pour le moment à une protéine quelconque, ni tirer parti d’une estimation statistique de la probabilité d’IgE-réactivité de cette protéine car on connaît trop peu de structures 3D.
On doit donc se « replier » sur une estimation plus éloignée de la réalité, le degré d’homologie séquentielle.
C’est c’ailleurs ce que préconisent les protocoles officiels : rechercher si la protéine à tester renferme des portions de séquence susceptibles de ressembler totalement (sur 6 à 8 AA contigus) ou « exagérément » (plus de 35% d’AA identiques sur une suite de 80 AA) à un ou plusieurs allergènes connus.
De nombreux auteurs ont critiqué ces critères prédictifs d’IgE-réactivité car produisant trop de faux positifs : par exemple, avec une identité sur 6 AA contigus près des 2/3 de toutes les protéines seraient classés comme des allergènes potentiels !
C’est pourquoi plusieurs équipes ont cherché des moyens plus sophistiqués de prédiction in silico, dont certains sont exposés ci-dessous avec leurs résultats s’agissant des tropomyosines.
Prédiction in silico : application aux tropomyosines
Les tropomyosines se prêtent bien à la prédiction in silico :
- beaucoup de séquences connues, tant d’allergènes que de « non-allergènes »
- structure tertiaire non globulaire et donc épitopes a priori linéaires
L’équipe de Li a recherché des motifs particuliers d’AA parmi un collectif d’allergènes et de non-allergènes en utilisant une fenêtre d’exploration de 30 AA et la prise en compte des propriétés physico-chimiques de ces AA. Les motifs retrouvés à la fois sur des allergènes et des non-allergènes sont éliminés. Après quoi la même recherche de motif est effectuée avec la protéine x.
Cette méthode a été appliquée par leurs auteurs à des tropomyosines : les motifs n° 13, 14 et 15, dénommés « tropomyosin », sont bien retournés par le calcul pour des tropomyosines de crevette ou d’acarien, mais le motif n°15 est aussi donné en réponse pour la tropomyosine de poulet.
Mari et Stadler ont développé un algorithme permettant de classer les allergènes en calculant des motifs également. L’approche est différente car le calcul se base uniquement sur des allergènes (mémorisés dans la BDD Allergome). Tous les allergènes n’ont pas reçu de motif, certains restant donc non classés. On peut voir sur le site Allergome si tel allergène a un motif et consulter la liste des autres allergènes partageant le même motif. La fenêtre de calcul est de 50 AA et donc les motifs sont de 50 AA.
Pour montrer que leur méthode était efficace, les auteurs ont synthétisé le peptide de 50 AA correspondant au motif auquel sont rattachées les tropomyosines . Testée chez des patients positifs pour la crevette, l’IgE-réactivité de ce peptide s’est montrée très bien corrélée avec celle de rPen a 1. De plus, la tropomyosine de poulet ne parvenait pas à inhiber ce peptide. Les auteurs concluaient donc que leur méthode de prédiction in silico marchait très bien.
Ivanciuc est parti d’un autre point de vue : constituer une BDD incluant non seulement les séquences des allergènes mais aussi celles des épitopes. Un indice est calculé pour estimer si la protéine x à tester est susceptible de contenir un épitope croisant potentiel. L’indice tient compte également de différentes propriétés physico-chimiques des AA .
Cette méthode, dite SDAP, a été appliquée en testant la séquence d’AA 143-151 d’un allergène connu, la tropomyosine de crevette Pen i 1. On obtient bien en retour de nombreuses propositions d’allergènes croisants : des tropomyosines de crustacés, de mollusques, d’acariens, etc.. La méthode semble donc marcher et si la séquence d’AA était sur une protéine x, il faudrait retenir pour cette protéine un risque d’allergénicité.
Cependant, plusieurs écueils rendent cette méthode prédictive peu utile :
- la séquence 143-151 de Pen i 1 renvoie aussi Der p 1 (D. pteronyssinus) comme proposition d’allergène croisant. Der p 1 est une cystéine protéase et non une tropomyosine : sa configuration 3D est tout à fait différente et une réactivité croisée entre Der p 1 et des tropomyosines est quasi-exclue
- la méthode est limitée par le nombre très faible des séquences connues d’épitopes. Le risque est grand de ne pas trouver de réponse SDAP positive faute d’épitope croisant connu et inclus dans la BDD
- de plus, les séquences mémorisées dans la BDD correspondent à des épitopes linéaires et non à la majorité des épitopes, c’est-à-dire aux épitopes conformationnels.
Soeria-Atmadja a développé une approche différente : peu importe si telle portion de séquence est un épitope ou non, la question est de savoir si cette séquence est plus souvent rencontrée sur un allergène que sur un non-allergène.
Le calcul, dit FLAP, part donc d’un double collectif de séquences : une base contenant tous les allergènes connus et une autre base comprenant toutes les protéines de certains organismes (moins les protéines homologues d’allergènes connus). D’abord principalement constituée de séquences de protéines de riz , cette base des non-allergènes est dorénavant à plus de 90% constituée de séquences de protéines humaines .
Des « séquences représentatives d’allergènes » (d’au moins 22 AA) sont calculées et mémorisées dans la base. C’est à ces séquences que sera comparée la protéine x à tester.
Le site internet Evaller permet de tester une séquence protéique quelconque et de calculer sa probabilité d’être un allergène .
Les auteurs ont appliqué cette méthode aux tropomyosines . Elle affiche une bonne efficacité globale, bien que certains allergènes ne sont pas retrouvés dans la liste des concordances (ex. Lep d 7, la tropomyosine de Lepidoglyphus ).
Le site Evaller a été interrogé (accès le 19/03/09) avec la séquence de la tropomyosine de poulet. Les réponses ont été :
- 8,8% de chances pour que cette protéine soit un allergène
- commentaire : « probablement non allergénique ».
- des séquences représentatives sont listées : elles correspondent bien à des portions de tropomyosines (moule, turban)
- mais les % d’identité de ces séquences avec les portions correspondantes sur la tropomyosine de poulet restent modestes (48 à 68%), et a priori insuffisants pour permettre une réactivité croisée.
La méthode semble donc relativement efficace pour les tropomyosines.
Mais elle ne fonctionne pas aussi bien, de l’avis même de ses auteurs, pour des protéines qui ont une conformation globulaire : c’est le cas pour les profilines .
Mari et Stadler ont été confrontés au même problème : leur méthode de prédiction ne donnait pas de bons résultats avec une famille de protéines globulaires, les Mn-SOD (superoxyde dismutases) .
Satisfaisant pour des protéines non globulaires comme les tropomyosines, les calculs basés sur une pure séquence primaire auront donc bien du mal à être efficaces avec des protéines repliées sur elles-mêmes et où les épitopes sont majoritairement discontinus. Et la grande majorité des allergènes connus sont sous forme globulaire …
Au total, les approches bio-informatiques de prédiction d’allergénicité ont encore beaucoup de progrès à faire, même si certaines d’entre elles ont quand même le mérite de produire moins de « faux positifs » que l’approche FAO/OMS.
Ceci étant, une autre dimension du problème, encore plus important, est rarement évoquée dans tous ces travaux qui, souvent, semblent satisfaits de leurs résultats : est-on sûr que les allergènes placés dans les BDD qui effectuent ces calculs prédictifs sont bien des allergènes ?!!
La question peut surprendre. Mais elle est essentielle. En effet, ce qui importe au patient c’est de ne pas (plus) présenter de symptômes. Il lui bien égal que telle protéine migre à x kDa sur une bande de nitrocellulose (et même que son propre sérum l’y détecte) si le contact avec cette protéine dans la vraie vie ne lui provoque aucun symptôme.
Il faut donc, avant toute chose, s’intéresser aux vrais allergènes, ceux qui ont prouvé leur capacité à induire une réponse clinique en conditions réalistes.
Vous avez dit allergène ?
Qu’est-ce qu’un allergène ? Un comité d’experts réuni par l’OMS a défini ainsi ce qu’est un allergène : « An allergen is an antigen causing allergic disease » .
Un allergène conduit donc jusqu’à la maladie.
Une molécule pouvant positiver des tests diagnostiques chez certains sujets mais pour laquelle il n’a pas encore été vérifié qu’elle provoquait également une réponse clinique visible en situation réaliste ne devrait pas être qualifiée d’allergène.
Bien sûr, on peut admettre qu’un test cutané positif est plus proche de la clinique qu’une tache révélée en blot. Mais on sait également qu’une proportion non négligeable des tests cutanés trouvés positifs restera sans implication clinique.
Dans la mesure où les tests cutanés à lecture immédiate font appel à une réaction impliquant des IgE, on pourrait regrouper sous le vocable de « protéines IgE-réactives » toutes les protéines ayant montré une IgE-réactivité in vitro (blots, « RASTs », dégranulation des basophiles,..) et/ou une réactivité cutanée. Le statut d’ « allergène » étant réservé à celles parmi elles qui ont une implication clinique prouvée.
Pour tenter de connaître la proportion de ces allergènes parmi l’ensemble des protéines IgE-réactives connues, une interrogation de la base Allergome a été opérée (accès 01/04/07). Cette BDD est très minutieusement mise à jour et contient, entre autres, une échelle d’allergénicité renseignée pour toutes les molécules mémorisées : IgE-immunoblotting, (quantitative) IgE, basophil test, skin test, provocation test.
Seul le niveau « provocation test » peut être assimilé à une condition réaliste et la molécule qui satisfait à ce niveau être déclarée « allergène ». Sinon, on est seulement en présence d’indices d’IgE-réactivité et donc de « protéines IgE-réactives ».
Le graphique ci-dessous montre la répartition des niveaux maxima atteints par les molécules mémorisées dans Allergome (bilan au 01/04/07) :
Le constat est simple : près de 98% des molécules dans Allergome ne sont pas des allergènes !! Même en incluant les réactivités cellulaires (TC, basophiles), on aurait encore près de 80% de molécules pour lesquelles une dénomination de « protéines IgE-réactives » serait plus honnête.
La conséquence la plus immédiate de ce constat est que les BDD qui alimentent les calculs de prédiction d’allergénicité ne sont pas constituées d’allergènes mais plutôt de protéines IgE-réactives.
Et une prédiction d’allergénicité se référant à un collectif au sein duquel très peu de protéines sont des allergènes prouvés cliniquement ne peut aboutir qu’à une conclusion d’utilité très relative : la protéine est plus ou moins à risque d’IgE-réactivité (notamment in vitro) … mais sans que l’on puisse en déduire que des patients en souffriront !
Sachant que les autres tests prévus dans les protocoles de type FAO sont également très critiquables (digestibilité, banques de sérums), le moyen le plus pertinent pour se rapprocher de la réalité clinique serait de mettre au point un modèle animal pour tester les protéines et estimer leur risque de se comporter comme des allergènes .