Cadre de lecture ouvertEn génétique moléculaire, un cadre de lecture ouvert, ou phase ouverte de lecture (open reading frame ou ORF en anglais), est une partie d'un cadre de lecture délimité par deux codons STOP[1], offrant la possibilité d'être transcrit en ARN, puis, potentiellement, traduit en protéine ou en peptide. C'est une suite de codons comprenant le codon-start (généralement On reconnaît le plus souvent les cadres de lecture ouverts qui codent des protéines à leur longueur. Le code génétique comportant 64 codons, dont trois codons stop, la longueur moyenne d'un cadre de lecture ouvert dans une séquence « aléatoire » est d'une vingtaine de codons. Les chaînes protéiques, dont la longueur moyenne est de 300 à 400 résidus d'acides aminés, sont associées à des cadres de lecture ouverts de 300 à 400 codons, qui sont donc facilement reconnaissables par rapport au bruit de fond. Chez les eucaryotes, les gènes contiennent généralement plusieurs exons et introns, de sorte que les cadres de lecture ouverts s'étendent sur plusieurs exons ; ces derniers sont épissés pour en éliminer les introns dans l'ARN messager afin de reconstituer la séquence codante (coding DNA sequence ou CDS en anglais), laquelle est toujours incluse dans un cadre de lecture ouvert avec, à l'amont de la séquence codante, la région 5’ non traduite (5’-UTR) et, en aval de la séquence codante, la région 3’ non traduite (3’-UTR). Les introns peuvent contenir des codons stop et n'ont pas nécessairement une taille divisible par 3. La notion de cadre de lecture ouvert s'applique donc à l'ARNm mature, après épissage. Dans le cadre de la prédiction de gènes, la définition [start - stop] d'un cadre ouvert de lecture est parfois remise en cause, au profit d'une définition [stop - stop][2],[3] jugée plus générale, car pouvant s'appliquer à la recherche d'exons dans les génomes eucaryotes et à l'analyse de gènes/transcrits partiels, obtenus par exemple par séquençage de transcriptomes ou de métagénomes. DescriptionChaque séquence d'ADN peut être lue selon 3 cadres de lecture décalés d'un nucléotide les uns par rapport aux autres (0, +1, +2). Sur l'ADN, il peut y avoir transcription en ARN de l'un ou l'autre des deux brins, ce qui conduit à un total de six cadres de lecture. La recherche des cadres de lecture ouverts a été facilitée par l'apparition d'outils bioinformatiques performants. Cette recherche est plus facile chez les procaryotes que chez les eucaryotes, les gènes de ces derniers étant composés d'une succession d'introns et d'exons. Cadre de lecture ouvert non canoniqueAu côté des cadres de lecture ouverts (ORF) correspondant aux gènes et codant des protéines, on observe dans le génome présumé non codant des cadres de lecture ouverts atypiques, dits « non canoniques » (ncORF) qui codent aussi des peptides, plus ou moins stables et englobés sous la dénomination de « protéome sombre ». En effet, certains ARN transcrits sur ces ncORF sont capables d'interagir avec les ribosomes pour produire de microprotéines. La traduction de ces cadres de lecture ouverts non canoniques « a été observée dans tous les types de cellules humaines et dans tous les états pathologiques, avec des implications majeures pour la protéomique, la génomique et la science clinique. »[4],[5] Une étude panprotéomique montre qu'au moins 25 % d'un ensemble de 7 264 ncORF donnent lieu à des produits géniques traduits, produisant plus de 3 000 peptides. Les progrès de la protéomique, de l’immunopeptidomique, de profilage ribosomique (en) (Ribo-seq) et de l’annotation génétique (en) permettent d'éclaircir le rôle de ces ncORF[5]. Une plateforme permettra de faire progresser la compréhension des implications biomédicales des peptides dérivés de ncORF[6]. Liens externes
Références
|