Machine-learning-model bietet einen detaillierten Einblick auf Proteine

Ein neuartiges machine-learning ‚toolbox‘, die können Lesen und analysieren die Sequenzen von Proteinen beschrieben worden, und heute in der open-access-Zeitschrift eLife.

Die Studie zeigt, dass die, wenn ausgebildet, zu Lesen sequence data, künstliche neuronale Netze genannt Restricted Boltzmann Machines (RBM) können eine fülle von Informationen über protein-Struktur, Funktion und evolutionären Funktionen. Es wird angenommen, dass die erste Methode, die Sie extrahieren können dieses Maß an detail aus Sequenzdaten allein.

Proteine gebildet werden Sequenzen von Molekülen, den sogenannten Aminosäuren, die festlegen, wie ein bestimmtes protein der strukturellen und funktionellen Eigenschaften. Aber das Verständnis, welche Teile der Sequenzen, die verantwortlich sind für die Eigenschaften ist eine Herausforderung. „Die Beantwortung dieser Frage könnte wichtige Konsequenzen für die pharmazeutische Entwicklung“, erklärt co-Autor Jérômir Tubiana, ehemaliger Doktorand in der Physik-Labor l’École Normale Supérieure (ENS), Paris, Frankreich. „Beispielsweise könnte es helfen, mit dem design von neuen Proteinen, die gewünschten Funktionen, oder mit der Vorhersage der Zukunft-Sequenz evolution von Proteinen in lebenden Organismen, wie pathogene, und die Ermittlung geeigneter targets.“

Um dieser Frage nachzugehen, Tubiana und seine Mitarbeiter angewendet RBM-20 protein-Familien ‚ – eine Gruppe von Proteinen, die einen gemeinsamen evolutionären Ursprung. Die Forscher präsentierten detaillierte Ergebnisse für die vier protein-Familien, darunter zwei kurze protein-Domänen namens Kunitz und WW, die eine lange Chaperon-protein namens Hsp70 und synthetische Gitter Proteine, die für das benchmarking.

Sie entdeckten, dass, nach dem lernen, werden die verbindungen zwischen den künstlichen Neuronen in der RBM sind interpretierbar und beziehen sich auf die protein-Struktur, der Funktion (z.B. Aktivität), oder Phylogenie — die evolutionären Beziehungen zwischen protein-Sequenzen. Darüber hinaus fand das team, dass Sie verwenden konnte, RBM, um neue protein-Sequenzen komponiert und drehen nach oben oder unten die verschiedenen künstlichen neuronalen Einheiten.

„Unser RBM-Modell zeigt, wie machine-learning-Techniken können bei der Lösung komplexer Daten die Anerkennung und Schlussfolgerungen aus Daten in einer interpretierbaren Weise“, sagt co-Autorin Simona Cocco, CNRS-Direktor der Forschung an der ENS Physik-Labor. „Dies ist gegenläufig zu den komplexeren, black-box-Modelle, die traditionell in Daten Wissenschaft, wie statistische Analysen, die diese tools sind weitgehend uninterpretable. Die Interpretierbarkeit von unserer Methode ist ein großer Vorteil für die Wissenschaftler-es trägt das Versprechen, dass Sie zu erzeugen, um Proteine mit den gewünschten Funktionen in einer kontrollierten Art und Weise.“

„Es wird jetzt interessant sein, unser Modell zu Proteinen in Krankheitserregern“, ergänzt senior-Autor Rémi Monasson, auch CNRS Direktor der Forschung an der ENS Physik-Labor, und der stellvertretende Leiter der Henri-Poincaré Institute (CNRS/Sorbonne), Frankreich. „Krankheitserreger, insbesondere Viren, können Häufig entkommen Drogen durch Mutationen, die machen Behandlungen wirkungslos. Unsere Methode könnte verwendet werden, um vorherzusagen, die mutational Flucht Wege, die zugänglich sind, um das funktionelle protein von der aktuellen Folge, und identifizieren, welche Kombination von protein-sites sollten gezielt durch Medikamente zu blockieren alle Wege.“