Merging-Zelle datasets, panorama-Stil: Algorithmus Stiche, mehrere Datensätze in eine einzelne ‚panorama‘, das kann neue Erkenntnisse für medizinische und biologische Studien.

Ein neuer Algorithmus entwickelt, durch die MIT-Forscher nimmt Hinweise aus der Panorama-Fotografie zu verschmelzen massiven, vielfältigen Zell-datasets in einer einzigen Quelle, die verwendet werden können für medizinische und biologische Studien.

Single-cell-datasets Profil der gen-Expressionen von humanen Zellen — wie ein Neuronen, Muskeln und Zellen des Immunsystems, — zu gewinnen Einsicht in die menschliche Gesundheit und die Behandlung von Krankheiten. Datensätze produziert werden, die durch eine Reihe von Laboren und Technologien, und enthalten extrem unterschiedlichen Zelltypen. Die Kombination dieser Datensätze in einem einzigen Daten-pool eröffnen neue Forschungsmöglichkeiten, aber das ist schwer zu tun, effektiv und effizient.

Traditionelle Methoden neigen dazu, cluster von Zellen zusammen, basierend auf nonbiological Muster-wie durch lab oder Technologien — oder versehentlich Zusammenführen von unterschiedlichen Zellen, die die gleiche angezeigt. Methoden, diese Fehler zu korrigieren nicht gut skaliert auf große Datenmengen und verlangen, dass alle zusammengeführten Datensätze teilen mindestens einer gemeinsamen Zelle.

In einem Papier veröffentlicht heute in Nature Biotechnology, der MIT-Forscher beschreiben einen Algorithmus, der effizient Zusammenführen von mehr als 20 Datensätze von stark unterschiedlichen Zelltypen in einer größeren „panorama.“ Der Algorithmus, genannt „Scanorama“ automatisch findet und Stiche miteinander geteilt Zelltypen zwischen zwei datasets — wie die Kombination von überlappenden Pixeln in Bildern zu erzeugen, ein Panorama-Foto.

So lange, wie jeder andere Datensatz Aktien einen Zelltyp mit einem dataset in das fertige panorama, es können auch zusammengeführt werden. Aber alle Datensätze brauchen nicht auf einen Zelltyp gemeinsam. Der Algorithmus behält alle Zelltypen spezifisch zu jedem Datensatz.

„Die traditionellen Methoden der Kraft der Zellen zu richten, unabhängig davon, was die Zelltypen sind. Erstellen Sie ein blob ohne Struktur, und Sie verlieren alle interessanten biologischen Unterschiede“, sagt Brian Hie, ein Doktorand in der Computer Science and Artificial Intelligence Laboratory (CSAIL) und ein Forscher in der Berechnung und in der Biologie-Gruppe. „Sie geben Scanorama-datasets, die nicht ausrichten zusammen, und der Algorithmus wird trennen Sie die Datensätze nach biologischen Unterschiede.“

In Ihrem Papier die Forscher erfolgreich zusammengeführt mehr als 100.000 Zellen aus 26 verschiedenen datasets enthält eine Vielzahl von menschlichen Zellen, die Schaffung eines einzigen, vielfältigen Quelle der Daten. Mit traditionellen Methoden, das würde in etwa einen Tag im Wert von Berechnung, aber Scanorama abgeschlossen die Aufgabe in etwa 30 Minuten. Die Forscher sagen, die Arbeit repräsentiert die höchste Anzahl von Datensätzen je zusammengeführt.

Beitritt Hie auf dem Papier sind: Bonnie Berger, Simons, Professor für Mathematik am MIT, professor für Elektrotechnik und informatik und Leiter des Rechen-und Biologie-Gruppe; und Bryan Bryson, eine MIT-assistant professor of biological engineering.

Die Verknüpfung „gegenseitige Nachbarn“

Menschen haben Hunderte von Kategorien und Unterkategorien von Zellen, und jede Zelle drückt einen unterschiedlichen Satz von Genen. Techniken wie die RNA-Sequenzierung erfassen, dass die Informationen im großen multidimensionalen Raum. Zellen sind Punkte, die verstreut den Raum, und jede dimension entspricht der Ausdruck eines anderen Gens.

Scanorama läuft eine modifizierte computer-vision-Algorithmus, genannt „gegenseitige nächste-Nachbarn-matching“, mit dem man die nächsten (ähnlichsten) Punkte in zwei computational spaces. Entwickelt CSAIL, der Algorithmus wurde ursprünglich verwendet, um Pixel mit passenden Merkmalen wie Farbe Ebenen — im unterschiedlichen Fotos. Das könnte helfen, Computer-Spiel patch der Pixel repräsentiert ein Objekt in einem Bild, um den gleichen patch der Pixel in einem anderen Bild, wo die position des Objekts wurde drastisch verändert. Es könnte auch verwendet werden für das Nähen von sehr unterschiedlichen Bilder zusammen in einem panorama.

Die Forscher aufbereiten der Algorithmus zum finden von Zellen mit überlappenden gene expression — statt der überlappenden pixel verfügt-und in mehreren Datensätzen anstelle von zwei. Das Niveau der Genexpression in einer Zelle bestimmt Ihre Funktion und Ihren Ort in der computational Raum. Wenn gestapelt übereinander, die Zellen mit ähnlichen gen-expression, auch wenn Sie aus unterschiedlichen Datensätzen, in etwa in den gleichen Positionen.

Für jedes dataset, Scanorama ersten links, die jede Zelle in einem dataset zu seinen nächsten Nachbarn unter allen Datensätzen, das heißt, Sie werden wahrscheinlich mit ähnlichen Standorten. Aber der Algorithmus behält nur links, wo Zellen in beiden Datensätzen sind einander die nächsten Nachbarn — eine gegenseitige link. Zum Beispiel, wenn Zelle A die nächste Nachbar-Zelle B und Zelle B-Zelle Ein, es ist ein keeper. Wenn jedoch Zelle B s Nächster Nachbar ist eine separate Zelle C, dann wird die Verbindung zwischen Zelle A und B werden verworfen.

Halten Beziehungen erhöht die Wahrscheinlichkeit, dass die Zellen, in der Tat, die gleichen Zelltypen. Brechen die nonmutual links, auf der anderen Seite, verhindert Zelltypen spezifisch für jedes dataset aus der Verschmelzung mit falschen Zelltypen. Sobald alle gegenseitigen verbindungen gefunden werden, der Algorithmus Stiche alle dataset-Sequenzen zusammen. Dabei vereint es die gleichen Zelltypen, sondern hält Zelltypen einzigartig für beliebige Datensätze getrennt von den zusammengeführten Zellen. „Die gegenseitigen verbindungen form-Anker ermöglichen [richtig] die Zellausrichtung über datasets,“ Berger sagt.

Schrumpfen Daten, scaling-up

Um sicherzustellen, Scanorama skaliert auf große Datenmengen, die die Forscher enthalten zwei-Optimierung Techniken. Die erste reduziert die dataset-Dimensionalität. Jede Zelle in einem dataset haben könnten bis zu 20.000 geneexpression und wie viele Dimensionen. Die Forscher genutzt, eine mathematische Technik, die fasst hochdimensionale datenmatrizen mit einer kleinen Anzahl von Funktionen, unter Beibehaltung wichtiger Informationen. Im Grunde, dies führte zu einer um das 100-fache Reduktion in den Dimensionen.

Sie verwendeten auch eine beliebte hashing-Technik zu finden, die nächste gegenseitigen Nachbarn schneller. Traditionell computing auch auf die reduzierten Proben Stunden dauern würde. Aber die hashing-Technik schafft im Grunde die Eimer der nächsten Nachbarn Ihren höchsten Wahrscheinlichkeiten. Der Algorithmus muss nur suchen die höchste Wahrscheinlichkeit Eimer zu finden, die gegenseitigen verbindungen, die reduziert den Suchraum und macht den Prozess viel weniger rechenintensive.

In separaten arbeiten, kombinierten die Forscher Scanorama mit einer anderen Technik, die Sie entwickelt, generiert umfassende Proben-oder „Skizzen“ — der massiven Zelle datasets, die reduziert die Zeit, die der Kombination von mehr als 500.000 Zellen von zwei Stunden bis zu acht Minuten. So zu tun, Sie erzeugt den „geometrischen Skizzen,“ lief Scanorama auf Sie, und extrapoliert, was Sie gelernt haben über die Verschmelzung der geometrischen Skizzen zu den größeren Datensätzen. Diese Technik leitet sich von der Druckfestigkeit der Genomik, der entwickelt wurde, durch die Berger-Gruppe.

„Auch wenn Sie brauchen, um zu skizzieren, integrieren und anwenden, Informationen zu den vollständigen Datensätzen, es war immer noch eine Größenordnung schneller als die Kombination gesamten datasets“ Hie sagt.