Abstract: | Anfrageoptimierer in modernen Datenbanksystemen (DBS) verwenden ein Kostenmodell, um für eine Anfrage einen effizienten Zugriffsplan
aus der Menge aller m?glichen Zugriffspl?ne auszuw?hlen. Die Genauigkeit, mit der diese Kosten gesch?tzt werden, h?ngt stark
davon ab, wie genau Statistiken über die Datenverteilung die ihnen zugrunde liegenden Daten modellieren. Veraltete Statistiken,
oder ungültige Annahmen im statistischen Modell, führen h?ufig zur Auswahl suboptimaler Zugriffspl?ne und dadurch zu Defiziten
bei der Ausführungsgeschwindigkeit von Datenbankanfragen. F?derierte Systeme müssen auf dem koordinierenden DBS Statistiken
über verteilte Daten unterhalten, um effiziente Zugriffspl?ne zu entwickeln, wenn Daten aus verschiedenen Datenquellen zusammengeführt
werden. Fehlerhafte Statistiken verursachen in diesem Fall schlechte Lastenverteilung sowie zus?tzlichen Kommunikationsaufwand
und Netzlast. Die Synchronisation dieser zus?tzlichen Statistiken mit den Statistiken der entfernten Datenquellen ist problematisch,
da Datenquellen v?llig unabh?ngig voneinander sind und ihre Statistiken eventuell nicht externalisieren oder inkompatible
bzw. andere statistische Modelle verwenden als das koordinierende DBS. Im folgenden zeigen wir eine Erweiterung der Feedback-Schleife
von DB2s lernendem Optimierer (LEO) auf f?derierte Architekturen, die es LEO erm?glicht, automatisch Statistiken über Daten
auf entfernten Datenquellen zu lernen und zu verwalten. Wir diskutieren mehrere M?glichkeiten, Feedback für f?derierte Anfragen
zu erhalten und stellen einen L?sung vor, die lokales Feedback verwendet, und einen Stichprobenprozess (statistical sampling)
zu steuren, der die ben?tigten entfernten Daten basierend auf dem Feedback effizient ermittelt. Mittels einer detaillierten
Leistungsanalyse der vorgestellten M?glichkeiten im Rahmen einer Fallstudie belegen wir, dass der potenzielle Geschwindigkeitszuwachs
für Datenbankanfragen sehr hoch ist, w?hrend die Zusatzbelastung durch LEO in moderaten Grenzen liegt. |