Freigeben über


Auf dem Data Science Virtual Machine unterstützte Datenplattformen

Mit einem Data Science Virtual Machine (DSVM) können Sie Ihre Analyseressourcen für eine Vielzahl von Datenplattformen erstellen. Neben Schnittstellen für Remotedatenplattformen bietet die DSVM eine lokale Instanz für eine schnelle Entwicklung und Prototypenerstellung.

Die DSVM unterstützt diese Datenplattformtools:

SQL Server Developer Edition

Category Wert
Was ist das? Eine lokale Instanz einer relationalen Datenbank
Unterstützte DSVM-Editionen Windows 2019, Linux (SQL Server 2019)
Typische Verwendung
  • Schnelle lokale Entwicklung mit einem kleineren Dataset
  • Ausführen von R (datenbankintern)
Links zu Beispielen
  • In die SQL-Datenbank wird ein kleiner Teil des New York City-Datasets geladen:
    nyctaxi
  • Hier finden Sie ein Jupyter-Beispiel, das Microsoft Machine Learning Server- und Datenbankanalyse zeigt:
    ~notebooks/SQL_R_Services_End_to_End_Tutorial.ipynb
Verwandte Tools auf der DSVM
  • SQL Server Management Studio
  • ODBC/JDBC-Treiber
  • pyodbc, RODBC

Hinweis

SQL Server Developer Edition kann nur für Entwicklungs- und Testzwecke verwendet werden. Sie benötigen eine Lizenz oder eine der SQL Server virtuellen Computer, um sie in der Produktion auszuführen.

Hinweis

Der Support für Machine Learning Server Standalone endete am 1. Juli 2021. Sie wurde am 30. Juni 2021 aus den DSVM-Bildern entfernt. Vorhandene Bereitstellungen haben weiterhin Zugriff auf die Software, aber der Support endete nach dem 1. Juli 2021.

Hinweis

SQL Server Developer Edition wurde am November 2021 aus DSVM-Bildern entfernt. Vorhandene Bereitstellungen haben weiterhin SQL Server Developer Edition installiert. In neuen Bereitstellungen, um auf SQL Server Developer Edition zuzugreifen, installieren und verwenden Sie sie über die Docker-Unterstützung. Besuchen Sie Quickstart: Führen Sie SQL Server Containerimages mit Docker aus, um weitere Informationen zu erfahren.

Windows

Einrichten

Der Datenbankserver ist bereits vorkonfiguriert, und die Windows Dienste im Zusammenhang mit SQL Server (z. B. SQL Server (MSSQLSERVER)) werden automatisch ausgeführt. Der einzige manuelle Schritt umfasst die Aktivierung der In-Database-Analyse mithilfe von Microsoft Machine Learning Server. Führen Sie den folgenden Befehl aus, um Analysen als einmalige Aktion in SQL Server Management Studio (SSMS) zu aktivieren. Führen Sie diesen Befehl aus, nachdem Sie sich als Computeradministrator angemeldet haben, öffnen Sie eine neue Abfrage in SSMS, und wählen Sie die Datenbank master aus:

CREATE LOGIN [%COMPUTERNAME%\SQLRUserGroup] FROM WINDOWS 

(Ersetzen Sie „%COMPUTERNAME%“ durch den Namen Ihres virtuellen Computers.)

Um SQL Server Management Studio auszuführen, können Sie in der Programmliste nach "SQL Server Management Studio" suchen oder Windows Suchen verwenden, um sie zu finden und auszuführen. Wenn Sie zur Eingabe von Anmeldeinformationen aufgefordert werden, wählen Sie Windows Authentifizierung aus, und verwenden Sie entweder den Computernamen oder localhost im Feld SQL Server Name.

Verwenden und Ausführen

Standardmäßig wird der Datenbankserver mit der Datenbankstandardinstanz automatisch ausgeführt. Sie können Tools wie SQL Server Management Studio auf dem virtuellen Computer verwenden, um lokal auf die SQL Server-Datenbank zuzugreifen. Die Konten lokaler Administratoren verfügen über Administratorzugriff auf die Datenbank.

Außerdem wird DSVM mit ODBC- und JDBC-Treibern geliefert, zur Kommunikation mit

  • SQL Server
  • Azure SQL Datenbanken
  • Azure Synapse Analytics-Ressourcen aus Anwendungen, die in verschiedenen Programmiersprachen wie Python und dem Machine Learning Server geschrieben wurden.

Konfiguration und Installation auf der DSVM

SQL Server wird standardmäßig installiert. Sie finden es unter C:\Program Files\Microsoft SQL Server. Sie finden die In-Database-Machine Learning Serverinstanz unter C:\Program Files\Microsoft SQL Server\MSSQL13.MSSQLSERVER\R_SERVICES. Der DSVM verfügt auch über eine separate eigenständige Machine Learning Serverinstanz, die unter C:\Program Files\Microsoft\R Server\R_SERVER installiert ist. Diese beiden Machine Learning Serverinstanzen teilen keine Bibliotheken.

Ubuntu

Sie müssen zuerst SQL Server Developer Edition auf einem Ubuntu DSVM installieren, bevor Sie sie verwenden. Besuchen Sie Quickstart: Installieren Sie SQL Server, und erstellen Sie eine Datenbank auf Ubuntu um weitere Informationen zu erfahren.

Apache Spark 2.x (eigenständige Instanz)

Category Wert
Was ist das? Eine eigenständige Instanz (einzelner In-Process-Knoten) der beliebten Apache Spark-Plattform – einem System für die schnelle Verarbeitung umfangreicher Daten und für Machine Learning
Unterstützte DSVM-Editionen Linux
Typische Verwendung
  • Schnelle Entwicklung von Spark/PySpark-Anwendungen lokal mit einem kleineren Dataset und späterer Bereitstellung auf großen Spark-Clustern wie Azure HDInsight
  • Testen des Microsoft Machine Learning Server Spark-Kontextes
  • Verwenden sie SparkML oder die Microsoft Open-Source-MMLSparkBibliothek zum Erstellen von ML-Anwendungen
Links zu Beispielen Jupyter-Beispiel:
  • ~/notebooks/SparkML/pySpark
  • ~/notebooks/MMLSpark

Microsoft Machine Learning Server (Spark context): /dsvm/samples/MRS/MRSSparkContextSample.R

Verwandte Tools auf der DSVM
  • PySpark, Scala
  • Jupyter (Spark-/PySpark-Kernel)
  • Microsoft Machine Learning Server, SparkR, Sparklyr
  • Apache Drill

Verwendung

Sie können den Befehl spark-submit oder pyspark ausführen, um Spark-Aufträge über die Befehlszeile zu übermitteln. Sie können auch ein neues Notebook mit dem Spark-Kernel erstellen, um ein Jupyter Notebook zu erstellen.

Um Spark von R zu verwenden, verwenden Sie Bibliotheken wie SparkR, Sparklyr und Microsoft Machine Learning Server, die auf dem DSVM verfügbar sind. Links zu Beispielen finden Sie in der obigen Tabelle.

Einrichten

Bevor Sie einen Spark-Kontext innerhalb des Microsoft Machine Learning Servers auf der Ubuntu Linux DSVM Edition ausführen, müssen Sie einen einmaligen Einrichtungsschritt abschließen, um eine lokale Einzelknoten-Hadoop-HDFS- und Yarn-Instanz zu aktivieren. Standardmäßig gilt, dass die Hadoop-Dienste installiert, aber auf der DSVM deaktiviert sind. Um sie zu aktivieren, müssen Sie diese Befehle beim ersten Mal als „root“ ausführen:

echo -e 'y\n' | ssh-keygen -t rsa -P '' -f ~hadoop/.ssh/id_rsa
cat ~hadoop/.ssh/id_rsa.pub >> ~hadoop/.ssh/authorized_keys
chmod 0600 ~hadoop/.ssh/authorized_keys
chown hadoop:hadoop ~hadoop/.ssh/id_rsa
chown hadoop:hadoop ~hadoop/.ssh/id_rsa.pub
chown hadoop:hadoop ~hadoop/.ssh/authorized_keys
systemctl start hadoop-namenode hadoop-datanode hadoop-yarn

Um die Hadoop-bezogenen Dienste zu beenden, wenn Sie sie nicht mehr benötigen, führen Sie systemctl stop hadoop-namenode hadoop-datanode hadoop-yarn aus.

Ein Beispiel, in dem gezeigt wird, wie MRS in einem Spark-Remotekontext (die eigenständige Spark-Instanz auf der DSVM) entwickelt und getestet wird, wird im Verzeichnis /dsvm/samples/MRS bereitgestellt und ist dort verfügbar.

Konfiguration und Installation auf der DSVM

Plattform Installationsort ($SPARK_HOME)
Linux /dsvm/tools/spark-X.X.X-bin-hadoopX.X

Bibliotheken für den Zugriff auf Daten aus Azure Blob Storage oder Azure Data Lake Storage mithilfe der Microsoft MMLSpark Machine-Learning-Bibliotheken werden in $SPARK_HOME/jars vorinstalliert. Diese JAR-Dateien werden beim Start von Spark automatisch geladen. Standardmäßig verwendet Spark Daten, die sich auf dem lokalen Datenträger befinden.

Die Spark-Instanz auf dem DSVM kann auf Daten zugreifen, die in Blob Storage oder Azure Data Lake Storage gespeichert sind. Sie müssen zuerst die Datei core-site.xml erstellen und konfigurieren, basierend auf der Vorlage in $SPARK_HOME/conf/core-site.xml.template. Sie müssen auch über die entsprechenden Anmeldeinformationen verfügen, um auf Blob Storage und Azure Data Lake Storage zuzugreifen. Die Vorlagendateien verwenden Platzhalter für Blob-Speicher und Azure Data Lake Storage Konfigurationen.

Weitere Informationen zum Erstellen der Dienstanmeldeinformationen für Azure Data Lake Storage finden Sie unter Authentifizierung mit Azure Data Lake Storage Gen1. Nachdem Sie die Anmeldeinformationen für Blob Storage oder Azure Data Lake Storage in der datei core-site.xml eingegeben haben, können Sie über das URI-Präfix wasb:// oder adl:// auf die in diesen Quellen gespeicherten Daten verweisen.