Piattaforme dati supportate nel Data Science Virtual Machine

Con una Data Science Virtual Machine (DSVM), è possibile creare risorse di analisi su un'ampia gamma di piattaforme dati. Oltre alle interfacce di piattaforme di dati remote, la macchina virtuale per data science offre un'istanza locale per il rapido sviluppo e la creazione di prototipi.

La DSVM supporta questi strumenti di piattaforma dati:

SQL Server Developer Edition

Category	valore
Che cos'è?	Un'istanza locale del database relazionale
Edizioni supportate della DSVM	Windows 2019, Linux (SQL Server 2019)
Usi tipici	Sviluppo rapido in locale con un set di dati più piccolo Eseguire R In-database
Collegamenti agli esempi	Un piccolo esempio di un set di dati di New York City viene caricato nel database SQL: `nyctaxi` Trovare un esempio di Jupyter che mostra Microsoft Machine Learning Server e analisi nel database all'indirizzo: `~notebooks/SQL_R_Services_End_to_End_Tutorial.ipynb`
Strumenti correlati nella DSVM	SQL Server Management Studio Driver ODBC/JDBC pyodbc, RODBC

Note

SQL Server Developer Edition può essere usato solo a scopo di sviluppo e test. È necessaria una licenza o una delle macchine virtuali SQL Server per eseguirla nell'ambiente di produzione.

Note

Il supporto per Machine Learning Server autonomo è terminato il 1° luglio 2021. È stata rimossa dalle immagini DSVM il 30 giugno 2021. Le distribuzioni esistenti continuano ad avere accesso al software, ma il supporto è terminato dopo il 1° luglio 2021.

Note

SQL Server Developer Edition è stato rimosso dalle immagini DSVM a novembre 2021. Le distribuzioni esistenti continuano ad avere installata la SQL Server Developer Edition. Nelle nuove distribuzioni, per accedere a SQL Server Developer Edition, installarla e usarla tramite il supporto docker. Per altre informazioni, visitare Quickstart: Eseguire immagini del contenitore SQL Server con Docker.

Windows

Configurazione

Il server di database è già preconfigurato e i servizi di Windows correlati a SQL Server (ad esempio, SQL Server (MSSQLSERVER)) vengono impostati per l'esecuzione automatica. L'unico passaggio manuale prevede l'abilitazione dell'analisi nel database tramite l'uso di Microsoft Machine Learning Server. Eseguire il comando seguente per abilitare l'analisi come azione una tantum in SQL Server Management Studio (SSMS). Eseguire questo comando dopo aver eseguito l'accesso come amministratore del computer, aprire una nuova query in SSMS e selezionare il database master:

CREATE LOGIN [%COMPUTERNAME%\SQLRUserGroup] FROM WINDOWS

(Sostituire %COMPUTERNAME% con il nome della macchina virtuale.)

Per eseguire SQL Server Management Studio, è possibile cercare "SQL Server Management Studio" nell'elenco dei programmi oppure usare Windows Ricerca per trovarlo ed eseguirlo. Quando vengono richieste le credenziali, selezionare Windows Authentication e usare il nome del computer o localhost nel campo SQL Server Name.

Come usarlo ed eseguirlo

Il server di database con l'istanza del database predefinito viene eseguito automaticamente per impostazione predefinita. È possibile usare strumenti come SQL Server Management Studio nella macchina virtuale per accedere al database SQL Server in locale. Gli account degli amministratori locali dispongono di accesso come amministratore al database.

Inoltre, la DSVM include driver ODBC e JDBC per comunicare con

SQL Server
database di Azure SQL
Risorse di Azure Synapse Analytics provenienti da applicazioni scritte in più linguaggi, tra cui Python e Machine Learning Server.

Come viene configurata e installata su DSVM?

SQL Server viene installato nel modo standard. È possibile trovarlo in C:\Program Files\Microsoft SQL Server. È possibile trovare l'istanza del server Machine Learning nel database in C:\Program Files\Microsoft SQL Server\MSSQL13.MSSQLSERVER\R_SERVICES. La DSVM dispone anche di un'istanza autonoma Machine Learning Server, installata in C:\Program Files\Microsoft\R Server\R_SERVER. Queste due istanze di Machine Learning Server non condividono le librerie.

Ubuntu

Prima di usarlo, è necessario installare SQL Server Developer Edition in una DSVM Ubuntu. Per altre informazioni, visitare Quickstart: Installare SQL Server e creare un database in Ubuntu.

Apache Spark 2.x (autonomo)

Category	valore
Che cos'è?	Un'istanza autonoma, ovvero un nodo singolo in-process, della nota piattaforma Apache Spark, un sistema per la rapida elaborazione di dati su larga scala e il processo di machine learning
Edizioni supportate della DSVM	Linux
Usi tipici	Sviluppo rapido di applicazioni Spark/PySpark in locale con un set di dati più piccolo e successiva distribuzione in cluster Spark di grandi dimensioni, ad esempio Azure HDInsight Testare il contesto spark del server Microsoft Machine Learning Usare SparkML o la libreria Microsoft open source MMLSpark per compilare applicazioni ML
Collegamenti agli esempi	Esempio Jupyter: ~/notebooks/SparkML/pySpark ~/notebooks/MMLSpark Microsoft Machine Learning Server (contesto Spark): /dsvm/samples/MRS/MRSSparkContextSample.R
Strumenti correlati nella DSVM	PySpark, Scala Jupyter (Spark/PySpark Kernels) Microsoft Machine Learning Server, SparkR, Sparklyr Apache Drill

Modalità d'uso

È possibile eseguire il comando spark-submit o pyspark per inviare processi Spark nella riga di comando. È anche possibile creare un nuovo notebook con il kernel Spark per creare un Jupyter Notebook.

Per usare Spark da R, usare librerie come SparkR, Sparklyr e Microsoft Machine Learning Server, disponibili nella DSVM. Vedere i collegamenti agli esempi nella tabella precedente.

Configurazione

Prima di eseguire in un contesto Spark in Microsoft Machine Learning Server in Ubuntu Linux DSVM Edition, è necessario completare un passaggio di configurazione monouso per abilitare un'istanza hadoop HDFS e Yarn a nodo singolo locale. Per impostazione predefinita, i servizi Hadoop sono installati ma disabilitati su DSVM. Per abilitarli, la prima volta eseguire i comandi seguenti come radice:

echo -e 'y\n' | ssh-keygen -t rsa -P '' -f ~hadoop/.ssh/id_rsa
cat ~hadoop/.ssh/id_rsa.pub >> ~hadoop/.ssh/authorized_keys
chmod 0600 ~hadoop/.ssh/authorized_keys
chown hadoop:hadoop ~hadoop/.ssh/id_rsa
chown hadoop:hadoop ~hadoop/.ssh/id_rsa.pub
chown hadoop:hadoop ~hadoop/.ssh/authorized_keys
systemctl start hadoop-namenode hadoop-datanode hadoop-yarn

Per arrestare i servizi correlati a Hadoop quando non sono necessari, eseguire systemctl stop hadoop-namenode hadoop-datanode hadoop-yarn.

Un esempio che illustra come sviluppare e testare MRS in un contesto Spark remoto, ovvero l'istanza di Spark autonoma nel DSVM, è disponibile nella directory /dsvm/samples/MRS.

Come viene configurata e installata su DSVM?

Piattaforma	Percorso di installazione ($SPARK_HOME)
Linux	/dsvm/tools/spark-X.X.X-bin-hadoopX.X

Le librerie per accedere ai dati da Azure Blob Storage o da Azure Data Lake Storage, utilizzando le librerie di machine learning Microsoft MMLSpark, sono preinstallate in $SPARK_HOME/jars. Questi file JAR vengono caricati automaticamente all'avvio di Spark. Per impostazione predefinita, Spark usa dati situati sul disco locale.

L'istanza di Spark nella DSVM può accedere ai dati archiviati nell'archivio BLOB o Azure Data Lake Storage. È prima necessario creare e configurare il file core-site.xml in base al modello in $SPARK_HOME/conf/core-site.xml.template. È anche necessario disporre delle credenziali appropriate per accedere all'archiviazione BLOB e Azure Data Lake Storage. I file modello usano segnaposti per l'archiviazione Blob e le configurazioni di Azure Data Lake Storage.

Per altre informazioni sulla creazione di credenziali del servizio Azure Data Lake Storage, visitare Authentication con Azure Data Lake Storage Gen1. Dopo aver immesso le credenziali per l'archiviazione BLOB o Azure Data Lake Storage nel file core-site.xml, è possibile fare riferimento ai dati archiviati in tali origini tramite il prefisso URI di wasb:// o adl://.

Commenti e suggerimenti

Questa pagina è stata utile?

Last updated on 2026-04-10

Condividi tramite

Piattaforme dati supportate nel Data Science Virtual Machine

SQL Server Developer Edition

Windows

Configurazione

Come usarlo ed eseguirlo

Come viene configurata e installata su DSVM?

Ubuntu

Apache Spark 2.x (autonomo)

Modalità d'uso

Configurazione

Come viene configurata e installata su DSVM?

Commenti e suggerimenti

Risorse aggiuntive