Nota
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare ad accedere o modificare le directory.
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare a modificare le directory.
Con una Data Science Virtual Machine (DSVM), è possibile creare risorse di analisi su un'ampia gamma di piattaforme dati. Oltre alle interfacce di piattaforme di dati remote, la macchina virtuale per data science offre un'istanza locale per il rapido sviluppo e la creazione di prototipi.
La DSVM supporta questi strumenti di piattaforma dati:
SQL Server Developer Edition
| Category | valore |
|---|---|
| Che cos'è? | Un'istanza locale del database relazionale |
| Edizioni supportate della DSVM | Windows 2019, Linux (SQL Server 2019) |
| Usi tipici |
|
| Collegamenti agli esempi |
|
| Strumenti correlati nella DSVM |
|
Note
SQL Server Developer Edition può essere usato solo a scopo di sviluppo e test. È necessaria una licenza o una delle macchine virtuali SQL Server per eseguirla nell'ambiente di produzione.
Note
Il supporto per Machine Learning Server autonomo è terminato il 1° luglio 2021. È stata rimossa dalle immagini DSVM il 30 giugno 2021. Le distribuzioni esistenti continuano ad avere accesso al software, ma il supporto è terminato dopo il 1° luglio 2021.
Note
SQL Server Developer Edition è stato rimosso dalle immagini DSVM a novembre 2021. Le distribuzioni esistenti continuano ad avere installata la SQL Server Developer Edition. Nelle nuove distribuzioni, per accedere a SQL Server Developer Edition, installarla e usarla tramite il supporto docker. Per altre informazioni, visitare Quickstart: Eseguire immagini del contenitore SQL Server con Docker.
Windows
Configurazione
Il server di database è già preconfigurato e i servizi di Windows correlati a SQL Server (ad esempio, SQL Server (MSSQLSERVER)) vengono impostati per l'esecuzione automatica. L'unico passaggio manuale prevede l'abilitazione dell'analisi nel database tramite l'uso di Microsoft Machine Learning Server. Eseguire il comando seguente per abilitare l'analisi come azione una tantum in SQL Server Management Studio (SSMS). Eseguire questo comando dopo aver eseguito l'accesso come amministratore del computer, aprire una nuova query in SSMS e selezionare il database master:
CREATE LOGIN [%COMPUTERNAME%\SQLRUserGroup] FROM WINDOWS
(Sostituire %COMPUTERNAME% con il nome della macchina virtuale.)
Per eseguire SQL Server Management Studio, è possibile cercare "SQL Server Management Studio" nell'elenco dei programmi oppure usare Windows Ricerca per trovarlo ed eseguirlo. Quando vengono richieste le credenziali, selezionare Windows Authentication e usare il nome del computer o localhost nel campo SQL Server Name.
Come usarlo ed eseguirlo
Il server di database con l'istanza del database predefinito viene eseguito automaticamente per impostazione predefinita. È possibile usare strumenti come SQL Server Management Studio nella macchina virtuale per accedere al database SQL Server in locale. Gli account degli amministratori locali dispongono di accesso come amministratore al database.
Inoltre, la DSVM include driver ODBC e JDBC per comunicare con
- SQL Server
- database di Azure SQL
- Risorse di Azure Synapse Analytics provenienti da applicazioni scritte in più linguaggi, tra cui Python e Machine Learning Server.
Come viene configurata e installata su DSVM?
SQL Server viene installato nel modo standard. È possibile trovarlo in C:\Program Files\Microsoft SQL Server. È possibile trovare l'istanza del server Machine Learning nel database in C:\Program Files\Microsoft SQL Server\MSSQL13.MSSQLSERVER\R_SERVICES. La DSVM dispone anche di un'istanza autonoma Machine Learning Server, installata in C:\Program Files\Microsoft\R Server\R_SERVER. Queste due istanze di Machine Learning Server non condividono le librerie.
Ubuntu
Prima di usarlo, è necessario installare SQL Server Developer Edition in una DSVM Ubuntu. Per altre informazioni, visitare Quickstart: Installare SQL Server e creare un database in Ubuntu.
Apache Spark 2.x (autonomo)
| Category | valore |
|---|---|
| Che cos'è? | Un'istanza autonoma, ovvero un nodo singolo in-process, della nota piattaforma Apache Spark, un sistema per la rapida elaborazione di dati su larga scala e il processo di machine learning |
| Edizioni supportate della DSVM | Linux |
| Usi tipici |
|
| Collegamenti agli esempi | Esempio Jupyter:
Microsoft Machine Learning Server (contesto Spark): /dsvm/samples/MRS/MRSSparkContextSample.R |
| Strumenti correlati nella DSVM |
|
Modalità d'uso
È possibile eseguire il comando spark-submit o pyspark per inviare processi Spark nella riga di comando. È anche possibile creare un nuovo notebook con il kernel Spark per creare un Jupyter Notebook.
Per usare Spark da R, usare librerie come SparkR, Sparklyr e Microsoft Machine Learning Server, disponibili nella DSVM. Vedere i collegamenti agli esempi nella tabella precedente.
Configurazione
Prima di eseguire in un contesto Spark in Microsoft Machine Learning Server in Ubuntu Linux DSVM Edition, è necessario completare un passaggio di configurazione monouso per abilitare un'istanza hadoop HDFS e Yarn a nodo singolo locale. Per impostazione predefinita, i servizi Hadoop sono installati ma disabilitati su DSVM. Per abilitarli, la prima volta eseguire i comandi seguenti come radice:
echo -e 'y\n' | ssh-keygen -t rsa -P '' -f ~hadoop/.ssh/id_rsa
cat ~hadoop/.ssh/id_rsa.pub >> ~hadoop/.ssh/authorized_keys
chmod 0600 ~hadoop/.ssh/authorized_keys
chown hadoop:hadoop ~hadoop/.ssh/id_rsa
chown hadoop:hadoop ~hadoop/.ssh/id_rsa.pub
chown hadoop:hadoop ~hadoop/.ssh/authorized_keys
systemctl start hadoop-namenode hadoop-datanode hadoop-yarn
Per arrestare i servizi correlati a Hadoop quando non sono necessari, eseguire systemctl stop hadoop-namenode hadoop-datanode hadoop-yarn.
Un esempio che illustra come sviluppare e testare MRS in un contesto Spark remoto, ovvero l'istanza di Spark autonoma nel DSVM, è disponibile nella directory /dsvm/samples/MRS.
Come viene configurata e installata su DSVM?
| Piattaforma | Percorso di installazione ($SPARK_HOME) |
|---|---|
| Linux | /dsvm/tools/spark-X.X.X-bin-hadoopX.X |
Le librerie per accedere ai dati da Azure Blob Storage o da Azure Data Lake Storage, utilizzando le librerie di machine learning Microsoft MMLSpark, sono preinstallate in $SPARK_HOME/jars. Questi file JAR vengono caricati automaticamente all'avvio di Spark. Per impostazione predefinita, Spark usa dati situati sul disco locale.
L'istanza di Spark nella DSVM può accedere ai dati archiviati nell'archivio BLOB o Azure Data Lake Storage. È prima necessario creare e configurare il file core-site.xml in base al modello in $SPARK_HOME/conf/core-site.xml.template. È anche necessario disporre delle credenziali appropriate per accedere all'archiviazione BLOB e Azure Data Lake Storage. I file modello usano segnaposti per l'archiviazione Blob e le configurazioni di Azure Data Lake Storage.
Per altre informazioni sulla creazione di credenziali del servizio Azure Data Lake Storage, visitare Authentication con Azure Data Lake Storage Gen1. Dopo aver immesso le credenziali per l'archiviazione BLOB o Azure Data Lake Storage nel file core-site.xml, è possibile fare riferimento ai dati archiviati in tali origini tramite il prefisso URI di wasb:// o adl://.