通过


用于机器学习的 Databricks Runtime 13.3 LTS

Databricks Runtime 13.3 LTS for 机器学习 基于 Databricks Runtime 13.3 LTS 为机器学习和数据科学提供了即用型环境。 Databricks Runtime ML 包含许多常用的机器学习库,包括 TensorFlow、PyTorch 和 XGBoost。 Databricks Runtime ML 包括 AutoML 工具,可用于自动训练机器学习管道。 Databricks Runtime ML 还支持使用 Horovod 进行分布式深度学习训练。

注意

LTS 表示此版本受长期支持。 请参阅 Databricks Runtime LTS 版本生命周期

有关详细信息,包括有关如何创建 Databricks Runtime ML 群集的说明,请参阅 Databricks 上的 AI 和机器学习

提示

若要查看已终止支持 (EoS) 的 Databricks Runtime 版本的发行说明,请参阅终止支持 Databricks Runtime 发行说明。 EoS Databricks Runtime 版本已停用,可能不会更新。

新增功能和改进

Databricks Runtime 13.3 LTS ML 是基于 Databricks Runtime 13.3 LTS 构建的。 有关 Databricks Runtime 13.3 LTS(包括 Apache Spark MLlib 和 SparkR)中的新增功能的信息,请参阅 Databricks Runtime 13.3 LTS 发行说明。

对 Databricks 特征存储的更改

  • Databricks Runtime 13.3 LTS ML 包含功能存储客户端 v0.14.0。 对于客户端版本 0.14.0 及更高版本,必须在primary_keys参数中 指定时间戳键列。 时间戳键是“主键”的一部分,用于唯一标识特征表中的每一行。
  • 现在可以从训练集中排除具有指定时间之前时间戳的特征值。 有关详细信息,请参阅设置历史特征值的时间限制
  • 现在可以在推理过程中按需计算机器学习特征。 特征计算逻辑、模型和数据均受 Unity Catalog 管理。 这使模型能够使用仅在推理时可用的输入(例如用户的当前位置)计算特征。 有关详细信息,请参阅 按需功能计算

系统环境

Databricks Runtime 13.3 LTS ML 中的系统环境与 Databricks Runtime 13.3 LTS 不同,如下所示:

  • DBUtils:Databricks Runtime ML 不包含库实用工具 (dbutils.library)(旧版)。 请改用 %pip 命令。 请参阅 Notebook 范围内的 Python 库
  • 对于 GPU 群集,Databricks Runtime ML 包含以下 NVIDIA GPU 库:
    • CUDA 11.7
    • cuDNN 8.5.0.96-1
    • NCCL 2.15.1
    • TensorRT 7.2.2

Databricks Runtime 13.3 LTS ML 包括 XGBoost 1.7.3,它不支持计算功能 5.2 及以下的 GPU 群集。

miniconda 包已从 Databricks Runtime 13.0 ML 及更高版本中删除。

图书馆

以下部分列出了 Databricks Runtime 13.3 LTS ML 中包含的库,这些库与 Databricks Runtime 13.3 LTS 中包含的不同。

本节内容:

顶层库

Databricks Runtime 13.3 LTS ML 包含以下顶层

Python库

Databricks Runtime 13.3 LTS ML 使用 Virtualenv 进行Python包管理,并包括许多常用的 ML 包。

除了在以下部分中指定的包,Databricks Runtime 13.3 LTS ML 还包含以下包:

  • hyperopt 0.2.7+db3
  • sparkdl 3.0.0_db1
  • automl 1.20.0

若要在本地Python虚拟环境中重现 Databricks Runtime ML Python 环境,请下载 requirements-13.3.txt 文件并运行 pip install -r requirements-13.3.txt。 此命令安装 Databricks Runtime ML 使用的所有开放源代码库,但不安装 Databricks 开发的库,例如 databricks-automldatabricks-feature-storehyperopt 的 Databricks 分支。

Python 库在 CPU 集群上

版本 版本 版本
ABSL-PY 系列 1.0.0 加速 0.20.3 aiohttp 3.8.5
aiosignal 1.3.1 anyio 3.5.0 appdirs 1.4.4
argon2-cffi 21.3.0 argon2-cffi-bindings 21.2.0 阿斯托尔 0.8.1
asttokens 2.2.1 astunparse 1.6.3 异步-超时 4.0.2
属性 21.4.0 audioread(音频读取) 3.0.0 azure-core 1.28.0
azure-cosmos 4.3.1 azure-storage-blob 12.17.0 Azure存储文件数据湖 12.12.0
回调 0.2.0 bcrypt 3.2.0 beautifulsoup4 4.11.1
黑色 22.6.0 漂白剂 4.1.0 闪烁器 1.4
布利斯 0.7.10 boto3 1.24.28 botocore 1.27.28
cachetools (缓存工具) 4.2.4 目录 2.0.9 类别编码器 2.6.1
certifi 2022.9.14 cffi 1.15.1 chardet 4.0.0
charset-normalizer (字符集正常化工具) 2.0.4 单击 8.0.4 cloudpickle 2.0.0
cmdstanpy 1.1.0 糖果 0.1.0 config解析器 5.2.0
convertdate 2.4.0 加密 37.0.1 骑行者 0.11.0
cymem 2.0.7 Cython 0.29.32 英安岩 1.8.1
databricks-automl-runtime 0.2.17 databricks-cli 0.17.7 Databricks特征商店 0.14.0
Databricks软件开发工具包 (databricks-sdk) 0.1.6 dataclasses-json 0.5.13 数据集 2.13.1
dbl-tempo 0.1.23 dbu-python 1.2.18 debugpy 1.6.0
修饰器 5.1.1 defusedxml 0.7.1 莳萝 0.3.4
磁盘缓存 5.6.1 distlib 0.3.7 从文档字符串到Markdown 0.12
入口点 0.4 伊菲姆 4.1.4 评估 0.4.0
执行 1.2.0 各个方面概述 1.0.3 fastapi 0.98.0
fastjsonschema 2.18.0 fasttext(快速文本工具) 0.9.2 文件锁 (filelock) 3.6.0
Flask 1.1.2+db1 FlatBuffers 23年5月26日 fonttools(字体工具) 4.25.0
frozenlist 1.4.0 fsspec 2022.7.1 未来 0.18.2
加斯特 0.4.0 gitdb (Git数据库) 4.0.10 GitPython 3.1.27
google-api-core 2.8.2 google-auth (谷歌身份验证) 1.33.0 google-auth-oauthlib 0.4.6
google-cloud-core (Google云核心) 2.3.3 谷歌云存储 (Google Cloud Storage) 2.10.0 google-crc32c 1.5.0
google-pasta 0.2.0 google-resumable-media(谷歌可恢复媒体) 2.5.0 googleapis-common-protos 1.56.4
绿地 1.1.1 grpcio 1.48.1 grpcio-status 1.48.1
gunicorn 20.1.0 gviz-api 1.10.0 h11 0.14.0
h5py 3.7.0 假期 0.27.1 霍罗沃德 0.28.1
htmlmin 0.1.12 httplib2 0.20.2 httptools 0.6.0
huggingface-hub(哈根脸社区平台) 0.16.4 IDNA 3.3 ImageHash 4.3.1
imbalanced-learn 0.10.1 importlib-metadata 4.11.3 importlib-resources 6.0.0
ipykernel 6.17.1 ipython 8.10.0 ipython-genutils(IPython通用工具) 0.2.0
ipywidgets 7.7.2 isodate 0.6.1 它很危险 2.0.1
jedi 0.18.1 吉普尼 0.7.1 Jinja2 2.11.3
jmespath 0.10.0 joblib 1.2.0 joblibspark 0.5.1
jsonschema 4.16.0 Jupyter客户端 7.3.4 jupyter_core(Jupyter核心) 4.11.2
jupyterlab-pygments 0.1.2 jupyterlab-widgets 1.0.0 keras 2.11.0
钥匙圈 23.5.0 kiwisolver 1.4.2 langchain 0.0.217
langchainplus-sdk 0.0.20 语言代码 3.3.0 launchpadlib 1.10.16
lazr.restfulclient 0.14.4 lazr.uri 1.0.6 lazy_loader 0.3
libclang 15.0.6.1 librosa 0.10.0 lightgbm 3.3.5
LLVMlite 0.38.0 农历 0.0.9 Mako 1.2.0
Markdown 3.3.4 MarkupSafe 2.0.1 棉花糖 3.20.1
matplotlib 3.5.2 matplotlib-inline 0.1.6 麦卡贝 0.7.0
mistune 0.8.4 mleap 0.20.0 mlflow-skinny 2.5.0
more-itertools 8.10.0 msgpack 1.0.5 多重字典 6.0.4
多方法 1.9.1 多进程 0.70.12.2 murmurhash哈希算法 1.0.9
mypy-extensions 0.4.3 nbclient 0.5.13 nbconvert 6.4.4
nbformat 5.5.0 nest-asyncio 1.5.5 NetworkX 2.8.4
忍者 1.11.1 nltk 3.7 nodeenv 1.8.0
笔记本 6.4.12 麻木 0.55.1 numexpr 2.8.4
numpy 1.21.5 oauthlib 3.2.0 openai 0.27.8
openapi-schema-pydantic 1.2.4 opt-einsum 3.3.0 封装 21.3
熊猫 1.4.4 pandocfilters 1.5.0 paramiko 2.9.2
帕尔索 0.8.3 pathspec 0.9.0 0.10.2
替罪羊 0.5.2 petastorm 0.12.1 pexpect 4.8.0
Φ系数 0.12.3 pickleshare 0.7.5 枕头 9.2.0
果仁 22.2.2 platformdirs 2.5.2 plotly 5.9.0
Pluggy (Python库) 1.0.0 pmdarima 2.0.3 狗狗 1.7.0
preshed 3.0.8 prometheus-client 0.14.1 prompt-toolkit 3.0.36
先知 1.1.4 protobuf 3.19.4 psutil 5.9.0
psycopg2 2.9.3 ptyprocess 0.7.0 pure-eval 0.2.2
pyarrow 8.0.0 pyasn1 0.4.8 pyasn1-modules 0.2.8
pybind11 2.11.1 Python代码解析器 2.21 pydantic 1.10.6
pyflakes 3.0.1 Pygments 2.11.2 PyGObject 3.42.1
PyJWT 2.3.0 PyMeeus 0.5.12 PyNaCl 1.5.0
pyodbc 4.0.32 pyparsing 3.0.9 pyright 1.1.294
pyrsistent(持久性,类似于 persistent 的 Python 包) 0.18.0 pytesseract 0.3.10 python-dateutil 2.8.2
python-dotenv 1.0.0 Python代码编辑器 1.0.4 python-lsp-jsonrpc 1.0.0
python-lsp-server 1.7.1 pytoolconfig 1.2.2 pytz 2022年1月
PyWavelets 1.3.0 PyYAML 6.0 pyzmq 23.2.0
regex 2022.7.9 请求 2.28.1 requests-oauthlib 1.3.1
回应 0.18.0 绳子 1.7.0 rsa 4.9
s3transfer 0.6.0 safetensors 0.3.1 scikit-learn 1.1.1
scipy(科学计算工具库) 1.9.1 seaborn 0.11.2 SecretStorage 3.3.1
Send2Trash 1.8.0 sentence-transformers (句子转换器) 2.2.2 sentencepiece 0.1.99
setuptools 63.4.1 沙普 0.41.0 simplejson 3.17.6
6 1.16.0 切片器 0.0.7 smart-open 5.2.1
smmap 5.0.0 思尼菲欧 1.2.0 音频文件 0.12.1
汤滤器 2.3.1 soxr 0.3.5 spacy 3.5.3
spacy-legacy 3.0.12 spacy-loggers 1.0.4 spark-tensorflow-distributor(Spark TensorFlow 分布器) 1.0.0
SQLAlchemy 1.4.39 sqlparse 0.4.2 srsly 2.4.7
ssh-import-id(用于根据提供的标识符导入SSH密钥的命令行工具) 5.11 堆栈数据 0.6.2 starlette 0.27.0
statsmodels 0.13.2 制表 0.8.10 tangled -up-in-unicode 0.2.0
毅力 8.1.0 TensorBoard 2.11.0 TensorBoard数据服务器 0.6.1
tensorboard-profile插件 2.11.2 tensorboard-plugin-wit 1.8.1 tensorflow-cpu 2.11.1
tensorflow-estimator 2.11.0 tensorflow-io-gcs-filesystem 0.32.0 termcolor 2.3.0
完成 0.13.1 测试路径 0.6.0 thinc 8.1.10
threadpoolctl 2.2.0 tiktoken 0.4.0 tokenize-rt 4.2.1
分词器 0.13.3 tomli 2.0.1 火炬 1.13.1+cpu
torchvision 0.14.1+cpu 龙卷风 6.1 tqdm 4.64.1
Traitlets 5.1.1 变压器 4.30.2 类型守卫 2.13.3
打字员 0.7.0 输入检查 0.9.0 输入扩展 (typing_extensions) 4.3.0
ujson 5.4.0 无人参与升级 0.1 urllib3 1.26.11
uvicorn 0.23.1 uvloop 0.17.0 virtualenv 20.16.3
愿景 0.7.5 wadllib 1.3.6 山葵 1.1.2
watchfiles 0.19.0 wcwidth 0.2.5 Web编码 0.5.1
WebSocket客户端 0.58.0 WebSockets 11.0.3 Werkzeug 2.0.3
whatthepatch 1.0.2 wheel 0.37.1 widgetsnbextension 3.6.1
wordcloud 1.9.2 裹住 1.14.1 XGBoost 1.7.6
xxhash 3.2.0 yapf 0.31.0 雅尔 1.9.2
ydata-profiling 4.2.0 齐普 3.8.0

Python GPU 集群上的库

版本 版本 软件库 版本
ABSL-PY 系列 1.0.0 加速 0.20.3 aiohttp 3.8.5
aiosignal 1.3.1 anyio 3.5.0 appdirs 1.4.4
argon2-cffi 21.3.0 argon2-cffi-bindings 21.2.0 阿斯托尔 0.8.1
asttokens 2.2.1 astunparse 1.6.3 异步-超时 4.0.2
属性 21.4.0 audioread 3.0.0 azure-core 1.28.0
azure-cosmos 4.3.1 azure-storage-blob 12.17.0 Azure存储文件数据湖 12.12.0
回调 0.2.0 bcrypt 3.2.0 beautifulsoup4 4.11.1
黑色 22.6.0 漂白剂 4.1.0 闪烁器 1.4
布利斯 0.7.10 boto3 1.24.28 botocore 1.27.28
cachetools (缓存工具) 4.2.4 目录 2.0.9 类别编码器 2.6.1
certifi 2022.9.14 cffi 1.15.1 chardet 4.0.0
charset-normalizer (字符集正常化工具) 2.0.4 单击 8.0.4 cloudpickle 2.0.0
cmdstanpy 1.1.0 糖果 0.1.0 config解析器 5.2.0
convertdate 2.4.0 加密 37.0.1 骑行者 0.11.0
cymem 2.0.7 Cython 0.29.32 英安岩 1.8.1
databricks-automl-runtime 0.2.17 databricks-cli 0.17.7 Databricks特征商店 0.14.0
Databricks软件开发工具包 (databricks-sdk) 0.1.6 dataclasses-json 0.5.13 数据集 2.13.1
dbl-tempo 0.1.23 dbu-python 1.2.18 debugpy 1.6.0
修饰器 5.1.1 defusedxml 0.7.1 莳萝 0.3.4
磁盘缓存 5.6.1 distlib 0.3.7 从文档字符串到Markdown 0.12
einops 0.6.1 入口点 0.4 伊菲姆 4.1.4
评估 0.4.0 执行 1.2.0 各个方面概述 1.0.3
fastapi 0.98.0 fastjsonschema 2.18.0 fasttext(快速文本工具) 0.9.2
文件锁 (filelock) 3.6.0 flash-attn 1.0.7 Flask 1.1.2+db1
FlatBuffers 23年5月26日 fonttools(字体工具) 4.25.0 frozenlist 1.4.0
fsspec 2022.7.1 未来 0.18.2 加斯特 0.4.0
gitdb (Git数据库) 4.0.10 GitPython 3.1.27 google-api-core 2.8.2
google-auth (谷歌身份验证) 1.33.0 google-auth-oauthlib 0.4.6 google-cloud-core (Google云核心) 2.3.3
谷歌云存储 (Google Cloud Storage) 2.10.0 google-crc32c 1.5.0 google-pasta 0.2.0
google-resumable-media(谷歌可恢复媒体) 2.5.0 googleapis-common-protos 1.56.4 绿地 1.1.1
grpcio 1.48.1 grpcio-status 1.48.1 gunicorn 20.1.0
gviz-api 1.10.0 h11 0.14.0 h5py 3.7.0
假期 0.27.1 霍罗沃德 0.28.1 htmlmin 0.1.12
httplib2 0.20.2 httptools 0.6.0 huggingface-hub(哈根脸社区平台) 0.16.4
IDNA 3.3 ImageHash 4.3.1 imbalanced-learn(不平衡学习库) 0.10.1
importlib-metadata 4.11.3 importlib-resources 6.0.0 ipykernel 6.17.1
ipython 8.10.0 ipython-genutils(IPython通用工具) 0.2.0 ipywidgets 7.7.2
isodate 0.6.1 它很危险 2.0.1 jedi 0.18.1
吉普尼 0.7.1 Jinja2 2.11.3 jmespath 0.10.0
joblib 1.2.0 joblibspark 0.5.1 jsonschema 4.16.0
Jupyter客户端 7.3.4 jupyter_core(Jupyter核心) 4.11.2 jupyterlab-pygments 0.1.2
jupyterlab-widgets 1.0.0 keras 2.11.0 钥匙圈 23.5.0
kiwisolver 1.4.2 langchain 0.0.217 langchainplus-sdk 0.0.20
语言代码 3.3.0 launchpadlib 1.10.16 lazr.restfulclient 0.14.4
lazr.uri 1.0.6 lazy_loader 0.3 libclang 15.0.6.1
librosa 0.10.0 lightgbm 3.3.5 LLVMlite 0.38.0
农历 0.0.9 Mako 1.2.0 Markdown 3.3.4
MarkupSafe 2.0.1 棉花糖 3.20.1 matplotlib 3.5.2
matplotlib-inline 0.1.6 麦卡贝 0.7.0 mistune 0.8.4
mleap 0.20.0 mlflow-skinny 2.5.0 more-itertools 8.10.0
msgpack 1.0.5 多重字典 6.0.4 多方法 1.9.1
多进程 0.70.12.2 murmurhash哈希算法 1.0.9 mypy-extensions 0.4.3
nbclient 0.5.13 nbconvert 6.4.4 nbformat 5.5.0
nest-asyncio 1.5.5 NetworkX 2.8.4 忍者 1.11.1
nltk 3.7 nodeenv 1.8.0 笔记本 6.4.12
麻木 0.55.1 numexpr 2.8.4 numpy 1.21.5
oauthlib 3.2.0 openai 0.27.8 openapi-schema-pydantic 1.2.4
opt-einsum 3.3.0 包装 21.3 熊猫 1.4.4
pandocfilters 1.5.0 paramiko 2.9.2 帕尔索 0.8.3
pathspec 0.9.0 0.10.2 替罪羊 0.5.2
petastorm 0.12.1 pexpect 4.8.0 Φ系数 0.12.3
pickleshare 0.7.5 枕头 9.2.0 果仁 22.2.2
platformdirs 2.5.2 plotly 5.9.0 Pluggy (Python库) 1.0.0
pmdarima 2.0.3 狗狗 1.7.0 preshed 3.0.8
prompt-toolkit 3.0.36 先知 1.1.4 protobuf 3.19.4
psutil 5.9.0 psycopg2 2.9.3 ptyprocess 0.7.0
pure-eval 0.2.2 pyarrow 8.0.0 pyasn1 0.4.8
pyasn1-modules 0.2.8 pybind11 2.11.1 Python代码解析器 2.21
pydantic 1.10.6 pyflakes 3.0.1 Pygments 2.11.2
PyGObject 3.42.1 PyJWT 2.3.0 PyMeeus 0.5.12
PyNaCl 1.5.0 pyodbc 4.0.32 pyparsing 3.0.9
pyright 1.1.294 pyrsistent(持久性,类似于 persistent 的 Python 包) 0.18.0 pytesseract 0.3.10
python-dateutil 2.8.2 python-dotenv 1.0.0 Python代码编辑器 1.0.4
python-lsp-jsonrpc 1.0.0 python-lsp-server 1.7.1 pytoolconfig 1.2.2
pytz 2022年1月 PyWavelets 1.3.0 PyYAML 6.0
pyzmq 23.2.0 regex 2022.7.9 请求 2.28.1
requests-oauthlib 1.3.1 回应 0.18.0 绳子 1.7.0
rsa 4.9 s3transfer 0.6.0 safetensors 0.3.1
scikit-learn 1.1.1 scipy(科学计算工具库) 1.9.1 seaborn 0.11.2
SecretStorage 3.3.1 Send2Trash 1.8.0 sentence-transformers (句子转换器) 2.2.2
sentencepiece 0.1.99 setuptools 63.4.1 沙普 0.41.0
simplejson 3.17.6 6 1.16.0 切片器 0.0.7
smart-open 5.2.1 smmap 5.0.0 思尼菲欧 1.2.0
音频文件 0.12.1 汤滤器 2.3.1 soxr 0.3.5
spacy 3.5.3 spacy-legacy 3.0.12 spacy-loggers 1.0.4
spark-tensorflow-distributor(Spark TensorFlow 分布器) 1.0.0 SQLAlchemy 1.4.39 sqlparse 0.4.2
srsly 2.4.7 ssh-import-id(用于根据提供的标识符导入SSH密钥的命令行工具) 5.11 堆栈数据 0.6.2
starlette 0.27.0 statsmodels 0.13.2 制表 0.8.10
tangled -up-in-unicode 0.2.0 毅力 8.1.0 TensorBoard 2.11.0
TensorBoard数据服务器 0.6.1 tensorboard-profile插件 2.11.2 tensorboard-plugin-wit 1.8.1
TensorFlow 2.11.1 tensorflow-estimator 2.11.0 tensorflow-io-gcs-filesystem 0.32.0
termcolor 2.3.0 完成 0.13.1 测试路径 0.6.0
thinc 8.1.10 threadpoolctl 2.2.0 tiktoken 0.4.0
tokenize-rt 4.2.1 分词器 0.13.3 tomli 2.0.1
火炬 1.13.1+cu117 torchvision 0.14.1+cu117 龙卷风 6.1
tqdm 4.64.1 Traitlets 5.1.1 变压器 4.30.2
类型守卫 2.13.3 打字员 0.7.0 输入检查 0.9.0
输入扩展 (typing_extensions) 4.3.0 ujson 5.4.0 无人参与升级 0.1
urllib3 1.26.11 uvicorn 0.23.1 uvloop 0.17.0
virtualenv 20.16.3 愿景 0.7.5 wadllib 1.3.6
山葵 1.1.2 watchfiles 0.19.0 wcwidth 0.2.5
Web编码 0.5.1 WebSocket客户端 0.58.0 WebSockets 11.0.3
Werkzeug 2.0.3 whatthepatch 1.0.2 wheel 0.37.1
widgetsnbextension 3.6.1 wordcloud 1.9.2 裹住 1.14.1
XGBoost 1.7.6 xxhash 3.2.0 yapf 0.31.0
雅尔 1.9.2 ydata-profiling 4.2.0 齐普 3.8.0

R 库

R 库与 Databricks Runtime 13.3 LTS 中的R 库完全相同。

Java和 Scala 库(Scala 2.12 群集)

除了 Databricks Runtime 13.3 LTS 中的Java库和 Scala 库,Databricks Runtime 13.3 LTS ML 还包含以下 JAR:

CPU 群集

组标识 构件 ID 版本
com.typesafe.akka akka-actor_2.12 2.5.23
ml.dmlc xgboost4j-spark_2.12 1.7.3
ml.dmlc xgboost4j_2.12 1.7.3
org.graphframes graphframes_2.12 0.8.2-db2-spark3.4
org.mlflow mlflow-client 2.5.0
org.scala-lang.modules scala-java8-compat_2.12 0.8.0
org.tensorflow spark-tensorflow-connector_2.12(一个用于Spark与TensorFlow连接的软件包) 1.15.0

GPU 群集

组标识 制品 ID 版本
com.typesafe.akka akka-actor_2.12 2.5.23
ml.dmlc xgboost4j-gpu_2.12 1.7.3
ml.dmlc xgboost4j-spark-gpu_2.12 1.7.3
org.graphframes graphframes_2.12 0.8.2-db2-spark3.4
org.mlflow mlflow-client 2.5.0
org.scala-lang.modules scala-java8-compat_2.12 0.8.0
org.tensorflow spark-tensorflow-connector_2.12(一个用于Spark与TensorFlow连接的软件包) 1.15.0