2.3.x 發布版本

元件 2.3.7-debian12/-ubuntu22/-ml-ubuntu22/-rocky9
2025/07/25
2.3.6-debian12/-ubuntu22/-ml-ubuntu22/-rocky9
2025/07/15
2.3.5-debian12/-ubuntu22/-ml-ubuntu22/-rocky9
2025/07/04
2.3.4-debian12/-ubuntu22/-ml-ubuntu22/-rocky9
2025/06/20
2.3.3-debian12/-ubuntu22/-ml-ubuntu22/-rocky9
2025/06/09
Apache Atlas
初始化動作
2.2.0 2.2.0 2.2.0 2.2.0 2.2.0
Apache Flink
選用元件
1.17.0 1.17.0 1.17.0 1.17.0 1.17.0
已安裝 Apache Hadoop
3.3.6 3.3.6 3.3.6 3.3.6 3.3.6
已安裝 Apache Hive
3.1.3 3.1.3 3.1.3 3.1.3 3.1.3
Apache Hive WebHCat
選用元件
3.1.3 3.1.3 3.1.3 3.1.3 3.1.3
Apache Hudi
選用元件
0.15.0 0.15.0 0.15.0 0.15.0 0.15.0
Apache Iceberg
選用元件
1.6.1 1.6.1 1.6.1 1.6.1 1.6.1
Apache Kafka
初始化動作
3.1.0 3.1.0 3.1.0 3.1.0 3.1.0
Apache Pig
選用元件
0.18.0-SNAPSHOT 0.18.0-SNAPSHOT 0.18.0-SNAPSHOT 0.18.0-SNAPSHOT 0.18.0-SNAPSHOT
Apache Spark
已安裝
3.5.3 3.5.3 3.5.3 3.5.3 3.5.3
Apache Sqoop
初始化動作
1.5.0-SNAPSHOT 1.5.0-SNAPSHOT 1.5.0-SNAPSHOT 1.5.0-SNAPSHOT 1.5.0-SNAPSHOT
Apache Tez
已安裝
0.10.2 0.10.2 0.10.2 0.10.2 0.10.2
BigQuery 連接器
已安裝
0.42.3 0.42.3 0.42.3 0.42.3 0.42.3
Cloud Storage Connector
已安裝
3.1.0 3.1.0 3.1.0 3.1.0 3.1.0
已安裝
Conscrypt
2.5.2 2.5.2 2.5.2 2.5.2 2.5.2
Delta Lake
選用元件
3.2.0 3.2.0 3.2.0 3.2.0 3.2.0
Docker
選用元件
28.1 28.1 28.1 28.1 28.1
色調
初始化動作
4.11.0 4.11.0 4.11.0 4.11.0 4.11.0
已安裝
Java
11 11 11 11 11
JupyterLab Notebook
選用元件
3.6 3.6 3.6 3.6 3.6
Oozie
初始化動作
5.2.1 5.2.1 5.2.1 5.2.1 5.2.1
Python
已安裝
micromamba 2.0.5,搭配 Python 3.11 micromamba 2.0.5,搭配 Python 3.11 micromamba 2.0.5,搭配 Python 3.11 micromamba 2.0.5,搭配 Python 3.11 micromamba 2.0.5,搭配 Python 3.11
R
installed
R 4.3 R 4.3 R 4.3 R 4.3 R 4.3
Ranger
選用元件
2.4.0 2.4.0 2.4.0 2.4.0 2.4.0
Scala
已安裝
2.12.18 2.12.18 2.12.18 2.12.18 2.12.18
Solr
選用元件
9.4.1 9.4.1 9.4.1 9.4.1 9.4.1
Trino
選用元件
432 432 432 432 432
Zeppelin Notebook
選用元件
0.10.1 0.10.1 0.10.1 0.10.1 0.10.1
Zookeeper
選用元件
3.9.3 3.9.3 3.9.3 3.9.3 3.9.3

2.3 版的重要異動:

  • 版本 2.3 是輕量型映像檔,只包含核心元件,可減少常見安全漏洞與弱點 (CVE) 的影響。如要符合更高的安全法規要求,請在建立 Dataproc 叢集時,使用 2.3 以上版本的映像檔。

  • 如果您選擇在建立 2.3 映像檔的 Dataproc 叢集時安裝選用元件,系統會在叢集建立期間下載並安裝這些元件。這可能會增加叢集啟動時間。如要避免這種延遲,您可以建立預先安裝選用元件的自訂映像檔。如要達成這個目標,請使用 --optional-components 旗標執行 generate_custom_image.py

注意:

  • 2.3 映像檔的選用元件如下:

    • Apache Flink
    • Apache Hive WebHCat
    • Apache Hudi
    • Apache Iceberg
    • Apache Pig
    • Delta Lake
    • Docker
    • JupyterLab 筆記本
    • Ranger
    • Solr
    • Zeppelin Notebook
    • Zookeeper
  • yarn.nodemanager.recovery.enabled 和 HDFS 稽核記錄在 2.3 版映像檔中預設為啟用。

  • 在先前的映像檔版本中,conda 是 Python 安裝程序的一部分,但現在改為安裝 micromamba。

  • Docker 和 Zeppelin 安裝問題:

    • 如果叢集無法存取公開網際網路,安裝就會失敗。如要解決這個問題,請建立叢集,並使用預先安裝選用元件的自訂映像檔。方法是執行 generate_custom_image.py 並使用 --optional-components 旗標
    • 如果叢集固定使用較舊的次要映像檔版本,安裝作業可能會失敗:系統會從公開 OSS 存放區視需要安裝套件,而上游可能沒有支援安裝作業的套件。如要解決這個問題,請建立叢集,並使用已預先安裝選用元件的自訂映像檔。如要這麼做,請使用 --optional-components 旗標執行 generate_custom_image.py

映像檔版本 2.3 機器學習 (ML) 元件

Dataproc 2.3-ml-ubuntu 映像檔會使用 ML 專屬軟體擴充 2.3 基礎映像檔。支援 2.3 映像檔選用元件和其他 2.3 功能,並新增下列章節列出的元件版本。

GPU 專用程式庫

對於使用 GPU VM 的 Dataproc 工作,2.3-ml-ubuntu 映像檔提供下列 NVIDIA 驅動程式和程式庫。您可以使用這些函式完成下列工作:

  • 使用 NVIDIA Spark Rapids 程式庫加快 Spark 批次工作負載的速度
  • 訓練機器學習工作負載
  • 使用 Spark 執行分散式批次推論
套件名稱 版本
Spark Rapids 25.04.0
NVIDIA 驅動程式 Ubuntu 22.04 LTS (搭配 NVIDIA 驅動程式 570 版)
CUDA 12.6.3
cublas 12.6.4
cusolver 11.7.1
cupti 12.6.80
cusparse 12.5.4
cuDNN 9.10.1
NCCL 2.27.5

XGBoost 程式庫

2.3-ml-ubuntu 映像檔提供下列 Maven 套件版本,讓您在 Java 或 Scala 中搭配 Spark 使用 XGBoost

群組 ID 套件名稱 版本
ml.dmlc xgboost4j-gpu_2.12 2.1.1
ml.dmlc xgboost4j-spark-gpu_2.12 2.1.1

Python 程式庫

2.3-ml-ubuntu 圖片包含下列程式庫,可支援機器學習生命週期的不同階段。

`2.3-ml-ubuntu` 映像檔 Python 程式庫
套件 版本
加速1.8.1
conda23.11.0
cookiecutter2.5.0
curl8.12.1
cython3.0.12
dask2023.12.1
資料集3.6.0
deepspeed0.17.2
delta-spark3.2.0
evaluate0.4.5
fastavro1.9.7
fastparquet2023.10.1
fiona1.10.0
gateway-provisioners[yarn]0.4.0
gcsfs2023.12.2.post1
google-auth-oauthlib1.2.2
google-cloud-aiplatform1.88.0
google-cloud-bigquery[pandas]3.31.0
google-cloud-bigquery-storage2.30.0
google-cloud-bigtable2.30.1
google-cloud-container2.56.1
google-cloud-datacatalog3.26.1
google-cloud-dataproc5.18.1
google-cloud-datastore2.21.0
google-cloud-language2.17.2
google-cloud-logging3.11.4
google-cloud-monitoring2.27.2
google-cloud-pubsub2.29.1
google-cloud-redis2.18.1
google-cloud-spanner3.53.0
google-cloud-speech2.32.0
google-cloud-storage2.19.0
google-cloud-texttospeech2.25.1
google-cloud-translate3.20.3
google-cloud-vision3.10.2
huggingface_hub0.33.1
httplib20.22.0
ipyparallel8.6.1
ipython-sql0.3.9
ipywidgets8.1.7
jupyter_contrib_nbextensions0.7.0
jupyter_http_over_ws0.0.8
jupyter_kernel_gateway2.5.2
jupyter_server1.24.0
jupyterhub4.1.6
jupyterlab3.6.8
jupyterlab-git0.44.0
jupyterlab_widgets3.0.15
無尾熊0.22.0
langchain0.3.26
lightgbm4.6.0
markdown3.5.2
matplotlib3.8.4
mlflow3.1.1
nbconvert7.14.2
nbdime3.2.1
nltk3.9.1
筆記本6.5.7
numba0.58.1
numpy1.26.4
oauth2client4.1.3
onnx1.17.0
openblas0.3.25
opencv4.11.0
orc2.1.1
pandas2.1.4
pandas-profiling3.0.0
papermill2.4.0
pyarrow16.1.0
pydot2.0.0
pyhive0.7.0
pynvml12.0.0
pysal23.7
pytables3.9.2
python3.11
規則運算式2023.12.25
要求2.32.2
requests-kerberos0.12.0
rtree1.1.0
scikit-image0.22.0
scikit-learn1.5.2
scipy1.11.4
seaborn0.13.2
sentence-transformers5.0.0
setuptools79.0.1
shap0.48.0
shapely2.1.1
spacy3.8.7
spark-tensorflow-distributor1.0.0
spyder5.5.6
sqlalchemy2.0.41
sympy1.13.3
tensorflow2.18.0
分詞器0.21.4.dev0
toree0.5.0
手電筒2.6.0
torch-model-archiver0.11.1
torcheval0.0.7
龍捲風6.4.2
torchvision0.21.0
traitlets5.14.3
轉換器4.53.1
uritemplate4.1.1
virtualenv20.26.6
wordcloud1.9.4
xgboost2.1.4

R 程式庫

2.3-ml-ubuntu 映像檔包含下列 R 程式庫版本。

`2.3-ml-ubuntu` 映像檔 R 程式庫
套件名稱 版本
r-ggplot2 3.4.4
r-irkernel 1.3.2
r-rcurl 1.98-1.16
r-recommended 4.3