|
内容紹介・もくじなど
著者プロフィール
Damji,Jules S.(DAMJI,JULES S.)
Databricks社のSenior Developer Advocateであり、MLflowのコントリビュータ。Sun Microsystems、Netscape、@Home、Loudcloud/Opsware、Verisign、ProQuest、Hortonworksなどの大手企業でソフトウェアエンジニアとして勤務し、大規模分散システムを構築。オレゴン州立大学、カリフォルニア州立大学、ジョンズ・ホプキンス大学でそれぞれコンピュータサイエンスの学士号と修士号、 Political Advocacyとコミュニケーションの修士号を取得 Damji,Jules S.(DAMJI,JULES S.)
Databricks社のSenior Developer Advocateであり、MLflowのコントリビュータ。Sun Microsystems、Netscape、@Home、Loudcloud/Opsware、Verisign、ProQuest、Hortonworksなどの大手企業でソフトウェアエンジニアとして勤務し、大規模分散システムを構築。オレゴン州立大学、カリフォルニア州立大学、ジョンズ・ホプキンス大学でそれぞれコンピュータサイエンスの学士号と修士号、 Political Advocacyとコミュニケーションの修士号を取得 |
統合型アナリティクスエンジンの仕組みとビッグデータの大規模処理を徹底解説。基本操作からDelta LakeやMLlibを利用したパイプラインの構築まで紹介。
もくじ情報:1 Apache Spark入門;2 Apache Sparkのダウンロードと入門;3 Apache Sparkの構造化API;4 Spark SQLとDataFrame:組み込みデータソースの紹介;5 Spark SQLとDataFrame:外部データソースとのインタラクション;6 Spark SQLとDataset:7 Sparkアプリケーションの最適化およびチューニング;8 構造化Streaming;9 Apache Sparkを用いた信頼性の高いデータレイクの構築;10 MLlibによる機械学習;11 Apache Sparkによる機械学習パイプラインの管理、デプロイおよびスケール;12 エピローグ:Apache Spark 3.x