|
内容紹介・もくじなど
著者プロフィール
リー,デニー(リー,デニー)
Unity Catalog、Apache Spark、MLflowのコントリビュータで、Delta Lakeのメンテナ、Databricksのプリンシパルデベロッパーアドボケート。インターネット規模のデータプラットフォームや予測分析・AIシステムの開発者としての豊富な経験を持つ、実践的な分散システムおよびデータサイエンスの実践的エンジニアである。現在の技術的な専門分野は、AI、分散システム、Unity Catalog、Delta Lake、Apache Spark、深層学者、機械学習、ゲノミクスなどの技術に注力している リー,デニー(リー,デニー)
Unity Catalog、Apache Spark、MLflowのコントリビュータで、Delta Lakeのメンテナ、Databricksのプリンシパルデベロッパーアドボケート。インターネット規模のデータプラットフォームや予測分析・AIシステムの開発者としての豊富な経験を持つ、実践的な分散システムおよびデータサイエンスの実践的エンジニアである。現在の技術的な専門分野は、AI、分散システム、Unity Catalog、Delta Lake、Apache Spark、深層学者、機械学習、ゲノミクスなどの技術に注力している |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
データレイクは膨大なデータを柔軟に扱える一方で、スキーマ管理の複雑さや性能の低下、ガバナンスの難しさなど多くの課題を抱えてきました。本書は、これらの問題を解決…(続く)
データレイクは膨大なデータを柔軟に扱える一方で、スキーマ管理の複雑さや性能の低下、ガバナンスの難しさなど多くの課題を抱えてきました。本書は、これらの問題を解決するデータレイクハウスアーキテクチャの全貌を解き明かします。オープンソースのDelta Lakeを軸に、ACIDトランザクション、タイムトラベル、スキーマ進化、データ品質管理といった重要機能をわかりやすく解説します。さらに、Apache Sparkとの統合、BIやAI/MLへの応用、運用上のベストプラクティスまで、実践的な知識を網羅しています。データエンジニア、アーキテクト、アナリストにとって必携であり、モダンなデータ基盤を設計・構築する上での指針となる1冊です。
もくじ情報:1章 Delta Lakeにおけるレイクハウスフォーマット;2章 Delta Lakeを導入する;3章 Delta Lakeの操作;4章 Delta Lakeエコシステムの詳細解説;5章 Delta Lakeのメンテナンス;6章 Delta Lakeを利用したネイティブアプリケーションの構築;7章 Delta Lakeへのストリーミングの入出力;8章 高度な機能;9章 レイクハウスのアーキテクチャ設計;10章 パフォーマンスチューニング:Delta Lakeでのデータパイプライン最適化;11章 成功するデザインパターン;12章 レイクハウスのガバナンスとセキュリティの基礎;13章 メタデータ管理、データフロー、リネージ;14章 Delta Sharingプロトコルでのデータ共有