ようこそ!
文庫
新書・選書
文芸
教養
人文
教育
芸術
児童
趣味
生活
地図・ガイド
就職・資格
語学
小学学参
中学学参
高校学参
辞典
コミック
ゲーム攻略本
エンターテイメント
日記手帳
社会
法律
経済
経営
ビジネス
理学
工学
コンピュータ
医学
看護学
薬学
出版社名:翔泳社
出版年月:2024年6月
ISBN:978-4-7981-8373-2
329P 23cm
爆速Python 巨大データセットを扱うための高速化テクニック/Programmer’s SELECTION
Tiago Rodrigues Antao/著 クイープ/監訳
組合員価格 税込 3,762
(通常価格 税込 3,960円)
割引率 5%
在庫あり
生協宅配にてお届け
※ご注文が集中した場合、お届けが遅れる場合がございます。
内容紹介・もくじなど
内容紹介:「そう、すべては速さのために」Pythonでデータセットを扱う際、最後に重要になってくるのはやはり「処理速度」です。データが巨大であればあるほど、ちょっとした工夫が処理速度を向上させ、「データの氾濫」ともいえる現状を打開する鍵になってくれます。Pythonの特性を理解しつつそのパフォーマンスを最大限に引き出し、さらにハイパフォーマンスなライブラリを正しく利用することができれば、遅い遅いといわれがちなPythonにおいても、爆速な処理を手にすることができるのです。本書は、組み込み機能やスレッディング特性、CPythonのグローバルインタプリタロック(GIL)などに始まり、Cythonへ…(続く
内容紹介:「そう、すべては速さのために」Pythonでデータセットを扱う際、最後に重要になってくるのはやはり「処理速度」です。データが巨大であればあるほど、ちょっとした工夫が処理速度を向上させ、「データの氾濫」ともいえる現状を打開する鍵になってくれます。Pythonの特性を理解しつつそのパフォーマンスを最大限に引き出し、さらにハイパフォーマンスなライブラリを正しく利用することができれば、遅い遅いといわれがちなPythonにおいても、爆速な処理を手にすることができるのです。本書は、組み込み機能やスレッディング特性、CPythonのグローバルインタプリタロック(GIL)などに始まり、Cythonへの移行やGPUの利用に至るまでの多面的なアプローチを紹介し、単にマシン性能を上げたり、マシンの数を増やすだけでは得られない、効率的なPythonアプリケーションの記述をサポートします。【本書は『Fast Python: High performance techniques for large datasets』の邦訳書です。】◆◆もくじ◆◆●Part 1 基礎的なアプローチ ・Chapter 1 データ処理の効率化が急がれている ・Chapter 2 組み込み機能のパフォーマンスを最大限に引き出す ・Chapter 3 並行性、並列性、非同期処理 ・Chapter 4 ハイパフォーマンスなNumPy●Part 2 ハードウェア ・Chapter 5 Cythonを使って重要なコードを再実装する ・Chapter 6 メモリ階層、ストレージ、ネットワーク●Part 3 現代のデータ処理のためのアプリケーションとライブラリ ・Chapter 7 ハイパフォーマンスなpandasとApache Arrow ・Chapter 8 ビッグデータの格納●Part 4 高度なトピック ・Chapter 9 GPUコンピューティングを使ったデータ分析 ・Chapter 10 Daskを使ったビッグデータの分析 ・付録A 環境のセットアップ ・付録B Numbaを使って効率的な低レベルコードを生成する
本書の目的は、Pythonエコシステムでより効率的なアプリケーションを記述する手助けをすることにあります。より効率的とは、コードが使うCPUサイクル、ストレージ領域、ネットワーク通信が少なくなることを意味します。本書では、パフォーマンスの問題に総合的なアプローチでのぞみます。ピュアPythonでのコード最適化テクニックについて説明するだけではなく、NumPyやpandasなど広く使われているデータライブラリの効率的な使い方についても検討します。Pythonでは十分なパフォーマンスが得られないケースがあるため、スピードがさらに求められる場合はCythonについても検討します。この総合的なアプローチの一環として、コードの設計にハードウェアが与える影響にも目を向け、現代のコンピュータアーキテクチャがアルゴリズムのパフォーマンスにおよぼす影響を分析します。また、ネットワークアーキテクチャが効率におよぼす影響と、高速なデータ分析でのGPUコンピューティングの使い方も調べます。
もくじ情報:1 基礎的なアプローチ(データ処理の効率化が急がれている;組み込み機能のパフォーマンスを最大限に引き出す;並行性、並列性、非同期処理;ハイパフォーマンスなNumPy);2 ハードウェア(Cythonを使って重要なコードを再実装する;メモリ階層、ストレージ、ネットワーク);3 現代のデータ処理のためのアプリケーションとライブラリ(ハイパフォーマンスなpandasとApache Arrow;ビッグデータの格納);4 高度なトピック(GPUコンピューティングを使ったデータ分析;Daskを使ったビッグデータの分析);付録A 環境のセットアップ;付録B Numbaを使って効率的な低レベルコードを生成する
著者プロフィール
アントン,チアゴ・ロドリゲス(アントン,チアゴロドリゲス)
情報学の工学士号とバイオインフォマティクスの博士号を持つ。現在はバイオテクノロジー分野に従事している。科学計算とデータエンジニアリングのタスクを実行するためにPythonとそのすべてのライブラリを使っている。アルゴリズムの重要な部分を最適化するために、CやRustなどの低水準言語をよく使っている。現在はAmazon AWSベースのインフラで開発を行っているが、キャリアの大部分ではオンプレミスのコンピューティングクラウドと科学クラウドを使っていた。業界での活動に加えて、科学計算の研究では、ケンブリッジ大学とオックスフォード大学でデータ分…(続く
アントン,チアゴ・ロドリゲス(アントン,チアゴロドリゲス)
情報学の工学士号とバイオインフォマティクスの博士号を持つ。現在はバイオテクノロジー分野に従事している。科学計算とデータエンジニアリングのタスクを実行するためにPythonとそのすべてのライブラリを使っている。アルゴリズムの重要な部分を最適化するために、CやRustなどの低水準言語をよく使っている。現在はAmazon AWSベースのインフラで開発を行っているが、キャリアの大部分ではオンプレミスのコンピューティングクラウドと科学クラウドを使っていた。業界での活動に加えて、科学計算の研究では、ケンブリッジ大学とオックスフォード大学でデータ分析のポスドクを務めた経験がある。モンタナ大学では、リサーチサイエンティストとして生物学データを分析するための科学計算インフラ全体を一から開発した(本データはこの書籍が刊行された当時に掲載されていたものです)