BigQuery入門

BigQuery入門

「Software Design 2019年9月号」の第1特集「気になるとこだけまとめて知りたい Google Cloud Platform」、第3章「BigQueryでビッグデータ分析入門」を読みました。記事を参考にBigQueryの概要をまとめます。

BigQueryとは

ペタバイト単位のデータに対してSQLを用いてクエリが実行できるサービス

データセットとテーブル

データセットはRDBで言うところのデータベース、テーブルはそのままテーブルに相当します。

BigQueryではあらかじめ準備された公開データセットを利用できます。公開データセットを利用するには、リソース名bigquery-public-dataを作成します。

料金

データ保存100GB/月に200円、スキャン容量1TBごとに500円が課金されます。スキャン容量は1PBに対して50万円かかることになるので、クエリ実行前にスキャン容量を確認することが重要です。

実行速度

記事のチュートリアルに基づいて415.8GBのデータに対してクエリを実行したところ、33.4秒で結果が返りました。

Google Cloud Storage(GCS)連携

GCSに保存したデータをBigQueryにインポートしたり、BigQueryのテーブルをGCSへエクスポートしたりします。

コマンドラインで操作する場合はbqコマンドを使用します。

データポータル

GoogleデータポータルのデータソースとしてBigQueryを指定できます。データポータルを利用することでデータの可視化を実現できます。

データポータルの描画ごとにBigQueryのスキャンが走るので料金への注意が必要です。

関連サービス

BigQueryにどのようにデータを引っ張ってくるかが課題になります。ETL系サービスとの組み合わせを考える必要があります。

  • Cloud Dataproc : Hadoopクラスタを構築する
  • Cloud Dataflow : Apache Beamを実行する

ソフトウェアデザイン 2019年9月号
脇阪 洋平 富永 裕貴 大薮 勇輝 野呂 浩良 大澤 文孝 上野 貴史 貞光 九月 安藤 幸央 結城 浩 武内 覚 宮原 徹 平林 純 坂井 恵 齊藤 秀喜 くつなりょうすけ 高橋 憲一 中島 明日香 石山 将来 職業「戸倉彩」 樽石 将人 上田 隆一 田代 勝也 中村 壮一 山田 泰宏 eban mattn 小飼 弾 青田 直大 あわしろいくや 中島 雅弘 kanata 鎌田 篤慎 古守 花織 杉山 貴章
技術評論社 (2019-08-17)