2020.10.07

Spark Streaming + Kudu + Impalaでリアルタイムデータ集積＆分析を試す

こんにちは。次世代システム研究室のS.T.です。
前回の続編として，分散データストア「Kudu」を主軸に，SparkとImpalaを使ってリアルタイムにデータ集積・分析を行う環境の検証を行います。前回はローカルのVMでKuduをビルドして環境を構築しましたが，今回はConoHa（VPS）上のサーバでクラスタ環境を構築し，その上で検証を行います。

とりあえず3行で

DStreamでDataFrameを作ってKuduのinsertRowsに投げたけど動かなかったよ
手動でKuduSessionを開いてOperationを取得して操作したら書き込めたよ
書き込みながらImpalaからクエリを投げて実用的な時間で返ってくるよ

この記事でやること

Kudu（分散ストレージ）+Spark（分散処理フレームワーク）+Impala（クエリエンジン）を使ったシステムの開発・検証に使えるような環境をVPSサービスConoHa<fn>ConoHa</fn>上に構築し，各コンポーネント間で連携してデータ蓄積・分析を行う環境の検証を行います。

ローカル上のVMにKudu，Spark，Impalaをセットアップ（自前でビルド）：前回の内容
Spark Streaming（DStream）でデータを継続的に受け取り・加工
KuduのテーブルへINSERT
ImpalaからSQLで集計

各コンポーネントの概要

Spark Streaming

Spark Streamingは，KafkaのようなメッセージキューやTCPソケットなどから連続的に発生するデータを小さなバッチに分解し，Spark上で処理を行うことができるものです。DStreamという概念で抽象化されており，コード上ではこれに対して次々と処理を適用していくことになります。

図1に示すように，あるWindowの幅（t=0, 1, 2,… のそれぞれの間）の期間に受信したデータに対して処理を順番に適用し，完了次第次の処理に移る，といった流れで，連続的なデータに対する処理を小さな処理に分解し，分散処理を行うことができます。例えば，t=0から1までに10件のデータを受信した場合，t=1のタイミングでまとめて10件分の処理が行われます。各処理が1つのスレッドとして動作し，Sparkのクラスタ上で毎度起動して処理を行います。

図1：Spark Streamingの処理の流れ

詳細はプログラミングガイドを参照していただくとわかりやすいでしょう。<fn>Spark Streaming Programming Guide</fn>

また，今回は取り上げていませんが，Structured Streamingというストリーム処理エンジンも存在します。Spark StreamingがRDDを用いているのに対してStructured StreamingはDataFrameを用いており，新規に実装する場合はこちらを選ぶことも多いかと思いますので，機会があればこちらも取り上げてみたいと思います。

Kudu・Impala

Kudu・Impalaの詳細については前回の記事<fn>Kudu+Spark+Impalaを手元で試す環境を構築する</fn>や前々回の記事<fn>Apache Impala 3.3をビルドして新機能を試す – S3のファイルハンドルキャッシュ</fn>で触れていますので，そちらを参照してください。

環境セットアップ

今回はVPS ConoHa上のVMを使用します。

kudu01：2GBプラン CentOS 8.2 Kudu master / Spark master
kudu02-05：2GBプラン CentOS 8.2 Kudu tablet / Spark slave
imp01:8GBプラン CentOS 7.8 Impala

ConoHaのローカルネットワーク機能を用いて，各ノードに以下のようにプライベートIPアドレスを割り当てました（hostsファイルに記載して名前解決できるようにしておく）。JDKは各ノード共通でOpen JDK 1.8.0_265を使用しています。

192.168.100.1 kudu01
192.168.100.2 kudu02
192.168.100.3 kudu03
192.168.100.4 kudu04
192.168.100.5 kudu05

Kudu・Impala

これらは前回の記事でビルドしたものをコピーして使用します。ディレクトリ構成やJDKのバージョンをビルド環境と合わせること，起動したことがあるKuduをコピーする場合は

メタデータ類（metaディレクトリなど）を削除する必要があることに注意してください。

Impalaは過去記事のとおり環境変数をexportした後に以下のコマンドで起動します。

export KUDU_MASTER_HOSTS=kudu01
./bin/impala-shell.sh

Kuduは過去記事と同じコマンド（masterの指定は変更します）で起動します。起動後はノードのグローバルIPアドレス:8051で

# master
/opt/kudu/usr/local/sbin/kudu-master --fs_data_dirs /opt/kudu/data/ --fs_metadata_dir /opt/kudu/meta/ --fs_wal_dir /opt/kudu/wal/ --log_dir /opt/kudu/log/ &
# tablet
/opt/kudu/usr/local/sbin/kudu-tserver --fs_data_dirs /opt/kudu/data/ --fs_metadata_dir /opt/kudu/meta/ --fs_wal_dir /opt/kudu/wal/ --log_dir /opt/kudu/log/ --tserver_master_addrs kudu01 &

Spark

今回はYARNの環境がないので，Sparkのスタンドアロンモードを使用してクラスタを起動します。スタンドアロンモードはSparkのみを使ってマスタノード，スレーブノードを起動しクラスタを作成するモードです。Sparkの詳細なアーキテクチャについては良質な書籍や記事がたくさんありますので，本記事の範囲外とします。

MavenリポジトリにKuduのライブラリはScala 2.11向けのものが最新なので，spark-2.4.7-bin-hadoop2.7を使用します。

スタンドアロンモードで使用するのは非常に簡単で，spark-2.4.7-bin-hadoop2.7のアーカイブをダウンロード，展開した後，以下のコマンドを各ノードで実行するのみです。

# master
~/spark-2.4.7-bin-hadoop2.7/sbin/start-master.sh -h kudu01
# slave
~/spark-2.4.7-bin-hadoop2.7/sbin/start-slave.sh spark://kudu01:7077

masterの起動時にバインドするアドレスを指定する-hオプションでkudu01を指定しないと，slaveがローカルネットワークで接続できないので注意が必要です。

検証

上記のセットアップで5台構成のkuduとSparkクラスタが完成しました。これをつかって

TCP 12345番で待ち受けて適当なフォーマットのログを模したデータ（後述）を返すアプリケーションを作る
Spark StreamingでTCP 12345からデータを読み取り，1秒間隔でKuduに書き込む
Impalaでリアルタイムで集計する

という操作を行い，期待通りの処理が行われているか，書き込んだデータをリアルタイムに取得できるかを検証します。

テストデータ生成アプリケーション

今回は「ある時間にユーザが出したスコア」という設定で

UNIX_TIME,LOG_ID,USER_ID,SCORE

というカンマ区切りのデータを生成します。UNIX_TIMEは現在時刻のUNIX時間，LOG_IDはログ固有の文字列（UUIDを使用），ユーザIDは1～10000までの9999通りの乱数（あとで集計クエリをつかった検証をしやすくするために範囲を狭めている），スコアは0～100までの乱数を入れ，10msに1回TCP 12345番に接続してきたクライアントに対して送信するRubyスクリプトを作成します。

単に生成するだけではつまらないので，1000分の1の確率で同じログを2回同時に出力するような動きを入れておき，書き込む際に重複除去を行ってみます。

Impalaでテーブル作成

上記のログに合わせて下記のようなテーブルを作成します。ハッシュパーティショニングで16個のパーティションに分割します。

CREATE TABLE user_logs (
        id STRING,
        unix_time INTEGER,
        user_id INTEGER,
        score INTEGER,
        PRIMARY KEY(id)
)
PARTITION BY HASH PARTITIONS 16
STORED AS KUDU
;

Spark Streamingでデータ取得・書き込み

キモになる部分を以下に示します。ウィンドウサイズを1秒として，ストリームで入ってくるカンマ区切りのデータをパース後，（ID, リスト）のタプルで用いて重複除去を行ったあと，結果をKuduに書き込んでいます。ログは10msおきに出力されるので，1回の処理で100行のログが処理されることになります。

    val kc = new KuduContext("kudu01:7051", sc)

    val schema = StructType(List(
      StructField("id", StringType, nullable = false),
      StructField("unix_time", StringType, nullable = true),
      StructField("user_id", StringType, nullable = true),
      StructField("score", StringType, nullable = true)
    ))

    val lines = ssc.socketTextStream("kudu01", 12345)
    lines
      .map(x => {
        val l = x.split(",")
        (l(1), l)
      })
      .reduceByKey((x, y) => y)
      .map(_._2)
      .foreachRDD(rdd => rdd.foreach( x => {
          val kuduClient = kc.syncClient
          val kuduSession = kuduClient.newSession()
          kuduSession.setFlushMode(SessionConfiguration.FlushMode.AUTO_FLUSH_BACKGROUND)
          val table = kuduClient.openTable("impala::default.user_logs")
          val op = table.newInsert()
          val row = op.getRow
          row.addString("id", x(1))
          row.addInt("unix_time", x(0).toInt)
          row.addInt("user_id", x(2).toInt)
          row.addInt("score", x(3).toInt)
          kuduSession.apply(op)

          kuduSession.flush()
          kuduSession.close()
        })
      )

書き込みを行う部分はKudu公式のチュートリアル<fn>Developing Applications With Apache Kudu</fn>に記載されている「insertRows(dataFrame, tableName)」よりも冗長ですが，このように少しまわりくどいやり方をしないとうまく書き込みすることができませんでした。そこで（Spark用ラッパではない）KuduのAPIを使用し，直接Sessionを開いて書き込みを行っています。

完全なソースコードはこちら。

Impalaからクエリ実行

しばらく放置してデータがたまるのを待ち，Impalaからクエリを実行してみます。

[localhost.localdomain:21000] default> select count(1) from user_logs;

+----------+
| count(1) |
+----------+
| 9453971  |
+----------+
Fetched 1 row(s) in 0.16s
[localhost.localdomain:21000] default> select count(1) from user_logs;

+----------+
| count(1) |
+----------+
| 9454024  |
+----------+
Fetched 1 row(s) in 0.13s
[localhost.localdomain:21000] default> select count(1) from user_logs;

+----------+
| count(1) |
+----------+
| 9454138  |
+----------+
Fetched 1 row(s) in 0.13s

このように連続してCOUNTを実行すると，どんどんデータが増えていっているのがわかります。リアルタイムに書き込み・読み込みができているようです。

では次に「累計スコアトップ10のユーザ」を集計して表示してみます。

[localhost.localdomain:21000] default> select user_id, sum(score) as s from user_logs group by user_id order by s desc limit 10;

+---------+-------+                                                                                      
| user_id | s     |
+---------+-------+
| 9982    | 53213 |
| 1651    | 53035 |
| 7426    | 52895 |
| 761     | 52730 |
| 5321    | 52680 |
| 8347    | 52625 |
| 4924    | 52584 |
| 4087    | 52548 |
| 6090    | 52496 |
| 3316    | 52486 |
+---------+-------+
Fetched 10 row(s) in 1.27s

データ数は950万件弱でビッグデータとは言えない件数ですが，この程度の規模であれば1秒強で結果を取得することができました。リアルタイムにデータを書き込みながら，実用的な速度でインタラクティブにSQLを実行できそうです。

Stream処理の段階で行っている重複除去の成果を確認します。

[localhost.localdomain:21000] default> select id, count(1) as cnt from user_logs group by id having count(1) > 1;                                                                                                                            

Fetched 0 row(s) in 17.66s

重複データはなく，期待通りに処理されています。こちらは少し重く，20秒弱の時間を要しました。しかし，インタラクティブにクエリを発行しデータを見ていくには十分な性能です。今回Kuduの各ノードのスペックが低い上にImpalaが1ノードなので，スペックアップ＆複数ノードで分散することで，より高速な動作が期待できます。

所感

5台構成でノードのスペックも十分とは言えないものでしたが，毎秒100件弱の書き込みを行う程度ではまだ余裕があり，リアルタイムに集計クエリを実行することもできました。蓄積したデータをリアルタイムに使いたい要求が強い場合，十分選択肢に入ると思います（もちろんそれを意図して作られているわけですが）。masterのHA構成にも対応しており，プロダクションでも活躍できそうです。

ImpalaやSpark経由でBIツールやアプリケーションとの連携がとれるのでこういった点でも使いやすそうですが，運用やメンテナンスはHDFSと比べると少し大変そうな雰囲気なので，そのあたりがどうなっているかを調査するのが今後の課題です。

最後に

次世代システム研究室では、データサイエンティスト/機械学習エンジニアを募集しています。ビッグデータの解析業務など次世代システム研究室にご興味を持って頂ける方がいらっしゃいましたら、ぜひ募集職種一覧からご応募をお願いします。

皆さんのご応募をお待ちしています。

グループ研究開発本部の最新情報をTwitterで配信中です。ぜひフォローください。

Follow @GMO_RD

Spark Streaming + Kudu + Impalaでリアルタイムデータ集積＆分析を試す

とりあえず3行で

この記事でやること

各コンポーネントの概要

Spark Streaming

Kudu・Impala

環境セットアップ

Kudu・Impala

Spark

検証

テストデータ生成アプリケーション

Impalaでテーブル作成

Spark Streamingでデータ取得・書き込み

Impalaからクエリ実行

所感

最後に

関連記事

Strimziによるストリームデータ処理基盤を構築してみた-第1回

ABテストの自動化の取り組みについて

Hadoop (Hive, Ambari など) が使う DB を Percona XtraDB Cluster & ProxySQL で冗長化してみた

β版のDataproc on GKE (Google Kubernetes Engine) でSparkを検証してみた～ついでにBigQueryのコストも調査

最新の記事

採用情報

インターンシップ

インタビュー

Spark Streaming + Kudu + Impalaでリアルタイムデータ集積＆分析を試す

とりあえず3行で

この記事でやること

各コンポーネントの概要

Spark Streaming

Kudu・Impala

環境セットアップ

Kudu・Impala

Spark

検証

テストデータ生成アプリケーション

Impalaでテーブル作成

Spark Streamingでデータ取得・書き込み

Impalaからクエリ実行

所感

最後に

関連記事

Strimziによるストリームデータ処理基盤を構築してみた-第1回

ABテストの自動化の取り組みについて

Hadoop (Hive, Ambari など) が使う DB を Percona XtraDB Cluster & ProxySQL で冗長化してみた

β版のDataproc on GKE (Google Kubernetes Engine) でSparkを検証してみた～ついでにBigQueryのコストも調査

タグ

最新の記事

採用情報

インターンシップ

インタビュー