前回の続きになりますが、
一昨日の投稿の中で言った構成要素の問題ってコレなんですよね。
なんと言うか、「夏の草ボーボーの山」って感じですかね。現時点では、「秋になって、草が枯れてから山登りしようか。」みたいな感じです。
もう少し具体的に言うと、初歩的なチュートリアルは動作しましたが、.NET for Apache SparkでKafKaに接続や、構造化ストリーミングの集計処理を試みたら、エラーになったりして、
- 現時点でサポートがない事
- 問題の切り分けが難しい事
- どのソフトウェア・スタックを使用したら良いか?明確でない事
Windows、Linux、言語バインディング、ローカル or Databricksなどがあり、問題発生時、どのレイヤの問題か?組み合わせの問題か?など、問題の切り分けが困難。 - 出力先の接続元が多く、認証方式も様々
File、DB(RSB、NoSQL)、Queue(RabbitMQ、Apache Kafka)などがあり、認証機構の問題も絡んでくると難易度が飛躍的に上がる。 - チュートリアル類がまだ十分でない事
ソフトウェア・スタックだけでなく、入力元や出力先の接続が多様で、認証方式も様々。そんな状況下で、各プロダクトのバージョンアップが早いと言った複合的な要因が影響していそう。
などが決め手となって、もうチョット後でやるか、
若しくは、気長にやろうとリスケすることにしました。
ちなみに、最近、NewSQLと言う単語を耳にしましたが、コチラは、SQL互換インターフェイスを持つ水平分散可能なRDBMSの様なので、入力から出力を生成するバッチのようなSparkSQLと競合するものではないっぽいですね。