前回の続きになりますが、今回は、一応、Apache Spark や Databricks、漸くスタートラインに立てた感が出てきたので、その"ご報告"になります。
...で、前回の軌道修正から、どうやって立て直してスタートラインに立ったのか?と言うと、先ず、サンプルプログラム量が多いPython(PySpark)に白羽の矢を立てました。
...で、色々と調べていると、Jupyter Notebookと言うものがあるのが解りました。同時に
ココで、「本来、Apache SparkのファーストステップではSparkシェルが既定と言うか、適合していて、"インタラクティブ"な環境で習得スべきなんだな。」と言う事も解りました(コレは、SQLの習得の際は、アドホック・クエリを大量に書く必要がある。...ってのに近いですかね)。
...で、このJupyter NotebookでPythonや、PySparkの簡単なチュートリアルを動かしました。次いで、Databricks NotebookのサンプルをJupyter Notebookで動かしてみて(実際はAzureストレージへの接続部分のライブラリが足りなくて動かなかったが)、最後に、Databricks Notebookでコレを動かしました(Jupyter Notebookへ、ライブラリを追加する手順が解ればソレでも出来る気がする)。
...と、PySpark → Jupyter Notebook → Databricks Notebookと進んだら上手く遂行できたので、この順序で進むのが良さそうです。
特に、ビルドしてSpark Submitする系のSparkアプリから始めるのではなく、Notebook系を使用してアドホックに Spark SQL や DataFrame APIを実行し、これらの動作についての理解を深めた後、定型的な処理をSparkアプリに移植すると言う流れで良いんじゃないか?と。
その頃には、Apache Sparkから入出力先への接続サンプル・プログラム量も増え、.NET for Apache Sparkも使いモノになっていると良いかな?と思ったりしています。