Aus dem Kurs: Apache Spark mit Python – Grundlagen

So erhalten Sie Zugriff auf diesen Kurs

Werden Sie noch heute Mitglied und erhalten Sie Zugriff auf mehr als 24.900 Kurse von Branchenfachleuten.

Was ist Apache Spark?

Was ist Apache Spark?

Zu Beginn stellt sich die Frage: Was ist Apache Spark denn eigentlich? Und welche Aufgaben hat Apache Spark? Apache Spark ist eine Open-Source-Engine für die verteilte Datenverarbeitung, die speziell für große Datenmengen entwickelt wurde. Spark wurde ursprünglich von der University of California in Berkeley entwickelt, ist heute eines der wichtigsten Frameworks für Big Data, Data Science und Machine Learning. Es ermöglicht, Daten nicht nur schnell zu analysieren, sondern auch interaktiv zu verarbeiten, bspw. im Speicher, und vor allen Dingen auch über viele, viele Systeme verteilt hinweg. Spark ist sehr flexibel. Spark unterstützt eine ganze Anzahl an Programmiersprachen, z.B. Python, Scala, Java und R. Dabei kann man sowohl Batch Jobs als auch Streaming-Daten verarbeiten, also z.B. Live-Daten aus Sensoren oder Logs. Spark selbst ist in Scala entwickelt worden. Ein großer Vorteil von Spark ist seine einheitliche Architektur – egal, ob SQL, Machine Learning, Streaming oder klassische…

Inhalt