In de context van Apache Spark was `SQLContext` een startpunt voor het werken met gestructureerde gegevens met behulp van SQL-query's. Het stelde je in staat om:
* DataFrames maken: Het primaire doel was om DataFrames te maken op basis van verschillende gegevensbronnen (zoals CSV-bestanden, JSON-bestanden, Hive-tabellen, enz.). DataFrames zijn gestructureerde gegevensverzamelingen, georganiseerd in benoemde kolommen.
* SQL-query's uitvoeren: U kunt SQL-query's rechtstreeks uitvoeren op DataFrames die zijn geregistreerd als tijdelijke of permanente tabellen binnen de Spark SQL-engine.
* Toegang tot Spark SQL-functionaliteit: Het bood toegang tot de verschillende functionaliteiten van de Spark SQL-engine, zoals datatransformaties, aggregaties en andere SQL-achtige bewerkingen.
`SQLContext` is echter verouderd. Het is vervangen door `SparkSession` in latere versies van Spark. `SparkSession` combineert de functionaliteiten van `SQLContext`, `HiveContext` en `StreamingContext` in één enkel toegangspunt, wat een meer uniforme en gestroomlijnde aanpak biedt voor het werken met Spark.
Als u `SQLContext` tegenkomt in oudere Spark-code, moet u in essentie migreren naar het gebruik van `SparkSession`. Ze dienen hetzelfde fundamentele doel, maar 'SparkSession' is de aanbevolen en ondersteunde aanpak in de moderne Spark-ontwikkeling. Ze communiceren uiteindelijk allebei met de Spark SQL-engine, maar `SparkSession` biedt een meer geïntegreerde ervaring. |