Foro Formación Hadoop
Apache Spark
Hola .
Tengo dos preguntas.
1. En relación al capitulo 11:
Según aparece en el ejemplo del pdf, para cargar un fichero parquet desde Spark-Sql es de esta manera:
val df = sqlContext.load("people.parquet")
Y como se muestra en la documentación oficial de apachespark:
https://spark.apache.org/docs/1.6.1/sql-programming-guide.html#data-sources
// The result of loading a Parquet file is also a DataFrame.
val parquetFile = sqlContext.read.parquet("people.parquet")
Las dos maneras son correctas?
2. Según la documentación oficial de spark.apache.org :
// This is used to implicitly convert an RDD to a DataFrame.
import sqlContext.implicits._
Pero entiendo que al usar la funcion toDF() es para convertir un RDD a un Dataframe
como se muestra en el ejercicio del pdf , capítulo 11.
Lo que no entiendo porque en ese ejercicio tambien se usa import sqlContext.implicits._
Me lo pueden aclarar por favor?
Saludos
Hola Miguel,
Respecto a las 2 formas de cargar (load), si, efectivamente las 2 son válidas. El método más correcto (actual) sería la segunda, sqlContext.read.parquet("people.parquet"), ya que el primer método está deprecado.
Referente al import, ese import contiene las clases/métodos para realizar las operaciones de dataframe-rdd o viceversa.
Un saludo,
Social networks