Aula Virtual Formación Hadoop: Apache Spark

Foro Formación Hadoop

Apache Spark

Hola .

Tengo dos preguntas.

1. En relación al capitulo 11:
Según aparece en el ejemplo del pdf, para cargar un fichero parquet desde Spark-Sql es de esta manera:
val df = sqlContext.load("people.parquet")

Y como se muestra en la documentación oficial de apachespark:
https://spark.apache.org/docs/1.6.1/sql-programming-guide.html#data-sources

// The result of loading a Parquet file is also a DataFrame.
val parquetFile = sqlContext.read.parquet("people.parquet")

Las dos maneras son correctas?

2. Según la documentación oficial de spark.apache.org :
// This is used to implicitly convert an RDD to a DataFrame.
import sqlContext.implicits._

Pero entiendo que al usar la funcion toDF() es para convertir un RDD a un Dataframe
como se muestra en el ejercicio del pdf , capítulo 11.

Lo que no entiendo porque en ese ejercicio tambien se usa import sqlContext.implicits._

Me lo pueden aclarar por favor?

Saludos

Permalink

Hola Miguel,

Respecto a las 2 formas de cargar (load), si, efectivamente las 2 son válidas. El método más correcto (actual) sería la segunda, sqlContext.read.parquet("people.parquet"), ya que el primer método está deprecado.

Referente al import, ese import contiene las clases/métodos para realizar las operaciones de dataframe-rdd o viceversa.