Foro Formación Hadoop

Apache Spark

 
Picture of MIGUEL OROPEZA
Apache Spark
by MIGUEL OROPEZA - Monday, 12 March 2018, 7:48 PM
 

Hola .

Tengo dos preguntas.

1. En relación al capitulo 11:
Según aparece en el ejemplo del pdf, para cargar un fichero parquet desde Spark-Sql es de esta manera:
val df = sqlContext.load("people.parquet")

Y como se muestra en la documentación oficial de apachespark:
https://spark.apache.org/docs/1.6.1/sql-programming-guide.html#data-sources

// The result of loading a Parquet file is also a DataFrame.
val parquetFile = sqlContext.read.parquet("people.parquet")

             Las dos maneras son correctas?

 

 

2. Según la documentación oficial de spark.apache.org :
// This is used to implicitly convert an RDD to a DataFrame.
import sqlContext.implicits._

Pero entiendo que al usar la funcion toDF() es para convertir un RDD a un Dataframe
como se muestra en el ejercicio del pdf , capítulo 11.

Lo que no entiendo porque en ese ejercicio tambien se usa import sqlContext.implicits._

Me lo pueden aclarar por favor?

 

Saludos

 

 

Picture of Admin Formación Hadoop
Re: Apache Spark
by Admin Formación Hadoop - Wednesday, 21 March 2018, 8:19 PM
 

Hola Miguel,

Respecto a las 2 formas de cargar (load), si, efectivamente las 2 son válidas. El método más correcto (actual) sería la segunda, sqlContext.read.parquet("people.parquet"), ya que el primer método está deprecado.

 

Referente al import, ese import contiene las clases/métodos para realizar las operaciones de dataframe-rdd o viceversa.

Un saludo,

Picture of MIGUEL OROPEZA
Re: Apache Spark
by MIGUEL OROPEZA - Tuesday, 27 March 2018, 3:23 PM
 

Gracias