Foro Formación Hadoop

Apache Spark

 
Imagen de MIGUEL OROPEZA
Apache Spark
de MIGUEL OROPEZA - lunes, 12 de marzo de 2018, 19:48
 

Hola .

Tengo dos preguntas.

1. En relación al capitulo 11:
Según aparece en el ejemplo del pdf, para cargar un fichero parquet desde Spark-Sql es de esta manera:
val df = sqlContext.load("people.parquet")

Y como se muestra en la documentación oficial de apachespark:
https://spark.apache.org/docs/1.6.1/sql-programming-guide.html#data-sources

// The result of loading a Parquet file is also a DataFrame.
val parquetFile = sqlContext.read.parquet("people.parquet")

             Las dos maneras son correctas?

 

 

2. Según la documentación oficial de spark.apache.org :
// This is used to implicitly convert an RDD to a DataFrame.
import sqlContext.implicits._

Pero entiendo que al usar la funcion toDF() es para convertir un RDD a un Dataframe
como se muestra en el ejercicio del pdf , capítulo 11.

Lo que no entiendo porque en ese ejercicio tambien se usa import sqlContext.implicits._

Me lo pueden aclarar por favor?

 

Saludos

 

 

Imagen de Admin Formación Hadoop
Re: Apache Spark
de Admin Formación Hadoop - miércoles, 21 de marzo de 2018, 20:19
 

Hola Miguel,

Respecto a las 2 formas de cargar (load), si, efectivamente las 2 son válidas. El método más correcto (actual) sería la segunda, sqlContext.read.parquet("people.parquet"), ya que el primer método está deprecado.

 

Referente al import, ese import contiene las clases/métodos para realizar las operaciones de dataframe-rdd o viceversa.

Un saludo,

Imagen de MIGUEL OROPEZA
Re: Apache Spark
de MIGUEL OROPEZA - martes, 27 de marzo de 2018, 15:23
 

Gracias