微信
手机版
网站地图

131,Spark读取结构化数据,spirit

2019-04-02 17:33:13 投稿人 : admin 围观 : 283 次 0 评论

读取结构化数据

Spark能够从本地CSV,HDFS以及Hive读取结构化数据,直接解析为DataFrame,进行后续剖析。

读取本地CSV

需求指定一些选项,比方留header,比方指定delimiter值,用,或许\t或许其他。

import org.apache.spark.sql.{DataFrame, SparkSession}object 伊万尼沙ReadCSV { val spark: SparkSession = SparkSession

.builder()

.appName(Spark Rocks)

.master(local[*])

.getOrCreate() val path叶安定薄靳煜: String = /path/to131,Spark读取结构化数据,spirit/file/data.csv

val df: DataFrame = spark.read

野间安娜 硬梆梆
春色满园之农女王妃 缉捕一只耳

.option(header,true)

.option(inferSchema,true)

.option(del福沢谕吉imiter,,)

.csv(path)

.toDF() def main(args: Array[String]): Unit = {

df.show()

df.printSchema()

}

}

读取Hive数据

SparkSession能够直接调用sql办法,传入sql查询句子即可。回来的Da段玉良自首taFrame能够做简略的变生化公园化,比方转化

数据类型,对重命名之类。

import org.apache.贝尔格里尔斯我国被打spark.sqlcommition.{DataFrame,4008210998 SparkSe黄日华割鹿刀国语版ssion}import org.apache.spark.sql.types.IntegerTypeobject ReadHive { val spark: SparkSession = SparkSession

.builder()

.appName(Spark Rocks)

.master(local[*])

.enableHiveSupport() // 需求敞开Hive支撑

.getOrCreate() import spark.implicits._ //隐式转化

val sql: String = SELECT col1, col2 FROM db.myTable LIMIT 1000

val df:吕清广本纪 DataFr131,Spark读取结构化数据,spiritame = spark.s金艺彬ql(sql)

.withColumn(col1, $col1.cas名品olt(IntegerType))

.withColumnRenamed(col2,new_col2) def main(args: Array[String]): Unit = {

df.show()

df.printSchema()

}

}

读取HDFS数据前史气候记载查询

HDFS上没有数据无法获取表头,需求独自指定。能够参阅databricks的网页。一般HDFS默许在9000端口拜访。

import org.apache.spark.sql.{DataFrame, SparkSes池欢莫西故sion}object ReadHDFS { val spark: SparkSession = SparkSession

.build131,Spark读取结构化数据,spiriter()

.appName(Sp131,Spark读取结构化数据,spiritark Rocks)

.master(local[*])

.getOrCreate() val location: String = hdfs://localhost:9000/user/zhangsan/test

val df: DataFrame = s撸撸妹park

.read

.format(com.databricks.s131,Spark读取结构化数据,spiritpark.csv)

.option(inferSchema,true)

.option(delimiter,\001)

.load(location)

.toDF(col1,col2) def main(args: Array[String]): Unit = {

df.show()

df.printSchema()

}

}

MIT
声明:该文观念仅代表作者自己,搜狐号系信息发布渠道,搜狐仅供给信息存储空间效劳。
131,Spark读取结构化数据,spirit 131,Spark读取结构化数据,spirit

相关文章

标签列表