0% found this document useful (0 votes)

66 views

Pair RDD Operations: Flat Map

This document provides examples of various Spark RDD and DataFrame/Dataset operations including: 1) Creating RDDs from local data, files on HDFS, and performing transformations like flatMap, filter, reduce; 2) Pair RDD operations like groupBy, reduceByKey, sortByKey, and joins; 3) Creating DataFrames/Datasets from JSON, working with Spark SQL, and creating temporary views; 4) Interacting with Hive, creating schemas with case classes, and running queries; 5) Examples of Spark Streaming word count using sockets and running a streaming application.

Uploaded by

marina dutta

Available Formats

Download as RTF, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

66 views

Pair RDD Operations: Flat Map

Uploaded by

marina dutta

Available Formats

Download as RTF, PDF, TXT or read online on Scribd

You are on page 1/ 4

val x = sc.

parallelize(List("spark rdd example", "sample example"))

val x = sc.parallelize(List("spark rdd example", "sample example”),2)

x.collect()

val textFileLocalTest = sc.textFile("/Users/syedrizvi/Desktop/HadoopExamples/file.txt");

val textFile = sc.textFile("hdfs://localhost:9000/test.txt")

Flat Map
val x = sc.parallelize(List("spark rdd example", "sample example"))
val y = x.flatMap(x => x.split(" "))

Map
val z = y.map(x => (x, 1));

Filter
val x = sc.parallelize(1 to 10)

Or with partition

val x = sc.parallelize(1 to 10, 2)

val y = x.filter(num => num%2==0)
y.collect();

Reduce
val x = sc.parallelize(1 to 10, 2)
val y = x.reduce((a, b) => (a+b))

Pair RDD Operations

GroupBy
val x = sc.parallelize(Array("Joseph", "Jimmy", "Tina","Thomas", "James", "Cory","Christine", "Jackeline",
"Juan"))
val y = x.groupBy(word => word.charAt(0))

y.collect();

ReduceByKey
val x = sc.parallelize(Array(("a", 1), ("b", 1), ("a", 1),("a", 1), ("b", 1),("b", 1),("b", 1), ("b", 1)))
val y = x.reduceByKey((key, value) => (key + value))
y.collect()

SortByKey
val y = x.sortByKey()
y.collect()

Joins
val salesprofit = sc.parallelize(Array(("Cadbury's", 3.5),("Nestle", 2.8),("Mars", 2.5), ("Thorton's", 2.2)));

val salesyear = sc.parallelize(Array(("Cadbury's", 2015),("Nestle", 2014),("Mars", 2014), ("Thorton's", 2013)));

val join = salesprofit.join(salesyear);

join.collect();
Spark SQL

val sqlContext = new org.apache.spark.sql.SQLContext(sc);

val df = sqlContext.read.json("/Users/syedrizvi/Desktop/HadoopExamples/Spark/sample.json")

df.show();

df.printSchema();

df.select(“name”).show();

df.select(df("name"),df("age")+1).show();

df.filter(df("age")>21).show()

df.groupBy("age").count().show();

Creating Temp Views

df.createOrReplaceTempView("people")
val sqlDF = spark.sql("SELECT * FROM people")
sqlDF.show();

Creating Data sets on the fly

case class Person(name: String, age: Long)

val caseClassDS = Seq(Person("Andy", 32)).toDS()
caseClassDS.show()

val primitiveDS = Seq(1, 2, 3).toDS()

primitiveDS.map(_ + 1).collect()

Creating Schemas with Reflection

val sqlContext = new org.apache.spark.sql.SQLContext(sc);

case class Person(name: String, age: Long)

val peopleDF =
spark.sparkContext.textFile("/Users/syedrizvi/Desktop/HadoopExamples/Spark/people.txt").map(_.split(",")).m
ap(attributes=>Person(attributes(0),attributes(1).trim.toInt)).toDF();

peopleDF.createOrReplaceTempView("people")

val teenagersDF = spark.sql("SELECT name, age FROM people WHERE age BETWEEN 13 AND 19")

teenagersDF.map(teenager => "Name: " + teenager(0)).show()

teenagersDF.map(teenager => "Name: " + teenager.getAs[String]("name")).show()

Interacting with Hive
import org.apache.spark.sql.Row
import org.apache.spark.sql.SparkSession

val warehouseLocation = "spark-warehouse"

val spark = SparkSession.builder().appName("Spark Hive Example").config("spark.sql.warehouse.dir",

warehouseLocation).enableHiveSupport().getOrCreate()

import spark.implicits._
import spark.sql

sql("CREATE TABLE IF NOT EXISTS src (key INT, value STRING)")

sql("LOAD DATA LOCAL INPATH '/Users/syedrizvi/Desktop/HadoopExamples/Spark/kv1.txt' INTO TABLE

src")

sql("SELECT * FROM src").show()

sql("select current_database()").show(false)

Spark Streaming
To run the example from source

To Run net cat

nc -lk 9999

/usr/local/Cellar/apache-spark/2.1.0/bin/run-example streaming.NetworkWordCount localhost 9999

Your own word count

import org.apache.spark.SparkConf
import org.apache.spark.storage.StorageLevel
import org.apache.spark.streaming.{Seconds, StreamingContext}

val ssc = new StreamingContext(sc, Seconds(1))

val lines = ssc.socketTextStream("localhost", 9999)
val words = lines.flatMap(_.split(" "))
val wordCounts = words.map(x => (x, 1)).reduceByKey(_ + _)
wordCounts.print()
ssc.start()
ssc.awaitTermination()

Apache Cassandra Administrator Associate - Exam Practice Tests
From Everand
Apache Cassandra Administrator Associate - Exam Practice Tests
Cristian Scutaru
No ratings yet
QAch 07
50% (2)
QAch 07
23 pages
What Is Spark?: Up To 100× Faster
No ratings yet
What Is Spark?: Up To 100× Faster
56 pages
Spark Summit East 2015 - Adv Dev Ops - Student Slides
No ratings yet
Spark Summit East 2015 - Adv Dev Ops - Student Slides
219 pages
Javascript Assessment Test
From Everand
Javascript Assessment Test
Edward Yao
No ratings yet
Interview
No ratings yet
Interview
86 pages
HDFS Commands
No ratings yet
HDFS Commands
15 pages
Sqoop Cheatsheet
No ratings yet
Sqoop Cheatsheet
3 pages
Spark RDD Dataframes SQL
No ratings yet
Spark RDD Dataframes SQL
3 pages
Hadoop Hdfs Commands
No ratings yet
Hadoop Hdfs Commands
5 pages
Hadoop Interview Guide
100% (1)
Hadoop Interview Guide
34 pages
Hive Commands
No ratings yet
Hive Commands
3 pages
Midhun BIGDATA Curicullum
No ratings yet
Midhun BIGDATA Curicullum
17 pages
Sqoop User Guide
No ratings yet
Sqoop User Guide
58 pages
Scala PDF
No ratings yet
Scala PDF
29 pages
Deepshikha Agrawal Pushp B.Sc. (IT), MBA (IT) Certification-Hadoop, Spark, Scala, Python, Tableau, ML (Assistant Professor JLBS)
No ratings yet
Deepshikha Agrawal Pushp B.Sc. (IT), MBA (IT) Certification-Hadoop, Spark, Scala, Python, Tableau, ML (Assistant Professor JLBS)
74 pages
Search Features: Arrow Functions
No ratings yet
Search Features: Arrow Functions
9 pages
Apache Hive
No ratings yet
Apache Hive
3 pages
Hadoop: Fasilkom/Pusilkom UI (Credit: Samuel Louvan)
No ratings yet
Hadoop: Fasilkom/Pusilkom UI (Credit: Samuel Louvan)
44 pages
Facebook Hive POC
No ratings yet
Facebook Hive POC
18 pages
Mongodb Cheat Sheet
No ratings yet
Mongodb Cheat Sheet
10 pages
MapReduce Example
No ratings yet
MapReduce Example
3 pages
Hive Tutorial For Beginners: Learn With Examples in 3 Days
No ratings yet
Hive Tutorial For Beginners: Learn With Examples in 3 Days
3 pages
PySpark Questions
No ratings yet
PySpark Questions
5 pages
Large-Scale Data Management: Hbase
No ratings yet
Large-Scale Data Management: Hbase
36 pages
Spark DataFrames Project Exercise - Jupyter Notebook
No ratings yet
Spark DataFrames Project Exercise - Jupyter Notebook
7 pages
Hbase: Q) What Is Hbase ?
No ratings yet
Hbase: Q) What Is Hbase ?
15 pages
SQL WW3 Schools
100% (1)
SQL WW3 Schools
34 pages
PostgreSQL Cheat Sheet - Hackr - Io
No ratings yet
PostgreSQL Cheat Sheet - Hackr - Io
90 pages
Distributed Database Systems: - Spark I
No ratings yet
Distributed Database Systems: - Spark I
59 pages
1 Hdfs Notes
No ratings yet
1 Hdfs Notes
38 pages
9 Sqoop Notes
No ratings yet
9 Sqoop Notes
17 pages
3 Mapreduce Notes
No ratings yet
3 Mapreduce Notes
25 pages
7 Hive Notes
No ratings yet
7 Hive Notes
36 pages
Real Time Hadoop Interview Questions From Various Interviews
No ratings yet
Real Time Hadoop Interview Questions From Various Interviews
6 pages
13 SparkBuildingAndDeploying
No ratings yet
13 SparkBuildingAndDeploying
53 pages
Create An Spark Streaming App: 1. Architecture and Abstraction
No ratings yet
Create An Spark Streaming App: 1. Architecture and Abstraction
8 pages
Snowflake Setup - MD
No ratings yet
Snowflake Setup - MD
2 pages
Hadoop Big Data Administration
No ratings yet
Hadoop Big Data Administration
6 pages
Scala Basic Interview Questions
No ratings yet
Scala Basic Interview Questions
16 pages
Mining Data Streams
No ratings yet
Mining Data Streams
67 pages
Lecture 4 - Pair RDD and DataFrame
No ratings yet
Lecture 4 - Pair RDD and DataFrame
38 pages
Hands On Exercises 2013
No ratings yet
Hands On Exercises 2013
51 pages
Bigdata Notes
No ratings yet
Bigdata Notes
26 pages
Spark Notes
No ratings yet
Spark Notes
6 pages
Spark With Bigdata
No ratings yet
Spark With Bigdata
94 pages
DBT Interview Prep
100% (1)
DBT Interview Prep
16 pages
Spark Training in Bangalore
No ratings yet
Spark Training in Bangalore
36 pages
Hadoop Interview Question
No ratings yet
Hadoop Interview Question
25 pages
DVS SPARK Course Content PDF
No ratings yet
DVS SPARK Course Content PDF
2 pages
BCA 428 Oracle
No ratings yet
BCA 428 Oracle
142 pages
Comandos Hive SQL
100% (1)
Comandos Hive SQL
5 pages
Apache Hadoop Commands
100% (1)
Apache Hadoop Commands
8 pages
Hive Query Optimization Infinity
No ratings yet
Hive Query Optimization Infinity
13 pages
Learning Apache Spark With Python
No ratings yet
Learning Apache Spark With Python
10 pages
Mining Data Streams (Part 2)
No ratings yet
Mining Data Streams (Part 2)
56 pages
Spark Sample Resume 2
100% (1)
Spark Sample Resume 2
7 pages
Cloudera Administration Study Guide
No ratings yet
Cloudera Administration Study Guide
3 pages
Pyspark Learning Hub
No ratings yet
Pyspark Learning Hub
7 pages
OOPS Concepts in Java
No ratings yet
OOPS Concepts in Java
30 pages
HBase Administration Cookbook
From Everand
HBase Administration Cookbook
Yifeng Jiang
No ratings yet
Hive Commands Acadgild Bucketing
No ratings yet
Hive Commands Acadgild Bucketing
2 pages
Hive Commands Simplin
No ratings yet
Hive Commands Simplin
5 pages
Assignment Day 10: Task 1
No ratings yet
Assignment Day 10: Task 1
8 pages
Assignment 10
No ratings yet
Assignment 10
9 pages
Get (Ebook) Real Time UML: Advances in the UML for Real-Time Systems by Douglass, Bruce Powel ISBN 9780321160768, 9782003022906, 0321160762, 2003022902 free all chapters
No ratings yet
Get (Ebook) Real Time UML: Advances in the UML for Real-Time Systems by Douglass, Bruce Powel ISBN 9780321160768, 9782003022906, 0321160762, 2003022902 free all chapters
86 pages
WebLogic Training
No ratings yet
WebLogic Training
9 pages
mysql important questions
No ratings yet
mysql important questions
24 pages
Daniel Doron: Work Experience
No ratings yet
Daniel Doron: Work Experience
3 pages
Voucher Mila 4 Jam Up 294 05.27.24 Duarebu27524
No ratings yet
Voucher Mila 4 Jam Up 294 05.27.24 Duarebu27524
5 pages
Cake PHP MTR
No ratings yet
Cake PHP MTR
3 pages
Final Exam1 PDF
No ratings yet
Final Exam1 PDF
5 pages
Oracle Academy - Database Design 9 Practice Activities - Answers
No ratings yet
Oracle Academy - Database Design 9 Practice Activities - Answers
5 pages
Orbtrc
No ratings yet
Orbtrc
6 pages
Spring
No ratings yet
Spring
12 pages
Chapter 10 Object-Oriented Analysis and Modeling Using UML: True/False Questions
No ratings yet
Chapter 10 Object-Oriented Analysis and Modeling Using UML: True/False Questions
19 pages
Important Theory in SQL
No ratings yet
Important Theory in SQL
12 pages
DBMS Unit-3
No ratings yet
DBMS Unit-3
88 pages
DFo 5 1
No ratings yet
DFo 5 1
21 pages
Assignment 2 Enterprise Architecture Framework 1. Zachman Framework
0% (1)
Assignment 2 Enterprise Architecture Framework 1. Zachman Framework
9 pages
9.data Models Relational Model
No ratings yet
9.data Models Relational Model
49 pages
WCF
No ratings yet
WCF
1 page
Hibernate: Advantage of Hibernate Over JDBC
No ratings yet
Hibernate: Advantage of Hibernate Over JDBC
35 pages
Data Management With Python, SQLite, and SQLAlchemy
No ratings yet
Data Management With Python, SQLite, and SQLAlchemy
57 pages
07 Task Performance 1 Roger Villanueva
No ratings yet
07 Task Performance 1 Roger Villanueva
3 pages
CST 204
No ratings yet
CST 204
57 pages
DB (10,11,12,13,14,16,19,23)
No ratings yet
DB (10,11,12,13,14,16,19,23)
41 pages
Pratik BIM Modeller
No ratings yet
Pratik BIM Modeller
1 page
Oracle Fundamentals
No ratings yet
Oracle Fundamentals
2 pages
Database Systems Handbook
No ratings yet
Database Systems Handbook
400 pages
DBMS Faq PDF
100% (1)
DBMS Faq PDF
4 pages
Class 2
No ratings yet
Class 2
3 pages
Sysml V2 Submission Team (SST) Sysml V2 Update January 30, 2021
No ratings yet
Sysml V2 Submission Team (SST) Sysml V2 Update January 30, 2021
31 pages
MySQL Test
No ratings yet
MySQL Test
5 pages

Note: This service is not intended for secure transactions such as banking, social media, email, or purchasing. Use at your own risk. We assume no liability whatsoever for broken pages.

Pair RDD Operations: Flat Map

Uploaded by

Pair RDD Operations: Flat Map

Uploaded by

val x = sc.

parallelize(List("spark rdd example", "sample example"))

val x = sc.parallelize(List("spark rdd example", "sample example”),2)

val textFileLocalTest = sc.textFile("/Users/syedrizvi/Desktop/HadoopExamples/file.txt");

val textFile = sc.textFile("hdfs://localhost:9000/test.txt")

val x = sc.parallelize(1 to 10, 2)

Pair RDD Operations

val salesyear = sc.parallelize(Array(("Cadbury's", 2015),("Nestle", 2014),("Mars", 2014), ("Thorton's", 2013)));

val join = salesprofit.join(salesyear);

val sqlContext = new org.apache.spark.sql.SQLContext(sc);

Creating Temp Views

Creating Data sets on the fly

case class Person(name: String, age: Long)

val primitiveDS = Seq(1, 2, 3).toDS()

Creating Schemas with Reflection

val sqlContext = new org.apache.spark.sql.SQLContext(sc);

case class Person(name: String, age: Long)

teenagersDF.map(teenager => "Name: " + teenager(0)).show()

teenagersDF.map(teenager => "Name: " + teenager.getAs[String]("name")).show()

val warehouseLocation = "spark-warehouse"

val spark = SparkSession.builder().appName("Spark Hive Example").config("spark.sql.warehouse.dir",

sql("CREATE TABLE IF NOT EXISTS src (key INT, value STRING)")

sql("LOAD DATA LOCAL INPATH '/Users/syedrizvi/Desktop/HadoopExamples/Spark/kv1.txt' INTO TABLE

sql("SELECT * FROM src").show()

To Run net cat

/usr/local/Cellar/apache-spark/2.1.0/bin/run-example streaming.NetworkWordCount localhost 9999

Your own word count

val ssc = new StreamingContext(sc, Seconds(1))

You might also like

Pfad - The Proxy pFad of © 2024 Garber Painting. All rights reserved.