spark-dataframes

Here are 47 public repositories matching this topic...

mahmoudparsian / pyspark-tutorial

PySpark-Tutorial provides basic algorithms using PySpark

big-data spark pyspark dataframes spark-dataframes pyspark-tutorial big-data-analytics data-algorithms spark-rdd rdds pyspark-sql ranking-functions

Updated May 26, 2025
Jupyter Notebook

26hzhang / StockPrediction

Star

Plain Stock Close-Price Prediction via Graves LSTM RNNs

java recurrent-neural-networks lstm stock-price-prediction deeplearning4j spark-dataframes

Updated Feb 15, 2021
Java

mahmoudparsian / big-data-mapreduce-course

Star

Big Data Modeling, MapReduce, Spark, PySpark @ Santa Clara University

Updated Oct 17, 2025
HTML

Thomas-George-T / Movies-Analytics-in-Spark-and-Scala

Star

Data cleaning, pre-processing, and Analytics on a million movies using Spark and Scala.

scala movies big-data spark hadoop analytics movielens-data-analysis shell-script dataframes movielens-dataset rdd case-study spark-sql spark-programs spark-dataframes big-data-analytics spark-scala big-data-projects spark-rdd

Updated May 19, 2021
Scala

Apache Spark is a fast, in-memory data processing engine with elegant and expressive development API's to allow data workers to efficiently execute streaming, machine learning or SQL workloads that require fast iterative access to datasets.This project will have sample programs for Spark in Scala language .

Updated Nov 16, 2022
Scala

jubins / Spark-And-MLlib-Projects

Star

This repository contains Spark, MLlib, PySpark and Dataframes projects

python spark pyspark spark-streaming mllib sparksql aws-ec2 spark-dataframes spark-ml

Updated Oct 22, 2017
Jupyter Notebook

yennanliu / spark-etl-pipeline

Star

Various data stream/batch process demo with Apache Scala Spark 🚀

docker dockerfile scala twitter spark apache-spark sbt pipeline stream-processing sbt-plugin spark-streaming sbt-assembly spark-sql spark-dataframes spark-batch spark-rdd

Updated Feb 28, 2020
Scala

jkoth / Data-Lake-with-Spark-and-AWS-S3

Star

Create Data Lake on AWS S3 to store dimensional tables after processing data using Spark on AWS EMR cluster

apache-spark aws-s3 aws-emr pyspark data-engineering data-lake json-format udacity-nanodegree spark-dataframes dimensional-model star-schema etl-pipeline

Updated Oct 10, 2019
Python

neerajkesav / SparkJavaExamples

Star

Apache Spark Basics - Java Examples

java spark apache-spark hadoop hdfs sparkjava spark-java rdd sparkcontext spark-transformations spark-dataframes flatmap spark-example learn-spark spark-actions spark-basics javardd

Updated Sep 9, 2016
Java

NashTech-Labs / Sparkathon

Star

A library having Java and Scala examples for Spark 2.x

scala spark apache-spark spark-streaming java-8 rdd spark-sql spark-mllib spark-dataframes spark-ml knoldus spark-dataset spark-structured-streaming

Updated Dec 29, 2016
Java

afzals2000 / spark-bigquery-parallel

Star

Spark BigQuery Parallel

bigquery spark apache-spark pyspark google-cloud-platform spark-sql spark-dataframes spark-scala pyspark-python

Updated Jan 24, 2019
Scala

MaxineXiong / Item-based-collaborative-filtering

Star

This project utilizes PySpark DataFrames and PySpark RDD to implement item-based collaborative filtering. By calculating cosine similarity scores or identifying movies with the highest number of shared viewers, the system recommends 10 similar movies for a given target movie that aligns users’ preferences.

python spark apache-spark collaborative-filtering pyspark movie-recommendation spark-dataframes spark-rdd

Updated Jun 29, 2024
Jupyter Notebook

maziyarpanahi / spark-quickie

Star

Getting started with Apache Spark

spark spark-dataframes

Updated Feb 16, 2024

Vivek-Murali / CarCrashAnalysis

Star

BCG GAMMA CASE STUDY

etl pyspark data-engineering spark-dataframes

Updated Jan 27, 2023
Jupyter Notebook

thenickben / SplitCSV-Spark

Star

Big Data - Split a large CSV file into N smaller ones and save them into the local disk

scala big-data spark spark-dataframes

Updated Nov 3, 2018
Scala

NashTech-Labs / spark-dataframes-meetup

Star

meetup scala spark sbt spark-dataframes knoldus

Updated Apr 4, 2016
Scala

mayankrawat / CSVJoin

Star

Use this project to join data from multiple csv files. Currently in this project we support one to one and one to many join. Along with this you can find how to use kafka producer efficiently with spark.

Updated Jul 1, 2022
Java

ninjeanne / datastorm

Star

Data Science and Engineering project - Programming for Big Data @ Simon Fraser University (SFU)

aws data-science data big-data spark aws-lambda aws-s3 bigdata data-visualization python3 aws-emr data-engineering aws-dynamodb spark-sql spark-mllib spark-dataframes

Updated Jan 2, 2023
Jupyter Notebook

LucasDLee / CMPT-353-Final-Project

Star

This is our final project for SFU's CMPT 353 taught by Greg Baker during Summer 2023

python data-science statistics university-project spark-dataframes

Updated Aug 23, 2023
Python

RahulGupta16 / Pyspark-Theory-and-Code-Basics

Star

Pyspark serves as a Python interface to Apache Spark, enabling the execution of Python and SQL-like instructions for the manipulation and analysis of data within a distributed processing framework.

sql apache-spark python3 pyspark data-engineering sparksql rdd spark-dataframes

Updated Dec 12, 2023
Jupyter Notebook

Improve this page

Add a description, image, and links to the spark-dataframes topic page so that developers can more easily learn about it.

Curate this topic

Add this topic to your repo

To associate your repository with the spark-dataframes topic, visit your repo's landing page and select "manage topics."

Learn more

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

spark-dataframes

Here are 47 public repositories matching this topic...

mahmoudparsian / pyspark-tutorial

26hzhang / StockPrediction

mahmoudparsian / big-data-mapreduce-course

Thomas-George-T / Movies-Analytics-in-Spark-and-Scala

spider-123-eng / Spark

jubins / Spark-And-MLlib-Projects

yennanliu / spark-etl-pipeline

jkoth / Data-Lake-with-Spark-and-AWS-S3

neerajkesav / SparkJavaExamples

NashTech-Labs / Sparkathon

afzals2000 / spark-bigquery-parallel

MaxineXiong / Item-based-collaborative-filtering

maziyarpanahi / spark-quickie

Vivek-Murali / CarCrashAnalysis

thenickben / SplitCSV-Spark

NashTech-Labs / spark-dataframes-meetup

mayankrawat / CSVJoin

ninjeanne / datastorm

LucasDLee / CMPT-353-Final-Project

RahulGupta16 / Pyspark-Theory-and-Code-Basics

Improve this page

Add this topic to your repo