update

Abul Basar · Abul Basar · commit cdba4a3fdaae · 2018-12-19T12:20:09.000+05:30
diff --git a/pom.xml b/pom.xml
@@ -9,7 +9,7 @@
 <version>0.1</version>
 
 <properties>
- <sparkVersion>2.4.0</sparkVersion>
+ <sparkVersion>2.2.1</sparkVersion>
 <scalaVersion>2.11</scalaVersion>
 <maven.compiler.source>1.8</maven.compiler.source>
 <maven.compiler.target>1.8</maven.compiler.target>
@@ -61,7 +61,12 @@
 <dependency>
 <groupId>org.apache.hbase</groupId>
 <artifactId>hbase-client</artifactId>
- <version>2.1.0</version>
+ <version>1.3.0</version>
+ </dependency>
+ <dependency>
+ <groupId>org.apache.hbase</groupId>
+ <artifactId>hbase-server</artifactId>
+ <version>1.3.0</version>
 </dependency>
 
 <!--dependency>
@@ -71,4 +76,30 @@
 </dependency-->
 
 </dependencies>
+
+ <build>
+
+ <plugins>
+ <plugin>
+ <artifactId>maven-assembly-plugin</artifactId>
+ <version>3.1.0</version>
+ <configuration>
+ <descriptorRefs>
+ <descriptorRef>jar-with-dependencies</descriptorRef>
+ </descriptorRefs>
+ </configuration>
+ <executions>
+ <execution>
+ <id>make-assembly</id> <!-- this is used for inheritance merges -->
+ <phase>package</phase> <!-- bind to the packaging phase -->
+ <goals>
+ <goal>single</goal>
+ </goals>
+ </execution>
+ </executions>
+ </plugin>
+
+ </plugins>
+ </build>
+
 </project>
diff --git a/src/main/java/com/example/LoadToHBase.java b/src/main/java/com/example/LoadToHBase.java
@@ -4,15 +4,23 @@
 import org.apache.hadoop.conf.Configuration;
 import org.apache.hadoop.fs.Path;
 import org.apache.hadoop.hbase.HBaseConfiguration;
+import org.apache.hadoop.hbase.KeyValue;
 import org.apache.hadoop.hbase.TableName;
 import org.apache.hadoop.hbase.client.Connection;
 import org.apache.hadoop.hbase.client.ConnectionFactory;
 import org.apache.hadoop.hbase.client.Put;
 import org.apache.hadoop.hbase.client.Table;
+import org.apache.hadoop.hbase.io.ImmutableBytesWritable;
+import org.apache.hadoop.hbase.mapreduce.TableOutputFormat;
+import org.apache.hadoop.hbase.util.Bytes;
 import org.apache.spark.SparkConf;
+import org.apache.spark.api.java.JavaPairRDD;
+import org.apache.spark.api.java.JavaRDD;
 import org.apache.spark.api.java.function.ForeachPartitionFunction;
 import org.apache.spark.api.java.function.MapFunction;
 import org.apache.spark.sql.*;
+import scala.Tuple2;
+
 
 import java.io.IOException;
 import java.io.Serializable;
@@ -29,7 +37,8 @@ public class LoadToHBase implements Serializable{
 public LoadToHBase(){
 conf = new SparkConf()
 .setAppName(getClass().getName())
- .setIfMissing("spark.master", "local[*]");
+ .setIfMissing("spark.master", "local[*]")
+ .setIfMissing("spark.driver.memory", "4g");
 spark = SparkSession.builder().config(conf).getOrCreate();
 }
 
@@ -52,13 +61,19 @@ private void saveStockRecords(Iterator<Stock> rows){
 conn = ConnectionFactory.createConnection(configuration);
 table = conn.getTable(TableName.valueOf("ns1:stocks"));
 List<Put> puts = new ArrayList<>();
+ int batchSize = 2000;
+ int count = 0;
 while (rows.hasNext()){
 Stock stock = rows.next();
 puts.add(stock.toPut());
+ if(puts.size() % batchSize == 0){
+ table.put(puts);
+ puts.clear();
+ }
+ ++count;
 }
- System.out.println(String.format("Saving %d records", puts.size()));
- Object[] results = new Object[puts.size()];
 table.put(puts);
+ System.out.println(String.format("Saving %d records", count));
 table.close();
 } catch (IOException ex){
 ex.printStackTrace();
@@ -71,32 +86,63 @@ private void saveStockRecords(Iterator<Stock> rows){
 }
 }
 
+ private Stock rowToStock(Row row){
+ Stock stock = new Stock();
+
+ stock.setDate(row.getAs("date"));
+
+ stock.setOpen(row.getAs("open"));
+ stock.setClose(row.getAs("close"));
+ stock.setHigh(row.getAs("high"));
+ stock.setLow(row.getAs("low"));
+ stock.setClose(row.getAs("close"));
+ stock.setAdjclose(row.getAs("adjclose"));
+ stock.setVolume(row.getAs("volume"));
+ stock.setSymbol(row.getAs("symbol"));
+
+ return stock;
+ }
+
 public void saveToHBase(String path){
 Dataset<Row> dataset = loadCsv(path).withColumn("date"
 , functions.expr("cast(`date` as date) as `date`"));
 
- Dataset<Stock> stockRows = dataset.map((MapFunction<Row, Stock>) row ->{
- Stock stock = new Stock();
+ Dataset<Stock> stockRows = dataset.map((MapFunction<Row, Stock>) row -> rowToStock(row), Encoders.bean(Stock.class));
 
- stock.setDate(row.getAs("date"));
+ stockRows.show();
 
- stock.setOpen(row.getAs("open"));
- stock.setClose(row.getAs("close"));
- stock.setHigh(row.getAs("high"));
- stock.setLow(row.getAs("low"));
- stock.setClose(row.getAs("close"));
- stock.setAdjclose(row.getAs("adjclose"));
- stock.setVolume(row.getAs("volume"));
- stock.setSymbol(row.getAs("symbol"));
+ stockRows.foreachPartition((ForeachPartitionFunction<Stock>) rows -> saveStockRecords(rows));
+ }
 
- return stock;
- }, Encoders.bean(Stock.class));
+
+ public void createHFiles(String path, String outputPath){
+ Dataset<Row> dataset = loadCsv(path).withColumn("date"
+ , functions.expr("cast(`date` as date) as `date`"));
+
+ Dataset<Stock> stockRows = dataset.map((MapFunction<Row, Stock>) row -> rowToStock(row), Encoders.bean(Stock.class));
 
 stockRows.show();
 
- stockRows.foreachPartition((ForeachPartitionFunction<Stock>) rows -> saveStockRecords(rows));
+ JavaPairRDD<ImmutableBytesWritable, Put> pairRdd = stockRows.javaRDD().mapToPair(r ->
+ new Tuple2<>(r.toKey(), r.toPut()));
+
+
+ Configuration configuration = HBaseConfiguration.create();
+ String resourcePath = LoadToHBase.class
+ .getClassLoader()
+ .getResource("hbase-site.xml")
+ .getPath();
+ configuration.addResource(new Path(resourcePath));
+
+ configuration.set(TableOutputFormat.OUTPUT_TABLE, "ns1:stocks");
+ pairRdd.saveAsNewAPIHadoopFile(outputPath
+ , ImmutableBytesWritable.class
+ , Put.class
+ , TableOutputFormat.class
+ , configuration);
 
 }
+
 public void close(){
 spark.close();
 }
@@ -105,6 +151,7 @@ public static void main(String[] agrs){
 String path = "/data/stocks.csv";
 LoadToHBase loadToHBase = new LoadToHBase();
 loadToHBase.saveToHBase(path);
+ //loadToHBase.createHFiles(path, "/tmp/stocks_hfile");
 loadToHBase.close();
 
 }
diff --git a/src/main/java/com/example/QueryHBaseTable.java b/src/main/java/com/example/QueryHBaseTable.java
@@ -0,0 +1,52 @@
+package com.example;
+
+import com.example.helper.Stock;
+import org.apache.hadoop.conf.Configuration;
+import org.apache.hadoop.fs.Path;
+import org.apache.hadoop.hbase.HBaseConfiguration;
+import org.apache.hadoop.hbase.client.Result;
+import org.apache.hadoop.hbase.io.ImmutableBytesWritable;
+import org.apache.hadoop.hbase.mapreduce.TableInputFormat;
+import org.apache.spark.SparkConf;
+import org.apache.spark.api.java.JavaPairRDD;
+import org.apache.spark.sql.Dataset;
+import org.apache.spark.sql.Row;
+import org.apache.spark.sql.SparkSession;
+
+public class QueryHBaseTable{
+ private SparkSession spark = null;
+ private SparkConf conf = null;
+ public QueryHBaseTable(){
+ conf = new SparkConf()
+ .setAppName(getClass().getName())
+ .setIfMissing("spark.master", "local[*]")
+ .setIfMissing("spark.driver.memory", "4g");
+ spark = SparkSession.builder().config(conf).getOrCreate();
+ }
+
+ public void loadFromHBase( ){
+
+ Configuration configuration = HBaseConfiguration.create();
+ String path = LoadToHBase.class
+ .getClassLoader()
+ .getResource("hbase-site.xml")
+ .getPath();
+ configuration.addResource(new Path(path));
+
+ configuration.set(TableInputFormat.INPUT_TABLE, "ns1:stocks");
+
+
+ JavaPairRDD<ImmutableBytesWritable, Result> rows = spark.sparkContext().newAPIHadoopRDD(configuration
+ , TableInputFormat.class
+ , ImmutableBytesWritable.class
+ , Result.class).toJavaRDD().mapToPair(r -> r);
+
+ Dataset<Row> df = spark.createDataFrame(rows.map(r -> Stock.parse(r._2)), Stock.class);
+ df.show();
+
+ }
+
+ public static void main(String[] args){
+ new QueryHBaseTable().loadFromHBase();
+ }
+}
diff --git a/src/main/java/com/example/helper/Stock.java b/src/main/java/com/example/helper/Stock.java
@@ -1,12 +1,17 @@
 package com.example.helper;
 
+import org.apache.hadoop.hbase.KeyValue;
 import org.apache.hadoop.hbase.client.Put;
 import org.apache.hadoop.hbase.client.Result;
+import org.apache.hadoop.hbase.io.ImmutableBytesWritable;
 import org.apache.hadoop.hbase.util.Bytes;
+import scala.Tuple2;
 
 import java.io.Serializable;
 import java.sql.Date;
-
+import java.util.ArrayList;
+import java.util.Iterator;
+import java.util.List;
 
 
 public class Stock implements Serializable{
@@ -130,6 +135,22 @@ public Put toPut(){
 return put;
 }
 
+ public Iterator<Tuple2<ImmutableBytesWritable, KeyValue>> toKVPairs(){
+ long epoch = date.getTime();
+ byte[] rowkey = Bytes.toBytes(String.format("%s-%d", symbol, epoch));
+ List<KeyValue> keyValues = new ArrayList<>();
+
+ keyValues.add(new KeyValue(rowkey, infoColumnFamily, openCol, Bytes.toBytes(open)));
+ keyValues.add(new KeyValue(rowkey, infoColumnFamily, closeCol, Bytes.toBytes(close)));
+ keyValues.add(new KeyValue(rowkey, infoColumnFamily, highCol, Bytes.toBytes(high)));
+ keyValues.add(new KeyValue(rowkey, infoColumnFamily, lowCol, Bytes.toBytes(low)));
+ keyValues.add(new KeyValue(rowkey, infoColumnFamily, adjcloseCol, Bytes.toBytes(adjclose)));
+ keyValues.add(new KeyValue(rowkey, infoColumnFamily, dateCol, Bytes.toBytes(epoch)));
+ keyValues.add(new KeyValue(rowkey, infoColumnFamily, symbolCol, Bytes.toBytes(symbol)));
+
+ return keyValues.stream().map(r -> new Tuple2<>(new ImmutableBytesWritable(rowkey), r)).iterator();
+ }
+
 public static Stock parse(Result result){
 Stock stock = new Stock();
 stock.setOpen(Bytes.toDouble(result.getValue(infoColumnFamily, openCol)));
@@ -148,6 +169,12 @@ public static Stock parse(Result result){
 
 }
 
+ public ImmutableBytesWritable toKey(){
+ long epoch = date.getTime();
+ byte[] rowkey = Bytes.toBytes(String.format("%s-%d", symbol, epoch));
+ return new ImmutableBytesWritable(rowkey);
+ }
+
 
 
 

-Original file line number
+Diff line change
 importorg.apache.hadoop.conf.Configuration;
 importorg.apache.hadoop.fs.Path;
 importorg.apache.hadoop.hbase.HBaseConfiguration;
 +importorg.apache.hadoop.hbase.KeyValue;
 importorg.apache.hadoop.hbase.TableName;
 importorg.apache.hadoop.hbase.client.Connection;
 importorg.apache.hadoop.hbase.client.ConnectionFactory;
 importorg.apache.hadoop.hbase.client.Put;
 importorg.apache.hadoop.hbase.client.Table;
 +importorg.apache.hadoop.hbase.io.ImmutableBytesWritable;
 +importorg.apache.hadoop.hbase.mapreduce.TableOutputFormat;
 +importorg.apache.hadoop.hbase.util.Bytes;
 importorg.apache.spark.SparkConf;
 +importorg.apache.spark.api.java.JavaPairRDD;
 +importorg.apache.spark.api.java.JavaRDD;
 importorg.apache.spark.api.java.function.ForeachPartitionFunction;
 importorg.apache.spark.api.java.function.MapFunction;
 importorg.apache.spark.sql.*;
 +importscala.Tuple2;
++
 importjava.io.IOException;
 importjava.io.Serializable;
 publicLoadToHBase(){
 conf = newSparkConf()
  .setAppName(getClass().getName())
 - .setIfMissing("spark.master", "local[*]");
 + .setIfMissing("spark.master", "local[*]")
 + .setIfMissing("spark.driver.memory", "4g");
 spark = SparkSession.builder().config(conf).getOrCreate();
+ }
 conn = ConnectionFactory.createConnection(configuration);
 table = conn.getTable(TableName.valueOf("ns1:stocks"));
 List<Put> puts = newArrayList<>();
 +intbatchSize = 2000;
 +intcount = 0;
 while (rows.hasNext()){
 Stockstock = rows.next();
 puts.add(stock.toPut());
 +if(puts.size() % batchSize == 0){
 +table.put(puts);
 +puts.clear();
 + }
 + ++count;
+ }
 -System.out.println(String.format("Saving %d records", puts.size()));
 -Object[] results = newObject[puts.size()];
 table.put(puts);
 +System.out.println(String.format("Saving %d records", count));
 table.close();
  } catch (IOExceptionex){
 ex.printStackTrace();
+ }
+ }
 +privateStockrowToStock(Rowrow){
 +Stockstock = newStock();
++
 +stock.setDate(row.getAs("date"));
++
 +stock.setOpen(row.getAs("open"));
 +stock.setClose(row.getAs("close"));
 +stock.setHigh(row.getAs("high"));
 +stock.setLow(row.getAs("low"));
 +stock.setClose(row.getAs("close"));
 +stock.setAdjclose(row.getAs("adjclose"));
 +stock.setVolume(row.getAs("volume"));
 +stock.setSymbol(row.getAs("symbol"));
++
 +returnstock;
 + }
++
 publicvoidsaveToHBase(Stringpath){
 Dataset<Row> dataset = loadCsv(path).withColumn("date"
  , functions.expr("cast(`date` as date) as `date`"));
 -Dataset<Stock> stockRows = dataset.map((MapFunction<Row, Stock>) row ->{
 -Stockstock = newStock();
 +Dataset<Stock> stockRows = dataset.map((MapFunction<Row, Stock>) row -> rowToStock(row), Encoders.bean(Stock.class));
 -stock.setDate(row.getAs("date"));
 +stockRows.show();
 -stock.setOpen(row.getAs("open"));
 -stock.setClose(row.getAs("close"));
 -stock.setHigh(row.getAs("high"));
 -stock.setLow(row.getAs("low"));
 -stock.setClose(row.getAs("close"));
 -stock.setAdjclose(row.getAs("adjclose"));
 -stock.setVolume(row.getAs("volume"));
 -stock.setSymbol(row.getAs("symbol"));
 +stockRows.foreachPartition((ForeachPartitionFunction<Stock>) rows -> saveStockRecords(rows));
 + }
 -returnstock;
 - }, Encoders.bean(Stock.class));
++
 +publicvoidcreateHFiles(Stringpath, StringoutputPath){
 +Dataset<Row> dataset = loadCsv(path).withColumn("date"
 + , functions.expr("cast(`date` as date) as `date`"));
++
 +Dataset<Stock> stockRows = dataset.map((MapFunction<Row, Stock>) row -> rowToStock(row), Encoders.bean(Stock.class));
 stockRows.show();
 -stockRows.foreachPartition((ForeachPartitionFunction<Stock>) rows -> saveStockRecords(rows));
 +JavaPairRDD<ImmutableBytesWritable, Put> pairRdd = stockRows.javaRDD().mapToPair(r ->
 +newTuple2<>(r.toKey(), r.toPut()));
++
++
 +Configurationconfiguration = HBaseConfiguration.create();
 +StringresourcePath = LoadToHBase.class
 + .getClassLoader()
 + .getResource("hbase-site.xml")
 + .getPath();
 +configuration.addResource(newPath(resourcePath));
++
 +configuration.set(TableOutputFormat.OUTPUT_TABLE, "ns1:stocks");
 +pairRdd.saveAsNewAPIHadoopFile(outputPath
 + , ImmutableBytesWritable.class
 + , Put.class
 + , TableOutputFormat.class
 + , configuration);
+ }
++
 publicvoidclose(){
 spark.close();
+ }
 Stringpath = "/data/stocks.csv";
 LoadToHBaseloadToHBase = newLoadToHBase();
 loadToHBase.saveToHBase(path);
 +//loadToHBase.createHFiles(path, "/tmp/stocks_hfile");
 loadToHBase.close();
+ }
-Original file line number
+Diff line change
@@ @@ -1,12 +1,17 @@ @@
 packagecom.example.helper;
 +importorg.apache.hadoop.hbase.KeyValue;
 importorg.apache.hadoop.hbase.client.Put;
 importorg.apache.hadoop.hbase.client.Result;
 +importorg.apache.hadoop.hbase.io.ImmutableBytesWritable;
 importorg.apache.hadoop.hbase.util.Bytes;
 +importscala.Tuple2;
 importjava.io.Serializable;
 importjava.sql.Date;
+-
 +importjava.util.ArrayList;
 +importjava.util.Iterator;
 +importjava.util.List;
 publicclassStockimplementsSerializable{
 returnput;
+ }
 +publicIterator<Tuple2<ImmutableBytesWritable, KeyValue>> toKVPairs(){
 +longepoch = date.getTime();
 +byte[] rowkey = Bytes.toBytes(String.format("%s-%d", symbol, epoch));
 +List<KeyValue> keyValues = newArrayList<>();
++
 +keyValues.add(newKeyValue(rowkey, infoColumnFamily, openCol, Bytes.toBytes(open)));
 +keyValues.add(newKeyValue(rowkey, infoColumnFamily, closeCol, Bytes.toBytes(close)));
 +keyValues.add(newKeyValue(rowkey, infoColumnFamily, highCol, Bytes.toBytes(high)));
 +keyValues.add(newKeyValue(rowkey, infoColumnFamily, lowCol, Bytes.toBytes(low)));
 +keyValues.add(newKeyValue(rowkey, infoColumnFamily, adjcloseCol, Bytes.toBytes(adjclose)));
 +keyValues.add(newKeyValue(rowkey, infoColumnFamily, dateCol, Bytes.toBytes(epoch)));
 +keyValues.add(newKeyValue(rowkey, infoColumnFamily, symbolCol, Bytes.toBytes(symbol)));
++
 +returnkeyValues.stream().map(r -> newTuple2<>(newImmutableBytesWritable(rowkey), r)).iterator();
 + }
++
 publicstaticStockparse(Resultresult){
 Stockstock = newStock();
 stock.setOpen(Bytes.toDouble(result.getValue(infoColumnFamily, openCol)));
+ }
 +publicImmutableBytesWritabletoKey(){
 +longepoch = date.getTime();
 +byte[] rowkey = Bytes.toBytes(String.format("%s-%d", symbol, epoch));
 +returnnewImmutableBytesWritable(rowkey);
 + }
++