使用Java编写并运行Spark应用程序

我们首先提出这样一个简单的需求：
现在要分析某网站的访问日志信息，统计来自不同IP的用户访问的次数，从而通过Geo信息来获得来访用户所在国家地区分布状况。这里我拿我网站的日志记录行示例，如下所示：

`1`	`121.205.198.92 - - [21/Feb/2014:00:00:07 +0800] "GET /archives/417.html HTTP/1.1" 200 11465 "http://shiyanjun.cn/archives/417.html/" "Mozilla/5.0 (Windows NT 5.1; rv:11.0) Gecko/20100101 Firefox/11.0"`

`2`	`121.205.198.92 - - [21/Feb/2014:00:00:11 +0800] "POST /wp-comments-post.php HTTP/1.1" 302 26 "http://shiyanjun.cn/archives/417.html/" "Mozilla/5.0 (Windows NT 5.1; rv:23.0) Gecko/20100101 Firefox/23.0"`

`3`	`121.205.198.92 - - [21/Feb/2014:00:00:12 +0800] "GET /archives/417.html/ HTTP/1.1" 301 26 "http://shiyanjun.cn/archives/417.html/" "Mozilla/5.0 (Windows NT 5.1; rv:11.0) Gecko/20100101 Firefox/11.0"`

`4`	`121.205.198.92 - - [21/Feb/2014:00:00:12 +0800] "GET /archives/417.html HTTP/1.1" 200 11465 "http://shiyanjun.cn/archives/417.html" "Mozilla/5.0 (Windows NT 5.1; rv:11.0) Gecko/20100101 Firefox/11.0"`

`5`	`121.205.241.229 - - [21/Feb/2014:00:00:13 +0800] "GET /archives/526.html HTTP/1.1" 200 12080 "http://shiyanjun.cn/archives/526.html/" "Mozilla/5.0 (Windows NT 5.1; rv:11.0) Gecko/20100101 Firefox/11.0"`

`6`	`121.205.241.229 - - [21/Feb/2014:00:00:15 +0800] "POST /wp-comments-post.php HTTP/1.1" 302 26 "http://shiyanjun.cn/archives/526.html/" "Mozilla/5.0 (Windows NT 5.1; rv:23.0) Gecko/20100101 Firefox/23.0"`

Java实现Spark应用程序（Application）

我们实现的统计分析程序，有如下几个功能点：

从HDFS读取日志数据文件
将每行的第一个字段（IP地址）抽取出来
统计每个IP地址出现的次数
根据每个IP地址出现的次数进行一个降序排序
根据IP地址，调用GeoIP库获取IP所属国家
打印输出结果，每行的格式：[国家代码] IP地址频率

下面，看我们使用Java实现的统计分析应用程序代码，如下所示：

001 package org.shirdrn.spark.job;

002

003 import java.io.File;

004 import java.io.IOException;

005 import java.util.Arrays;

006 import java.util.Collections;

007 import java.util.Comparator;

008 import java.util.List;

009 import java.util.regex.Pattern;

010

011 import org.apache.commons.logging.Log;

012 import org.apache.commons.logging.LogFactory;

013 import org.apache.spark.api.java.JavaPairRDD;

014 import org.apache.spark.api.java.JavaRDD;

015 import org.apache.spark.api.java.JavaSparkContext;

016 import org.apache.spark.api.java.function.FlatMapFunction;

017 import org.apache.spark.api.java.function.Function2;

018 import org.apache.spark.api.java.function.PairFunction;

019 import org.shirdrn.spark.job.maxmind.Country;

020 import org.shirdrn.spark.job.maxmind.LookupService;

021

022 import scala.Serializable;

023 import scala.Tuple2;

024

025 public class IPAddressStats implements Serializable {

026

027 private static final long serialVersionUID = 8533489548835413763L;

028 private static final Log LOG = LogFactory.getLog(IPAddressStats.class);

029 private static final Pattern SPACE = Pattern.compile(" ");

030 private transient LookupService lookupService;

031 private transient final String geoIPFile;

032

033 public IPAddressStats(String geoIPFile) {

034 this.geoIPFile = geoIPFile;

035 try {

036 // lookupService: get country code from a IP address

037 File file = new File(this.geoIPFile);

038 LOG.info("GeoIP file: " + file.getAbsolutePath());

039 lookupService = new AdvancedLookupService(file, LookupService.GEOIP_MEMORY_CACHE);

040 } catch (IOException e) {

041 throw new RuntimeException(e);

042 }

043 }

044

045 @SuppressWarnings("serial")

046 public void stat(String[] args) {

047 JavaSparkContext ctx = new JavaSparkContext(args[0], "IPAddressStats",

048 System.getenv("SPARK_HOME"), JavaSparkContext.jarOfClass(IPAddressStats.class));

049 JavaRDD<String> lines = ctx.textFile(args[1], 1);

050

051 // splits and extracts ip address filed

052 JavaRDD<String> words = lines.flatMap(new FlatMapFunction<String, String>() {

053 @Override

054 public Iterable<String> call(String s) {

055 // 121.205.198.92 - - [21/Feb/2014:00:00:07 +0800] "GET /archives/417.html HTTP/1.1" 200 11465 "http://shiyanjun.cn/archives/417.html/" "Mozilla/5.0 (Windows NT 5.1; rv:11.0) Gecko/20100101 Firefox/11.0"

056 // ip address

057 return Arrays.asList(SPACE.split(s)[0]);

058 }

059 });

060

061 // map

062 JavaPairRDD<String, Integer> ones = words.map(new PairFunction<String, String, Integer>() {

063 @Override

064 public Tuple2<String, Integer> call(String s) {

065 return new Tuple2<String, Integer>(s, 1);

066 }

067 });

068

069 // reduce

070 JavaPairRDD<String, Integer> counts = ones.reduceByKey(new Function2<Integer, Integer, Integer>() {

071 @Override

072 public Integer call(Integer i1, Integer i2) {

073 return i1 + i2;

074 }

075 });

076

077 List<Tuple2<String, Integer>> output = counts.collect();

078

079 // sort statistics result by value

080 Collections.sort(output, new Comparator<Tuple2<String, Integer>>() {

081 @Override

082 public int compare(Tuple2<String, Integer> t1, Tuple2<String, Integer> t2) {

083 if(t1._2 < t2._2) {

084 return 1;

085 } else if(t1._2 > t2._2) {

086 return -1;

087 }

088 return 0;

089 }

090 });

091

092 writeTo(args, output);

093

094 }

095

096 private void writeTo(String[] args, List<Tuple2<String, Integer>> output) {

097 for (Tuple2<?, ?> tuple : output) {

098 Country country = lookupService.getCountry((String) tuple._1);

099 LOG.info("[" + country.getCode() + "] " + tuple._1 + "\t" + tuple._2);

100 }

101 }

102

103 public static void main(String[] args) {

104 // ./bin/run-my-java-example org.shirdrn.spark.job.IPAddressStatsspark://m1:7077 hdfs://m1:9000/user/shirdrn/wwwlog20140222.log/home/shirdrn/cloud/programs/spark-0.9.0-incubating-bin-hadoop1/java-examples/GeoIP_DATABASE.dat

105 if (args.length < 3) {

106 System.err.println("Usage: IPAddressStats <master> <inFile> <GeoIPFile>");

107 System.err.println(" Example: org.shirdrn.spark.job.IPAddressStatsspark://m1:7077 hdfs://m1:9000/user/shirdrn/wwwlog20140222.log/home/shirdrn/cloud/programs/spark-0.9.0-incubating-bin-hadoop1/java-examples/GeoIP_DATABASE.dat");

108 System.exit(1);

109 }

110

111 String geoIPFile = args[2];

112 IPAddressStats stats = new IPAddressStats(geoIPFile);

113 stats.stat(args);

114

115 System.exit(0);

116

117 }

118

119 }

具体实现逻辑，可以参考代码中的注释。我们使用Maven管理构建Java程序，首先看一下我的pom配置中所依赖的软件包，如下所示：

`01`	`<dependencies>`

`02`	`<dependency>`

`03`	`<groupId>org.apache.spark</groupId>`

`04`	`<artifactId>spark-core_2.10</artifactId>`

`05`	`<version>0.9.0-incubating</version>`

`06`	`</dependency>`

`07`	`<dependency>`

`08`	`<groupId>log4j</groupId>`

`09`	`<artifactId>log4j</artifactId>`

`10`	`<version>1.2.16</version>`

`11`	`</dependency>`

`12`	`<dependency>`

`13`	`<groupId>dnsjava</groupId>`

`14`	`<artifactId>dnsjava</artifactId>`

`15`	`<version>2.1.1</version>`

`16`	`</dependency>`

`17`	`<dependency>`

`18`	`<groupId>commons-net</groupId>`

`19`	`<artifactId>commons-net</artifactId>`

`20`	`<version>3.1</version>`

`21`	`</dependency>`

`22`	`<dependency>`

`23`	`<groupId>org.apache.hadoop</groupId>`

`24`	`<artifactId>hadoop-client</artifactId>`

`25`	`<version>1.2.1</version>`

`26`	`</dependency>`

`27`	`</dependencies>`

需要说明的是，当我们将程序在Spark集群上运行时，它要求我们的编写的Job能够进行序列化，如果某些字段不需要序列化或者无法序列化，可以直接使用
transient修饰即可，如上面的属性lookupService没有实现序列化接口，使用transient使其不执行序列化，否则的话，可能会出
现类似如下的错误：

`01`	`14/03/10 22:34:06 INFO scheduler.DAGScheduler: Failed to run collect at IPAddressStats.java:76`

`02`	`Exception` `in thread "main" org.apache.spark.SparkException: Job aborted: Task not serializable: java.io.NotSerializableException: org.shirdrn.spark.job.IPAddressStats`

`03`	`at` `org.apache.spark.scheduler.DAGScheduler$$anonfun$org$apache$spark$scheduler$DAGScheduler$$abortStage$1.apply(DAGScheduler.scala:1028)`

`04`	`at` `org.apache.spark.scheduler.DAGScheduler$$anonfun$org$apache$spark$scheduler$DAGScheduler$$abortStage$1.apply(DAGScheduler.scala:1026)`

`05`	`at scala.collection.mutable.ResizableArray$class.foreach(ResizableArray.scala:59)`

`06`	`at scala.collection.mutable.ArrayBuffer.foreach(ArrayBuffer.scala:47)`

`07`	`at org.apache.spark.scheduler.DAGScheduler.org$apache$spark$scheduler$DAGScheduler$$abortStage(DAGScheduler.scala:1026)`

`08`	`at org.apache.spark.scheduler.DAGScheduler.org$apache$spark$scheduler$DAGScheduler$$submitMissingTasks(DAGScheduler.scala:794)`

`09`	`at org.apache.spark.scheduler.DAGScheduler.org$apache$spark$scheduler$DAGScheduler$$submitStage(DAGScheduler.scala:737)`

`10`	`at` `org.apache.spark.scheduler.DAGScheduler$$anonfun$org$apache$spark$scheduler$DAGScheduler$$submitStage$4.apply(DAGScheduler.scala:741)`

`11`	`at` `org.apache.spark.scheduler.DAGScheduler$$anonfun$org$apache$spark$scheduler$DAGScheduler$$submitStage$4.apply(DAGScheduler.scala:740)`

`12`	`at scala.collection.immutable.List.foreach(List.scala:318)`

`13`	`at org.apache.spark.scheduler.DAGScheduler.org$apache$spark$scheduler$DAGScheduler$$submitStage(DAGScheduler.scala:740)`

`14`	`at org.apache.spark.scheduler.DAGScheduler.processEvent(DAGScheduler.scala:569)`

`15`	`at org.apache.spark.scheduler.DAGScheduler$$anonfun$start$1$$anon$2$$anonfun$receive$1.applyOrElse(DAGScheduler.scala:207)`

`16`	`at akka.actor.ActorCell.receiveMessage(ActorCell.scala:498)`

`17`	`at akka.actor.ActorCell.invoke(ActorCell.scala:456)`

`18`	`at akka.dispatch.Mailbox.processMailbox(Mailbox.scala:237)`

`19`	`at akka.dispatch.Mailbox.run(Mailbox.scala:219)`

`20`	`at akka.dispatch.ForkJoinExecutorConfigurator$AkkaForkJoinTask.exec(AbstractDispatcher.scala:386)`

`21`	`at scala.concurrent.forkjoin.ForkJoinTask.doExec(ForkJoinTask.java:260)`

`22`	`at scala.concurrent.forkjoin.ForkJoinPool$WorkQueue.runTask(ForkJoinPool.java:1339)`

`23`	`at scala.concurrent.forkjoin.ForkJoinPool.runWorker(ForkJoinPool.java:1979)`

`24`	`at scala.concurrent.forkjoin.ForkJoinWorkerThread.run(ForkJoinWorkerThread.java:107)`

在Spark集群上运行Java程序

这里，我使用了Maven管理构建Java程序，实现上述代码以后，使用Maven的maven-assembly-plugin插件，配置内容如下所示：

`01`	`<plugin>`

`02`	`<artifactId>maven-assembly-plugin</artifactId>`

`03`	`<configuration>`

`04`	`<archive>`

`05`	`<manifest>`

`06`	`<mainClass>org.shirdrn.spark.job.UserAgentStats</mainClass>`

`07`	`</manifest>`

`08`	`</archive>`

`09`	`<descriptorRefs>`

`10`	`<descriptorRef>jar-with-dependencies</descriptorRef>`

`11`	`</descriptorRefs>`

`12`	`<excludes>`

`13`	`<exclude>*.properties</exclude>`

`14`	`<exclude>*.xml</exclude>`

`15`	`</excludes>`

`16`	`</configuration>`

`17`	`<executions>`

`18`	`<execution>`

`19`	`<id>make-assembly</id>`

`20`	`<phase>package</phase>`

21 <goals>

`22`	`<goal>single</goal>`

`23`	`</goals>`

`24`	`</execution>`

`25`	`</executions>`

`26`	`</plugin>`

将相关依赖库文件都打进程序包里面，最后拷贝JAR文件到Linux系统下（不一定非要在Spark集群的Master节点上），保证该节点上Spark
的环境变量配置正确即可看。Spark软件发行包解压缩后，可以看到脚本bin/run-example，我们可以直接修改该脚本，将对应的路径指向我们
实现的Java程序包（修改变量EXAMPLES_DIR以及我们的JAR文件存放位置相关的内容），使用该脚本就可以运行，脚本内容如下所示：

`01`	`cygwin=false`

`02`	`case` "`uname`" `in`

`03`	`CYGWIN*) cygwin=true;;`

04 esac

05

`06`	`SCALA_VERSION=2.10`

07

`08`	`# Figure out where the Scala framework is installed`

`09`	`FWDIR=`"$(cd `dirname $0`/..; pwd)"

10

`11`	`# Export this as SPARK_HOME`

`12`	`export` `SPARK_HOME="$FWDIR"`

13

`14`	`# Load environment variables from conf/spark-env.sh, if it exists`

`15`	`if` `[ -e` `"$FWDIR/conf/spark-env.sh"` `] ;` `then`

`16`	`. $FWDIR/conf/spark-env.sh`

17 fi

18

`19`	`if` `[ -z` `"$1"` `];` `then`

`20`	`echo` `"Usage: run-example <example-class> [<args>]"` `>&2`

`21`	`exit` `1`

22 fi

23

`24`	`# Figure out the JAR file that our examples were packaged into. This includes a bit of a hack`

`25`	`# to avoid the -sources and -doc packages that are built by publish-local.`

`26`	`EXAMPLES_DIR="$FWDIR"/java-examples`

`27`	`SPARK_EXAMPLES_JAR=""`

`28`	`if` `[ -e` `"$EXAMPLES_DIR"/*.jar ];` `then`

`29`	`export` SPARK_EXAMPLES_JAR=``ls` `"$EXAMPLES_DIR"`/*.jar`

30 fi

`31`	`if` `[[ -z $SPARK_EXAMPLES_JAR ]];` `then`

`32`	`echo` `"Failed to find Spark examples assembly in $FWDIR/examples/target"` `>&2`

`33`	`echo` `"You need to build Spark with sbt/sbt assembly before running this program"` `>&2`

`34`	`exit` `1`

35 fi

36

37

`38`	`# Since the examples JAR ideally shouldn't include spark-core (that dependency should be`

`39`	`# "provided"), also add our standard Spark classpath, built using compute-classpath.sh.`

`40`	CLASSPATH=`$FWDIR/bin/compute-classpath.sh`

`41`	`CLASSPATH="$SPARK_EXAMPLES_JAR:$CLASSPATH"`

42

`43`	`if` `$cygwin;` `then`

`44`	CLASSPATH=`cygpath -wp $CLASSPATH`

`45`	`export` SPARK_EXAMPLES_JAR=`cygpath -w $SPARK_EXAMPLES_JAR`

46 fi

47

`48`	`# Find java binary`

`49`	`if` `[ -n` `"${JAVA_HOME}"` `];` `then`

`50`	`RUNNER="${JAVA_HOME}/bin/java"`

51 else

`52`	`if` [ ``command` `-v` java` ]; `then`

`53`	`RUNNER="java"`

54 else

`55`	`echo` `"JAVA_HOME is not set"` `>&2`

`56`	`exit` `1`

57 fi

58 fi

59

`60`	`# Set JAVA_OPTS to be able to load native libraries and to set heap size`

`61`	`JAVA_OPTS="$SPARK_JAVA_OPTS"`

`62`	`JAVA_OPTS="$JAVA_OPTS -Djava.library.path=$SPARK_LIBRARY_PATH"`

`63`	`# Load extra JAVA_OPTS from conf/java-opts, if it exists`

`64`	`if` `[ -e` `"$FWDIR/conf/java-opts"` `] ;` `then`

`65`	`JAVA_OPTS=`"$JAVA_OPTS `cat $FWDIR/conf/java-opts`"

66 fi

`67`	`export` `JAVA_OPTS`

68

`69`	`if` `[` `"$SPARK_PRINT_LAUNCH_COMMAND"` `==` `"1"` `];` `then`

`70`	`echo` `-n` `"Spark Command: "`

`71`	`echo` `"$RUNNER"` `-cp` `"$CLASSPATH"` `$JAVA_OPTS` `"$@"`

`72`	`echo` `"========================================"`

73 echo

74 fi

75

`76`	`exec` `"$RUNNER"` `-cp` `"$CLASSPATH"` `$JAVA_OPTS` `"$@"`

在Spark上运行我们开发的Java程序，执行如下命令：

`1`	`cd` `/home/shirdrn/cloud/programs/spark-0.9.0-incubating-bin-hadoop1`

`2`	`./bin/run-my-java-example org.shirdrn.spark.job.IPAddressStats spark://m1:7077hdfs://m1:9000/user/shirdrn/wwwlog20140222.log /home/shirdrn/cloud/programs/spark-0.9.0-incubating-bin-hadoop1/java-examples/GeoIP_DATABASE.dat`

我实现的程序类org.shirdrn.spark.job.IPAddressStats运行需要3个参数：

Spark集群主节点URL：例如我的是spark://m1:7077
输入文件路径：业务相关的，我这里是从HDFS上读取文件hdfs://m1:9000/user/shirdrn/wwwlog20140222.log
GeoIP库文件：业务相关的，用来计算IP地址所属国家的外部文件

如果程序没有错误，能够正常运行，控制台输出程序运行日志，示例如下所示：

`01`	`14/03/10` `22:17:24 INFO job.IPAddressStats: GeoIP file: /home/shirdrn/cloud/programs/spark-0.9.0-incubating-bin-hadoop1/java-examples/GeoIP_DATABASE.dat`

`02`	`SLF4J: Class path contains multiple SLF4J bindings.`

`03`	`SLF4J:` `Found binding in [jar:file:/home/shirdrn/cloud/programs/spark-0.9.0-incubating-bin-hadoop1/java-examples/spark-0.0.1-SNAPSHOT-jar-with-dependencies.jar!/org/slf4j/impl/StaticLoggerBinder.class]`

`04`	`SLF4J:` `Found binding in [jar:file:/home/shirdrn/cloud/programs/spark-0.9.0-incubating-bin-hadoop1/assembly/target/scala-2.10/spark-assembly_2.10-0.9.0-incubating-hadoop1.0.4.jar!/org/slf4j/impl/StaticLoggerBinder.class]`

`05`	`SLF4J: See http://www.slf4j.org/codes.html#multiple_bindings for an explanation.`

`06`	`SLF4J: Actual binding is of type [org.slf4j.impl.Log4jLoggerFactory]`

`07`	`14/03/10 22:17:25 INFO slf4j.Slf4jLogger: Slf4jLogger started`

`08`	`14/03/10 22:17:25 INFO Remoting: Starting remoting`

`09`	`14/03/10 22:17:25 INFO Remoting: Remoting started; listening on addresses :[akka.tcp://spark@m1:57379]`

`10`	`14/03/10 22:17:25 INFO Remoting: Remoting now listens on addresses: [akka.tcp://spark@m1:57379]`

`11`	`14/03/10 22:17:25 INFO spark.SparkEnv: Registering BlockManagerMaster`

`12`	`14/03/10 22:17:25 INFO storage.DiskBlockManager: Created local directory at /tmp/spark-local-20140310221725-c1cb`

`13`	`14/03/10 22:17:25 INFO storage.MemoryStore: MemoryStore started with capacity 143.8 MB.`

`14`	`14/03/10 22:17:25 INFO network.ConnectionManager: Bound socket to port 45189 with id = ConnectionManagerId(m1,45189)`

`15`	`14/03/10 22:17:25 INFO storage.BlockManagerMaster: Trying to register BlockManager`

`16`	`14/03/10 22:17:25 INFO storage.BlockManagerMasterActor$BlockManagerInfo: Registering block manager m1:45189 with 143.8 MB RAM`

`17`	`14/03/10 22:17:25 INFO storage.BlockManagerMaster: Registered BlockManager`

`18`	`14/03/10 22:17:25 INFO spark.HttpServer: Starting HTTP Server`

`19`	`14/03/10 22:17:25 INFO server.Server: jetty-7.x.y-SNAPSHOT`

`20`	`14/03/10 22:17:25 INFO server.AbstractConnector: Started SocketConnector@0.0.0.0:49186`

`21`	`14/03/10 22:17:25 INFO broadcast.HttpBroadcast: Broadcast server started athttp://10.95.3.56:49186`

`22`	`14/03/10 22:17:25 INFO spark.SparkEnv: Registering MapOutputTracker`

`23`	`14/03/10 22:17:25 INFO spark.HttpFileServer: HTTP File server directory is /tmp/spark-56c3e30d-a01b-4752-83d1-af1609ab2370`

`24`	`14/03/10 22:17:25 INFO spark.HttpServer: Starting HTTP Server`

`25`	`14/03/10 22:17:25 INFO server.Server: jetty-7.x.y-SNAPSHOT`

`26`	`14/03/10 22:17:25 INFO server.AbstractConnector: Started SocketConnector@0.0.0.0:52073`

`27`	`14/03/10 22:17:26 INFO server.Server: jetty-7.x.y-SNAPSHOT`

`28`	`14/03/10 22:17:26 INFO handler.ContextHandler: started o.e.j.s.h.ContextHandler{/storage/rdd,null}`

`29`	`14/03/10 22:17:26 INFO handler.ContextHandler: started o.e.j.s.h.ContextHandler{/storage,null}`

`30`	`14/03/10 22:17:26 INFO handler.ContextHandler: started o.e.j.s.h.ContextHandler{/stages/stage,null}`

`31`	`14/03/10 22:17:26 INFO handler.ContextHandler: started o.e.j.s.h.ContextHandler{/stages/pool,null}`

`32`	`14/03/10 22:17:26 INFO handler.ContextHandler: started o.e.j.s.h.ContextHandler{/stages,null}`

`33`	`14/03/10 22:17:26 INFO handler.ContextHandler: started o.e.j.s.h.ContextHandler{/environment,null}`

`34`	`14/03/10 22:17:26 INFO handler.ContextHandler: started o.e.j.s.h.ContextHandler{/executors,null}`

`35`	`14/03/10 22:17:26 INFO handler.ContextHandler: started o.e.j.s.h.ContextHandler{/metrics/json,null}`

`36`	`14/03/10 22:17:26 INFO handler.ContextHandler: started o.e.j.s.h.ContextHandler{/static,null}`

`37`	`14/03/10 22:17:26 INFO handler.ContextHandler: started o.e.j.s.h.ContextHandler{/,null}`

`38`	`14/03/10 22:17:26 INFO server.AbstractConnector: Started SelectChannelConnector@0.0.0.0:4040`

`39`	`14/03/10 22:17:26 INFO ui.SparkUI: Started Spark Web UI at http://m1:4040`

`40`	`14/03/10` `22:17:26 INFO spark.SparkContext: Added JAR /home/shirdrn/cloud/programs/spark-0.9.0-incubating-bin-hadoop1/java-examples/spark-0.0.1-SNAPSHOT-jar-with-dependencies.jar at http://10.95.3.56:52073/jars/spark-0.0.1-SNAPSHOT-jar-with-dependencies.jar with timestamp 1394515046396`

`41`	`14/03/10 22:17:26 INFO client.AppClient$ClientActor: Connecting to masterspark://m1:7077...`

`42`	`14/03/10 22:17:26 INFO storage.MemoryStore: ensureFreeSpace(60341) called with curMem=0, maxMem=150837657`

`43`	`14/03/10 22:17:26 INFO storage.MemoryStore: Block broadcast_0 stored as values to memory (estimated size 58.9 KB, free 143.8 MB)`

`44`	`14/03/10 22:17:26 INFO cluster.SparkDeploySchedulerBackend: Connected to Spark cluster with app ID app-20140310221726-0000`

`45`	`14/03/10` `22:17:27 INFO client.AppClient$ClientActor: Executor added: app-20140310221726-0000/0 on worker-20140310221648-s1-52544 (s1:52544) with 1 cores`

`46`	`14/03/10` `22:17:27 INFO cluster.SparkDeploySchedulerBackend: Granted executor ID app-20140310221726-0000/0 on hostPort s1:52544 with 1 cores, 512.0 MB RAM`

`47`	`14/03/10` `22:17:27 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable`

`48`	`14/03/10 22:17:27 WARN snappy.LoadSnappy: Snappy native library not loaded`

`49`	`14/03/10 22:17:27 INFO client.AppClient$ClientActor: Executor updated: app-20140310221726-0000/0 is now RUNNING`

`50`	`14/03/10 22:17:27 INFO mapred.FileInputFormat: Total input paths to process : 1`

`51`	`14/03/10 22:17:27 INFO spark.SparkContext: Starting job: collect at IPAddressStats.java:77`

`52`	`14/03/10 22:17:27 INFO scheduler.DAGScheduler: Registering RDD 4 (reduceByKey at IPAddressStats.java:70)`

`53`	`14/03/10 22:17:27 INFO scheduler.DAGScheduler: Got job 0 (collect at IPAddressStats.java:77) with 1 output partitions (allowLocal=false)`

`54`	`14/03/10 22:17:27 INFO scheduler.DAGScheduler: Final stage: Stage 0 (collect at IPAddressStats.java:77)`

`55`	`14/03/10 22:17:27 INFO scheduler.DAGScheduler: Parents of final stage: List(Stage 1)`

`56`	`14/03/10 22:17:27 INFO scheduler.DAGScheduler: Missing parents: List(Stage 1)`

`57`	`14/03/10` `22:17:27 INFO scheduler.DAGScheduler: Submitting Stage 1 (MapPartitionsRDD[4] at reduceByKey at IPAddressStats.java:70), which has no missing parents`

`58`	`14/03/10` `22:17:27 INFO scheduler.DAGScheduler: Submitting 1 missing tasks from Stage 1 (MapPartitionsRDD[4] at reduceByKey at IPAddressStats.java:70)`

`59`	`14/03/10 22:17:27 INFO scheduler.TaskSchedulerImpl: Adding task set 1.0 with 1 tasks`

`60`	`14/03/10 22:17:28 INFO cluster.SparkDeploySchedulerBackend: Registered executor: Actor[akka.tcp://sparkExecutor@s1:59233/user/Executor#-671170811] with ID 0`

`61`	`14/03/10 22:17:28 INFO scheduler.TaskSetManager: Starting task 1.0:0 as TID 0 on executor 0: s1 (PROCESS_LOCAL)`

`62`	`14/03/10 22:17:28 INFO scheduler.TaskSetManager: Serialized task 1.0:0 as 2396 bytes in 5 ms`

`63`	`14/03/10 22:17:29 INFO storage.BlockManagerMasterActor$BlockManagerInfo: Registering block manager s1:47282 with 297.0 MB RAM`

`64`	`14/03/10 22:17:32 INFO scheduler.TaskSetManager: Finished TID 0 in 3376 ms on s1 (progress: 0/1)`

`65`	`14/03/10 22:17:32 INFO scheduler.DAGScheduler: Completed ShuffleMapTask(1, 0)`

`66`	`14/03/10 22:17:32 INFO scheduler.DAGScheduler: Stage 1 (reduceByKey at IPAddressStats.java:70) finished in 4.420 s`

`67`	`14/03/10 22:17:32 INFO scheduler.DAGScheduler: looking for newly runnable stages`

`68`	`14/03/10 22:17:32 INFO scheduler.DAGScheduler: running: Set()`

`69`	`14/03/10 22:17:32 INFO scheduler.DAGScheduler: waiting: Set(Stage 0)`

`70`	`14/03/10 22:17:32 INFO scheduler.DAGScheduler: failed: Set()`

`71`	`14/03/10 22:17:32 INFO scheduler.TaskSchedulerImpl: Remove TaskSet 1.0 from pool`

`72`	`14/03/10 22:17:32 INFO scheduler.DAGScheduler: Missing parents for Stage 0: List()`

`73`	`14/03/10` `22:17:32 INFO scheduler.DAGScheduler: Submitting Stage 0 (MapPartitionsRDD[6] at reduceByKey at IPAddressStats.java:70), which is now runnable`

`74`	`14/03/10` `22:17:32 INFO scheduler.DAGScheduler: Submitting 1 missing tasks from Stage 0 (MapPartitionsRDD[6] at reduceByKey at IPAddressStats.java:70)`

`75`	`14/03/10 22:17:32 INFO scheduler.TaskSchedulerImpl: Adding task set 0.0 with 1 tasks`

`76`	`14/03/10 22:17:32 INFO scheduler.TaskSetManager: Starting task 0.0:0 as TID 1 on executor 0: s1 (PROCESS_LOCAL)`

`77`	`14/03/10 22:17:32 INFO scheduler.TaskSetManager: Serialized task 0.0:0 as 2255 bytes in 1 ms`

`78`	`14/03/10 22:17:32 INFO spark.MapOutputTrackerMasterActor: Asked to send map output locations for shuffle 0 to spark@s1:33534`

`79`	`14/03/10 22:17:32 INFO spark.MapOutputTrackerMaster: Size of output statuses for shuffle 0 is 120 bytes`

`80`	`14/03/10 22:17:32 INFO scheduler.TaskSetManager: Finished TID 1 in 282 ms on s1 (progress: 0/1)`

`81`	`14/03/10 22:17:32 INFO scheduler.DAGScheduler: Completed ResultTask(0, 0)`

`82`	`14/03/10 22:17:32 INFO scheduler.DAGScheduler: Stage 0 (collect at IPAddressStats.java:77) finished in 0.314 s`

`83`	`14/03/10 22:17:32 INFO scheduler.TaskSchedulerImpl: Remove TaskSet 0.0 from pool`

`84`	`14/03/10 22:17:32 INFO spark.SparkContext: Job finished: collect at IPAddressStats.java:77, took 4.870958309 s`

`85`	`14/03/10 22:17:32 INFO job.IPAddressStats: [CN] 58.246.49.218 312`

`86`	`14/03/10 22:17:32 INFO job.IPAddressStats: [KR] 1.234.83.77 300`

`87`	`14/03/10 22:17:32 INFO job.IPAddressStats: [CN] 120.43.11.16 212`

`88`	`14/03/10 22:17:32 INFO job.IPAddressStats: [CN] 110.85.72.254 207`

`89`	`14/03/10 22:17:32 INFO job.IPAddressStats: [CN] 27.150.229.134 185`

`90`	`14/03/10 22:17:32 INFO job.IPAddressStats: [HK] 180.178.52.181 181`

`91`	`14/03/10 22:17:32 INFO job.IPAddressStats: [CN] 120.37.210.212 180`

`92`	`14/03/10 22:17:32 INFO job.IPAddressStats: [CN] 222.77.226.83 176`

`93`	`14/03/10 22:17:32 INFO job.IPAddressStats: [CN] 120.43.11.205 169`

`94`	`14/03/10 22:17:32 INFO job.IPAddressStats: [CN] 120.43.9.19 165`

95 ...

我们也可以通过Web控制台来查看当前执行应用程序（Application）的状态信息，通过Master节点的8080端口（如：http://m1:8080/）就能看到集群的应用程序（Application）状态信息。
另外，需要说明的时候，如果在Unix环境下使用Eclipse使用Java开发Spark应用程序，也能够直接通过Eclipse连接Spark集群，并提交开发的应用程序，然后交给集群去处理。

参考链接

个人收藏笔记记录

开通VIP