use df.rdd.map

bc002afe · Pengfei Xue · 8c384665 · bc002afe
Commit bc002afe authored Jun 20, 2019 by Pengfei Xue
Hide whitespace changes
Inline Side-by-side

Showing with 3 additions and 4 deletions

pvCheker.scala src/main/scala/com/gmei/data/dq/pvCheker.scala +3 -4

No files found.
--- a/src/main/scala/com/gmei/data/dq/pvCheker.scala
+++ b/src/main/scala/com/gmei/data/dq/pvCheker.scala
@@ -4,7 +4,6 @@ import org.apache.spark.sql.{Row, SparkSession}
 import org.apache.spark.mllib.linalg.Vectors
 import org.apache.spark.mllib.stat.{MultivariateStatisticalSummary, Statistics}

-
 case class Record(
  cl_id: String, action: String, app_version: String, page_name: String,
  extra: Int, referrer: Int, is_push: Int, in: Int, out: Int,
@@ -51,9 +50,9 @@ object pvCheker {
    import sc.implicits._
    import sc.sqlContext.implicits._

-    val y = df.as[Record].map {
-      case r => Seq(r.extra, r.referrer, r.is_push, r.in, r.out, r.referrer_id, r.referrer_tab_name, r.bz_id)
-    }.rdd
+    val y = df.rdd.map {
+      case r: Record => Seq(r.extra, r.referrer, r.is_push, r.in, r.out, r.referrer_id, r.referrer_tab_name, r.bz_id)
+    }

    val z = y map {i => Vectors.dense(i.toArray[Double])}
    val summary: MultivariateStatisticalSummary = Statistics.colStats(z)