Add a typed col function for creating column references

Itamar Ravid · Itamar Ravid · commit 897e499649b8 · 2017-09-22T11:59:09.000+03:00
Resolves #186.
diff --git a/dataset/src/main/scala/frameless/functions/package.scala b/dataset/src/main/scala/frameless/functions/package.scala
@@ -2,6 +2,8 @@ package frameless
 
 import org.apache.spark.sql.catalyst.ScalaReflection
 import org.apache.spark.sql.catalyst.expressions.Literal
+import org.apache.spark.sql.functions.{ col => sparkCol }
+import shapeless.Witness
 
 package object functions extends Udf with UnaryFunctions {
   object aggregate extends AggregateFunctions
@@ -17,4 +19,12 @@ package object functions extends Udf with UnaryFunctions {
       new TypedColumn(expr)
     }
   }
+
+  def col[T, A](column: Witness.Lt[Symbol])(
+    implicit
+    exists: TypedColumn.Exists[T, column.T, A],
+    encoder: TypedEncoder[A]): TypedColumn[T, A] = {
+    val untypedExpr = sparkCol(column.value.name).as[A](TypedExpressionEncoder[A])
+    new TypedColumn[T, A](untypedExpr)
+  }
 }
diff --git a/dataset/src/test/scala/frameless/SelectTests.scala b/dataset/src/test/scala/frameless/SelectTests.scala
@@ -18,9 +18,10 @@ class SelectTests extends TypedDatasetSuite {
       val A = dataset.col[A]('a)
 
       val dataset2 = dataset.select(A).collect().run().toVector
+      val symDataset2 = dataset.select(functions.col('a)).collect().run().toVector
       val data2 = data.map { case X4(a, _, _, _) => a }
 
-      dataset2 ?= data2
+      (dataset2 ?= data2) && (symDataset2 ?= data2)
     }
 
     check(forAll(prop[Int, Int, Int, Int] _))

Original file line number	Diff line number	Diff line change
`@@ -2,6 +2,8 @@ package frameless`
`2`	`2`
`3`	`3`	`import org.apache.spark.sql.catalyst.ScalaReflection`
`4`	`4`	`import org.apache.spark.sql.catalyst.expressions.Literal`
	`5`	`+import org.apache.spark.sql.functions.{ col => sparkCol }`
	`6`	`+import shapeless.Witness`
`5`	`7`
`6`	`8`	`package object functions extends Udf with UnaryFunctions {`
`7`	`9`	`object aggregate extends AggregateFunctions`
`@@ -17,4 +19,12 @@ package object functions extends Udf with UnaryFunctions {`
`17`	`19`	`new TypedColumn(expr)`
`18`	`20`	`}`
`19`	`21`	`}`
	`22`	`+`
	`23`	`+ def col[T, A](column: Witness.Lt[Symbol])(`
	`24`	`+ implicit`
	`25`	`+ exists: TypedColumn.Exists[T, column.T, A],`
	`26`	`+ encoder: TypedEncoder[A]): TypedColumn[T, A] = {`
	`27`	`+ val untypedExpr = sparkCol(column.value.name).as[A](TypedExpressionEncoder[A])`
	`28`	`+ new TypedColumn[T, A](untypedExpr)`
	`29`	`+ }`
`20`	`30`	`}`
Original file line number	Diff line number	Diff line change
`@@ -18,9 +18,10 @@ class SelectTests extends TypedDatasetSuite {`
`18`	`18`	`val A = dataset.col[A]('a)`
`19`	`19`
`20`	`20`	`val dataset2 = dataset.select(A).collect().run().toVector`
	`21`	`+ val symDataset2 = dataset.select(functions.col('a)).collect().run().toVector`
`21`	`22`	`val data2 = data.map { case X4(a, _, _, _) => a }`
`22`	`23`
`23`		`- dataset2 ?= data2`
	`24`	`+ (dataset2 ?= data2) && (symDataset2 ?= data2)`
`24`	`25`	`}`
`25`	`26`
`26`	`27`	`check(forAll(prop[Int, Int, Int, Int] _))`