ablog

不器用で落着きのない技術者のメモ

PySpark

date_add で "TypeError: Column is not iterable" が発生する

事象 PySpark で、下記のようなカラムがあったとして | date: Date | days: Int | |------------|-----------| | 2022-08-25 | 3 | | 2022-08-26 | 2 | | ... | ... | date 列の days 後の日付を出したいが、 df.withColumn( 'duedate', F.date_add(F.col('d…

PySpark で Parquet から行数をカウントしたメモ

from pyspark.sql import SparkSession spark = SparkSession.builder. \ appName("ExamplePySparkSubmitTask"). \ config("spark.databricks.hive.metastore.glueCatalog.enabled", "true"). \ enableHiveSupport(). \ getOrCreate() print(spark.sparkCont…

pyspark.sql module の select で DataFrame に複数カラムを連結したカラムを追加する

pyspark.sql module の select、concat、col で DataFrame に複数カラムを連結したカラムを追加する。.alias("...") で連結したカラムに別名をつけている。 from pyspark.sql.functions import concat, col, lit df = df.select(col("col1"), col("col2"), c…