mpi2
diff --git a/‎impc_etl/jobs/load/impc_web_api/__init__.py‎
Lines changed: 247 additions & 0 deletions b/‎impc_etl/jobs/load/impc_web_api/__init__.py‎
Lines changed: 247 additions & 0 deletions
diff --git a/‎impc_etl/jobs/load/impc_web_api/impc_batch_query_mapper.py‎
Lines changed: 124 additions & 0 deletions b/‎impc_etl/jobs/load/impc_web_api/impc_batch_query_mapper.py‎
Lines changed: 124 additions & 0 deletions
@@ -0,0 +1,247 @@
+import csv
+import json
+import os
+import re
+
+import luigi
+from luigi.contrib.spark import PySparkTask
+from pyspark import SparkContext
+from pyspark.sql import SparkSession, Window
+from pyspark.sql.functions import (
+    col,
+    first,
+    explode,
+    zip_with,
+    struct,
+    when,
+    sum,
+    collect_set,
+    lit,
+    concat,
+    max,
+    min,
+    regexp_replace,
+    split,
+    arrays_zip,
+    expr,
+    concat_ws,
+    countDistinct,
+    array_contains,
+    array_union,
+    array,
+    udf,
+    row_number,
+    avg,
+    stddev,
+    count,
+    quarter,
+    regexp_extract,
+    array_distinct,
+    lower,
+    size,
+    array_intersect,
+    trim,
+    explode_outer,
+    desc,
+)
+from pyspark.sql.types import (
+    DoubleType,
+    IntegerType,
+    BooleanType,
+    ArrayType,
+    StringType,
+    StructType,
+    StructField,
+)
+
+from impc_etl.jobs.clean.specimen_cleaner import (
+    MouseSpecimenCleaner,
+    EmbryoSpecimenCleaner,
+)
+from impc_etl.jobs.extract import MGIStrainReportExtractor
+from impc_etl.jobs.extract.ontology_hierarchy_extractor import (
+    OntologyTermHierarchyExtractor,
+)
+from impc_etl.jobs.load import ExperimentToObservationMapper
+from impc_etl.jobs.load.solr.gene_mapper import GeneLoader
+from impc_etl.jobs.load.solr.genotype_phenotype_mapper import GenotypePhenotypeLoader
+from impc_etl.jobs.load.solr.impc_images_mapper import ImpcImagesLoader
+from impc_etl.jobs.load.solr.mp_mapper import MpLoader
+from impc_etl.jobs.load.solr.pipeline_mapper import ImpressToParameterMapper
+from impc_etl.jobs.load.solr.stats_results_mapper import StatsResultsMapper
+from impc_etl.workflow import SmallPySparkTask
+from impc_etl.workflow.config import ImpcConfig
+
+GENE_SUMMARY_MAPPINGS = {
+    "mgi_accession_id": "mgiGeneAccessionId",
+    "marker_symbol": "geneSymbol",
+    "marker_name": "geneName",
+    "marker_synonym": "synonyms",
+    "significant_top_level_mp_terms": "significantTopLevelPhenotypes",
+    "not_significant_top_level_mp_terms": "notSignificantTopLevelPhenotypes",
+    "embryo_data_available": "hasEmbryoImagingData",
+    "human_gene_symbol": "human_gene_symbols",
+    "human_symbol_synonym": "human_symbol_synonyms",
+    "production_centre": "production_centres",
+    "phenotyping_centre": "phenotyping_centres",
+    "allele_name": "allele_names",
+    "ensembl_gene_id": "ensembl_gene_ids",
+}
+
+
+def get_lacz_expression_count(observations_df, lacz_lifestage):
+    procedure_name = "Adult LacZ" if lacz_lifestage == "adult" else "Embryo LacZ"
+    lacz_observations_by_gene = observations_df.where(
+        (col("procedure_name") == procedure_name)
+        & (col("observation_type") == "categorical")
+        & (col("parameter_name") != "LacZ Images Section")
+        & (col("parameter_name") != "LacZ Images Wholemount")
+    )
+    lacz_observations_by_gene = lacz_observations_by_gene.select(
+        "gene_accession_id", "zygosity", lower("parameter_name").alias("parameter_name")
+    ).distinct()
+    lacz_observations_by_gene = lacz_observations_by_gene.groupBy(
+        "gene_accession_id"
+    ).agg(sum(when(col("parameter_name").isNotNull(), 1).otherwise(0)).alias("count"))
+    lacz_observations_by_gene = lacz_observations_by_gene.withColumnRenamed(
+        "count", f"{lacz_lifestage}ExpressionObservationsCount"
+    )
+    lacz_observations_by_gene = lacz_observations_by_gene.withColumnRenamed(
+        "gene_accession_id", "id"
+    )
+
+    return lacz_observations_by_gene
+
+
+def get_lacz_expression_data(observations_df, lacz_lifestage):
+    procedure_name = "Adult LacZ" if lacz_lifestage == "adult" else "Embryo LacZ"
+
+    observations_df = observations_df.withColumn(
+        "parameter_name", lower("parameter_name")
+    )
+
+    lacz_observations = observations_df.where(
+        (col("procedure_name") == procedure_name)
+        & (col("observation_type") == "categorical")
+        & (col("parameter_name") != "LacZ Images Section")
+        & (col("parameter_name") != "LacZ Images Wholemount")
+    )
+    categories = [
+        "expression",
+        "tissue not available",
+        "no expression",
+        "imageOnly",
+        "ambiguous",
+    ]
+    lacz_observations_by_gene = lacz_observations.groupBy(
+        "gene_accession_id",
+        "zygosity",
+        "parameter_name",
+    ).agg(
+        *[
+            sum(when(col("category") == category, 1).otherwise(0)).alias(
+                to_camel_case(category.replace(" ", "_"))
+            )
+            for category in categories
+        ],
+        collect_set(
+            "parameter_stable_id",
+        ).alias("mutant_parameter_stable_ids"),
+    )
+    lacz_observations_by_gene = lacz_observations_by_gene.withColumn(
+        "mutantCounts",
+        struct(*[to_camel_case(category.replace(" ", "_")) for category in categories]),
+    )
+
+    lacz_observations_by_gene = lacz_observations_by_gene.select(
+        "gene_accession_id",
+        "zygosity",
+        "mutant_parameter_stable_ids",
+        "parameter_name",
+        "mutantCounts",
+    ).distinct()
+
+    wt_lacz_observations_by_strain = lacz_observations.where(
+        col("biological_sample_group") == "control"
+    )
+
+    wt_lacz_observations_by_strain = wt_lacz_observations_by_strain.groupBy(
+        "parameter_name"
+    ).agg(
+        *[
+            sum(when(col("category") == category, 1).otherwise(0)).alias(
+                to_camel_case(category.replace(" ", "_"))
+            )
+            for category in categories
+        ],
+        collect_set(
+            "parameter_stable_id",
+        ).alias("control_parameter_stable_ids"),
+    )
+
+    wt_lacz_observations_by_strain = wt_lacz_observations_by_strain.withColumn(
+        "controlCounts",
+        struct(*[to_camel_case(category.replace(" ", "_")) for category in categories]),
+    )
+
+    wt_lacz_observations_by_strain = wt_lacz_observations_by_strain.select(
+        "parameter_name", "controlCounts"
+    )
+
+    lacz_observations_by_gene = lacz_observations_by_gene.join(
+        wt_lacz_observations_by_strain,
+        ["parameter_name"],
+        "left_outer",
+    )
+
+    lacz_images_by_gene = observations_df.where(
+        (col("procedure_name") == procedure_name)
+        & (col("observation_type") == "image_record")
+        & (
+            (lower(col("parameter_name")) == "lacz images section")
+            | (lower(col("parameter_name")) == "lacz images wholemount")
+        )
+    )
+
+    lacz_images_by_gene = lacz_images_by_gene.select(
+        struct(
+            "parameter_stable_id",
+            "parameter_name",
+        ).alias("expression_image_parameter"),
+        "gene_accession_id",
+        "zygosity",
+        explode("parameter_association_name").alias("parameter_association_name"),
+    ).distinct()
+    lacz_images_by_gene = lacz_images_by_gene.groupBy(
+        "gene_accession_id", "zygosity", "parameter_association_name"
+    ).agg(
+        collect_set("expression_image_parameter").alias("expression_image_parameters")
+    )
+    lacz_images_by_gene = lacz_images_by_gene.withColumnRenamed(
+        "parameter_association_name", "parameter_name"
+    )
+    lacz_images_by_gene = lacz_images_by_gene.withColumn(
+        "parameter_name", lower("parameter_name")
+    )
+    lacz_observations_by_gene = lacz_observations_by_gene.join(
+        lacz_images_by_gene,
+        ["gene_accession_id", "zygosity", "parameter_name"],
+        "left_outer",
+    )
+    lacz_observations_by_gene = lacz_observations_by_gene.withColumn(
+        "lacZLifestage", lit(lacz_lifestage)
+    )
+    return lacz_observations_by_gene.distinct()
+
+
+def to_camel_case(snake_str):
+    components = snake_str.split("_")
+    # We capitalize the first letter of each component except the first one
+    # with the 'title' method and join them together.
+    return components[0] + "".join(x.title() for x in components[1:])
+
+
+def phenotype_term_zip_udf(x, y):
+    return when(x.isNotNull(), struct(x.alias("id"), y.alias("name"))).otherwise(
+        lit(None)
+    )
@@ -0,0 +1,124 @@
+from impc_etl.jobs.load.impc_web_api import (
+    ImpcConfig,
+    PySparkTask,
+    SparkContext,
+    SparkSession,
+    col,
+    collect_set,
+    explode_outer,
+    luigi,
+    phenotype_term_zip_udf,
+)
+
+
+class ImpcBatchQueryMapper(PySparkTask):
+    """
+    PySpark Task class to parse GenTar Product report data.
+    """
+
+    #: Name of the Spark task
+    name: str = "ImpcBatchQueryMapper"
+
+    ortholog_mapping_report_tsv_path = luigi.Parameter()
+    mp_hp_matches_csv_path = luigi.Parameter()
+
+    #: Path of the output directory where the new parquet file will be generated.
+    output_path: luigi.Parameter = luigi.Parameter()
+
+    def requires(self):
+        return [ImpcGeneStatsResultsMapper()]
+
+    def output(self):
+        """
+        Returns the full parquet path as an output for the Luigi Task
+        (e.g. impc/dr15.2/parquet/product_report_parquet)
+        """
+        return ImpcConfig().get_target(
+            f"{self.output_path}/impc_web_api/batch_query_data_parquet"
+        )
+
+    def app_options(self):
+        """
+        Generates the options pass to the PySpark job
+        """
+        return [
+            self.ortholog_mapping_report_tsv_path,
+            self.mp_hp_matches_csv_path,
+            self.input()[0].path,
+            self.output().path,
+        ]
+
+    def main(self, sc: SparkContext, *args):
+        """
+        Takes in a SparkContext and the list of arguments generated by `app_options` and executes the PySpark job.
+        """
+        spark = SparkSession(sc)
+
+        # Parsing app options
+        ortholog_mapping_report_tsv_path = args[0]
+        mp_hp_matches_csv_path = args[1]
+        gene_stats_results_json_path = args[2]
+        output_path = args[3]
+
+        ortholog_mapping_df = spark.read.csv(
+            ortholog_mapping_report_tsv_path, sep="\t", header=True
+        )
+        stats_results = spark.read.json(gene_stats_results_json_path)
+
+        ortholog_mapping_df = ortholog_mapping_df.select(
+            col("Mgi Gene Acc Id").alias("mgiGeneAccessionId"),
+            col("Human Gene Symbol").alias("humanGeneSymbol"),
+            col("Hgnc Acc Id").alias("hgncGeneAccessionId"),
+        ).distinct()
+
+        stats_results = stats_results.join(
+            ortholog_mapping_df, "mgiGeneAccessionId", how="left_outer"
+        )
+
+        mp_matches_df = spark.read.csv(mp_hp_matches_csv_path, header=True)
+        mp_matches_df = mp_matches_df.select(
+            col("curie_x").alias("id"),
+            col("curie_y").alias("hp_term_id"),
+            col("label_y").alias("hp_term_name"),
+        ).distinct()
+
+        stats_mp_hp_df = stats_results.select(
+            "statisticalResultId",
+            "potentialPhenotypes",
+            "intermediatePhenotypes",
+            "topLevelPhenotypes",
+            "significantPhenotype",
+        )
+        for phenotype_list_col in [
+            "potentialPhenotypes",
+            "intermediatePhenotypes",
+            "topLevelPhenotypes",
+        ]:
+            stats_mp_hp_df = stats_mp_hp_df.withColumn(
+                phenotype_list_col[:-1], explode_outer(phenotype_list_col)
+            )
+
+        stats_mp_hp_df = stats_mp_hp_df.join(
+            mp_matches_df,
+            (
+                (col("significantPhenotype.id") == col("id"))
+                | (col("potentialPhenotype.id") == col("id"))
+                | (col("intermediatePhenotype.id") == col("id"))
+                | (col("topLevelPhenotype.id") == col("id"))
+            ),
+            how="left_outer",
+        )
+        stats_mp_hp_df = stats_mp_hp_df.withColumn(
+            "humanPhenotype",
+            phenotype_term_zip_udf(col("hp_term_id"), col("hp_term_name")),
+        )
+        stats_mp_hp_df = (
+            stats_mp_hp_df.groupBy("statisticalResultId")
+            .agg(collect_set("humanPhenotype").alias("humanPhenotypes"))
+            .select("statisticalResultId", "humanPhenotypes")
+            .distinct()
+        )
+
+        stats_results = stats_results.join(stats_mp_hp_df, "statisticalResultId")
+
+        stats_results.write.parquet(output_path)